Работа с текстом
<<  Система управления документами в организации Text Mining  >>
Text Mining
Text Mining
Задача: выбрать ключевую и наиболее значимую информацию
Задача: выбрать ключевую и наиболее значимую информацию
Рождение Text Mining
Рождение Text Mining
Проблемы и вопросы
Проблемы и вопросы
Типичные задачи Text Mining
Типичные задачи Text Mining
Основные задачи Text Mining
Основные задачи Text Mining
Системы автоматических ответов на вопросы пользователей, задаваемых на
Системы автоматических ответов на вопросы пользователей, задаваемых на
Автоматическое реферирование (Automatic Text Summarization) —
Автоматическое реферирование (Automatic Text Summarization) —
Примеры внедрения Text Mining
Примеры внедрения Text Mining
Пример 1 Группировка результатов поиска «мышь» по известным классам на
Пример 1 Группировка результатов поиска «мышь» по известным классам на
Пример 2
Пример 2
Пример 3 Сюжетный подход при классификации документов (новости)
Пример 3 Сюжетный подход при классификации документов (новости)
Пример 4
Пример 4

Презентация на тему: «Text Mining». Автор: В. К. Толстых. Файл: «Text Mining.ppt». Размер zip-архива: 311 КБ.

Text Mining

содержание презентации «Text Mining.ppt»
СлайдТекст
1 Text Mining

Text Mining

Глубинный анализ текста

ДонНУ, кафедра КТ, проф. В. К. Толстых

Из цикла лекций «Современные Internet-технологии» для студентов 5-го курса кафедры Компьютерных технологий физического факультета Донецкого национального университета

2 Задача: выбрать ключевую и наиболее значимую информацию

Задача: выбрать ключевую и наиболее значимую информацию

Text Mining позволяет анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений. Text Mining – это новый вид поиска, который, в отличие от традиционных подходов не только находит списки документов, формально релевантных запросам, но и позволяет получить ответ на просьбу: "Помоги мне понять смысл, разобраться с этой проблематикой". Под Text Mining понимается механизм обнаружения в потоке данных интересных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования.

2

3 Рождение Text Mining

Рождение Text Mining

Контент-мониторинг — это методика объективного и систематического изучения содержимого сетевой информации. Это перспективное направление развития систем сетевой интеграции, появление которого вызвано, прежде всего, задачей систематического отслеживания тенденций и процессов в постоянно обновляемой сетевой информационной среде. Важнейшей теоретической основой контент-мониторинга является контент-анализ. Контент-анализ — это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который производится постоянно, т.е. на протяжении не определяемого заранее промежутка времени. Начиная с 60-х годов, с появлением средств автоматизации и формирования текстов в электронном виде, получил начальное развитие контент-анализ информации больших объемов — баз данных и интерактивных медиа-сред. При этом выделилось направление, получившее самостоятельное развитие — Data Mining и Text Mining

3

4 Проблемы и вопросы

Проблемы и вопросы

Text Mining не может заменить аналитика! Сложность разработки и эксплуатации приложенияText Mining: Квалификация пользователя Сложность подготовки данных Большой процент ложных, недостоверных или бессмысленных результатов Высокая стоимость Отсутствие достаточного количества репрезентативных данных Закрытий коммерческий характер многих разработок

4

5 Типичные задачи Text Mining

Типичные задачи Text Mining

Классификация Кластеризация Реферирование Поиск по ключевым словам Прогнозирование Ассоциация Выявление феноменов Визуализация Анализ и обнаружение отклонений Оценивание Анализ связей Ответы на вопросы Подведение итогов

5

6 Основные задачи Text Mining

Основные задачи Text Mining

Классификация — это отнесение каждого документа к определенному классу (кластеру) с заранее известными признаками, полученными на этапе обучения. В современных системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях, размещение документов в определенные папки, избирательное распространение новостей подписчикам. Кластеризация — это разбиение множества документов на кластеры, создание кластеров (в т.ч. автоматическое), представляющих собой подмножества, смысловые параметры которых заранее неизвестны. Кластеризация широко применяется при реферировании больших документальных массивов, определении взаимосвязанных групп документов, для упрощения визуализации информации, выявления дубликатов или близких по содержанию документов. Классификация и кластеризация представляют собой две противоположные крайности в отношении человеческого участия в процессе группировки документов. Механизм классификации обычно обучается на отобранных документах только после того, как заканчивается стадия автоматического выявления классов (кластеров).

6

7 Системы автоматических ответов на вопросы пользователей, задаваемых на

Системы автоматических ответов на вопросы пользователей, задаваемых на

естественном языке, задумывались еще на заре кибернетики. В качестве базы знаний в этих системах предполагается использовать ресурсы Internet, обработанные современными средствами глубинного анализа текстов. Сегодня корпорация Microsoft уже пытается создать первую реально работающую систему, способную отвечать на вопросы пользователей. Работы в этом направлении ведутся в исследовательском центре корпорации. Согласно разработанным алгоритмам, сначала анализируется структура вопроса, определяется подлежащее (объект поиска), преобразуется вопрос в поисковый запрос, последний отправляется на обычный поисковик, получают результаты, а потом ищут необходимые слова среди найденных страниц и выдают ответ. Разрабатываются еще более сложные системы с зачатками искусственного интеллекта, которые могли бы давать не односложные, а развернутые варианты ответов до десятка слов.

7

8 Автоматическое реферирование (Automatic Text Summarization) —

Автоматическое реферирование (Automatic Text Summarization) —

составление кратких изложений материалов, аннотаций или дайджестов, т.е. извлечение наиболее важных сведений из одного или нескольких документов, и генерация на их основе лаконичных и информационно емких отчетов. На сегодня существует множество путей решения задачи, которые достаточно четко подразделяются на два направления, — квазиреферирование и краткое изложение содержания первичных документов. Квазиреферирование основано на экстрагировании фрагментов документов, т.е. выделении наиболее информативных фраз и формировании из них квазирефератов. Краткое изложение исходного материала основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее существенной информации и порождении новых текстов, содержательно обобщающих первичные документы. Главное различие между средствами реферирования состоит в том, что они формируют или набор выдержек, или краткое изложение документа.

8

9 Примеры внедрения Text Mining

Примеры внедрения Text Mining

Например, если в Google набрать "классическая музыка", то поисковик выдаст ссылки на сайты, так или иначе касающиеся классической музыки. Если же искать "классическую музыку" через ИПС с кластеризацией и систематизацией данных на основе Text Mining, то будет выдан тематически сортированный список композиций, которые можно тут же прослушать. Другой пример, по запросу "Гарри Поттер" пользователь получит не просто набор ссылок, а отсортированный отчет, в котором часть ссылок будет лежать в графе "фильмы", другая часть - в колонке "книги", а третья - в колонке "рецензии".

9

10 Пример 1 Группировка результатов поиска «мышь» по известным классам на

Пример 1 Группировка результатов поиска «мышь» по известным классам на

ИПС vivisimo.com (классификация)

10

11 Пример 2

Пример 2

11

12 Пример 3 Сюжетный подход при классификации документов (новости)

Пример 3 Сюжетный подход при классификации документов (новости)

12

13 Пример 4

Пример 4

Не так давно Центральное Разведывательное Управление США представило широкой публике свои технологии "добычи данных", используемые для поиска информации в текстах, радио- и телепередачах. Отдел современных информационных технологий, входящий в состав управления науки и техники Центрального разведывательного управления США, продемонстрировал общественности технологии "извлечения текстовых данных", используемые для поиска значимой информации в огромной массе документов и в радио- и телепередачах на различных языках. Поиск ведется как по систематизированным, так и по случайным источникам, причем объектами поиска являются тексты в печатных изданиях и в цифровом виде, графические изображения, аудиоинформация на 35 языках. Для отсеивания аудиоинформации используется методика "Oasis", которая распознает речь и превращает ее в текст. При этом технология позволяет отделять мужские голоса от женских, а также голоса, принадлежащие разным людям, и записывать их в виде диалогов. Методика "Oasis" позволяет выделять из аудиопотока только те голоса или ту конкретную информацию, которая заложена в настройках поиска.

13

«Text Mining»
http://900igr.net/prezentacija/informatika/text-mining-242278.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды