Работа с текстом
<<  Text Mining Text Mining  >>
Text Mining
Text Mining
Историческая справка
Историческая справка
Задача анализа текстов Этапы анализа текстов
Задача анализа текстов Этапы анализа текстов
Методы анализа в неструктурированных текстах лежат на стыке нескольких
Методы анализа в неструктурированных текстах лежат на стыке нескольких
Процесс анализа текстовых документов можно представить как
Процесс анализа текстовых документов можно представить как
1. Поиск информации
1. Поиск информации
Предварительная обработка текста
Предварительная обработка текста
Приведение регистра
Приведение регистра
Задачи
Задачи
Классификация (classification) — стандартная задача из области Data
Классификация (classification) — стандартная задача из области Data
Автоматическое аннотирование (summarization) позволяет сократить текст
Автоматическое аннотирование (summarization) позволяет сократить текст
Извлечение ключевых понятий из текста
Извлечение ключевых понятий из текста
Процесс извлечения ключевых понятий
Процесс извлечения ключевых понятий
Стадия локального анализа
Стадия локального анализа
На следующем этапе идентифицируются различные типы имен собственных и
На следующем этапе идентифицируются различные типы имен собственных и
Петр Сергеевич Иванов с типом "человек"; Иван Андреевич Сидоров с
Петр Сергеевич Иванов с типом "человек"; Иван Андреевич Сидоров с
З а п о м н и т е
З а п о м н и т е
Разбор последовательных фрагментов предложений
Разбор последовательных фрагментов предложений
В результате наш пример будет выглядеть следующим образом: [сущ
В результате наш пример будет выглядеть следующим образом: [сущ
Во втором образце "должность" представляет собой элемент, который
Во втором образце "должность" представляет собой элемент, который
e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 —тип: должность,
e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 —тип: должность,
Стадия интеграции и вывода понятий
Стадия интеграции и вывода понятий
В результате в тексте выделяются две структуры событий на основе ранее
В результате в тексте выделяются две структуры событий на основе ранее
Для разрешения этой ссылки будет выполняться поиск первой
Для разрешения этой ссылки будет выполняться поиск первой
При анализе ссылок также надо учитывать иерархию понятий
При анализе ссылок также надо учитывать иерархию понятий
Text Mining
Text Mining
Классификация текстовых документов
Классификация текстовых документов
Формально задачу классификации текстовых документов описывают набором
Формально задачу классификации текстовых документов описывают набором
Подобно категориям каждый документ также имеет признаки, по которым
Подобно категориям каждый документ также имеет признаки, по которым
Методы классификации текстовых документов
Методы классификации текстовых документов
Существует два противоположных подхода к формированию множества F(C) и
Существует два противоположных подхода к формированию множества F(C) и
Метод Naive Bayes
Метод Naive Bayes
Методы кластеризации текстовых документов
Методы кластеризации текстовых документов
Большинство алгоритмов кластеризации требуют, чтобы данные были
Большинство алгоритмов кластеризации требуют, чтобы данные были
,Где
,Где
Кроме метода TFIDF для взвешивания термов часто используется подход
Кроме метода TFIDF для взвешивания термов часто используется подход
Все алгоритмы кластеризации основываются на измерениях похожести по
Все алгоритмы кластеризации основываются на измерениях похожести по
иерархический — создает дерево со всеми документами в корневом узле и
иерархический — создает дерево со всеми документами в корневом узле и
Иерархические методы кластеризации текстов
Иерархические методы кластеризации текстов
Дентограмма
Дентограмма
Эта группа методов характеризуется последовательным объединением
Эта группа методов характеризуется последовательным объединением
Представителем дивизимной иерархической кластеризации текстовых
Представителем дивизимной иерархической кластеризации текстовых
Бинарные методы кластеризации текстов
Бинарные методы кластеризации текстов
Бинарная кластеризация обычно создает кластеры, оптимизируя целевую
Бинарная кластеризация обычно создает кластеры, оптимизируя целевую
Задача аннотирования текстов
Задача аннотирования текстов
Автоматическое
Автоматическое
Подходы к автоматическому аннотированию
Подходы к автоматическому аннотированию
Подход извлечения фрагментов
Подход извлечения фрагментов
Методы извлечения фрагментов для аннотации
Методы извлечения фрагментов для аннотации
Рассмотрим метод аннотирования документов, основанный на использовании
Рассмотрим метод аннотирования документов, основанный на использовании
На рис
На рис
Другими словами, если имеется связь между двумя узлами, то говорят,
Другими словами, если имеется связь между двумя узлами, то говорят,
Средства ORACLE- ORACLE Text
Средства ORACLE- ORACLE Text
Oracle Text — программный комплекс, интегрированный в СУБД,
Oracle Text — программный комплекс, интегрированный в СУБД,
Средства расширения поискового запроса
Средства расширения поискового запроса
Средства от IBM- Intelligent Miner for Text
Средства от IBM- Intelligent Miner for Text
Средства SAS Institute — Text Miner
Средства SAS Institute — Text Miner
Средства Мегапьютер Интеллидженс —TextAnalyst
Средства Мегапьютер Интеллидженс —TextAnalyst
Выводы
Выводы
В о п р о с ы
В о п р о с ы
Используют следующие приемы удаления неинформативных слов и повышения
Используют следующие приемы удаления неинформативных слов и повышения
Да
Да
Установите соответствие формулы вычисления веса фрагмента текста
Установите соответствие формулы вычисления веса фрагмента текста
Oracle Text
Oracle Text

Презентация на тему: «Text Mining». Автор: Алсаба Сармад. Файл: «Text Mining.ppt». Размер zip-архива: 5377 КБ.

Text Mining

содержание презентации «Text Mining.ppt»
СлайдТекст
1 Text Mining

Text Mining

2 Историческая справка

Историческая справка

Началом развития технологии Text Mining можно считать эпоху правления президента США Ричарда Никсона (1969-1974 гг.). Тогда были выделены десятки миллионов долларов на развитие научных направлений, связанных с автоматизацией перевода. Это происходило в эпоху холодной войны, когда, в частности, очень актуальной была задача компьютерного перевода с русского языка на английский самых разнообразных документов, начиная с научных докладов и заканчивая технической документацией. Неудивительно, что проект этот носил закрытый характер. В то же самое время появилась новая область знаний - Natural Language Processing (NLP), называвшаяся в России компьютерной лингвистикой. В 90-х годах в открытых источниках стали появляться не только доклады с научных конференций, но и программные коды, что позволило привлечь к разработкам более широкое международное научное сообщество. Наиболее активны в этой области ученые США, Великобритании, Франции и Германии. В нашей стране развитие компьютерной лингвистики имело свою специфику. Она развивалась в основном в интересах оборонных предприятий и служб безопасности и не была ориентирована на решения конкретных бизнес-задач.

3 Задача анализа текстов Этапы анализа текстов

Задача анализа текстов Этапы анализа текстов

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например,реляционных таблицах) Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называютText Mining.

4 Методы анализа в неструктурированных текстах лежат на стыке нескольких

Методы анализа в неструктурированных текстах лежат на стыке нескольких

областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями. В работе по аналогии с термином Data Mining дано следующее определение: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. Как видно, от определения Data Mining оно отличается только новым понятием "неструктурированные текстовые данные". Под такими знаниями понимается набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких документов являются: Web-страницы, электронная почта, нормативные документы.

5 Процесс анализа текстовых документов можно представить как

Процесс анализа текстовых документов можно представить как

последовательность нескольких шагов:

6 1. Поиск информации

1. Поиск информации

На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступность.

2. Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для представления их в виде, с которым работают методы Text Mining. Целью таких преобразований является удаление лишних слов и придание тексту более строгой формы.

3. Извлечение информации. Извлечение информации из выбранных документов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

4. Применение методов Text Mining. На данном шаге извлекаются шаблоны и отношения, имеющиеся в текстах.

5. Интерпретация результатов. Последний шаг в процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как правило, заключается или в представлении результатов на естественном языке, или в их визуализации в графическом виде.

7 Предварительная обработка текста

Предварительная обработка текста

Используют следующие приемы удаления неинформативных слов и повышения строгости текстов:

Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа. Типичным примером таких слов являются вспомогательные слова и артикли, например: "так как","кроме того».

Стемминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме. Нормальная форма исключает склонение слова, множественную форму, особенности устной речи. Например, слова "сжатие" и "сжатый" должны быть преобразованы в нормальную форму слова "сжимать". Алгоритмы морфологического разбора учитывают языковые особенности и вследствие этого являются языково- зависимыми алгоритмами

8 Приведение регистра

Приведение регистра

Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру. Например, все слова "текст", "Текст", "ТЕКСТ" приводятся к нижнему регистру "текст".

N-граммы — это альтернатива морфологическому разбору и удалению стоп-слов. N-грамма — это часть строки, состоящая из N символов. Например, слово "дата" может быть представлено 3-граммой "_ да", "дат","ата", "та _" или 4-граммой "_ дат", "дата", "ата _", где символ подчеркивания заменяет предшествующий или замыкающий слово пробел.

9 Задачи

Задачи

TEXT MINING

10 Классификация (classification) — стандартная задача из области Data

Классификация (classification) — стандартная задача из области Data

Mining. Ее целью является определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится. Особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из документов соответствует какой-нибудь заданной категории.

Целью кластеризации (clustering) документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества. Отметим, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее

11 Автоматическое аннотирование (summarization) позволяет сократить текст

Автоматическое аннотирование (summarization) позволяет сократить текст

сохраняя его смысл.

Первичной целью извлечения ключевых понятий (feature extraction) является идентификация фактов и отношений в тексте. В большинстве случаев такими понятиями являются имена существительные и нарицательные: имена и фамилии людей, названия организаций и др. Алгоритмы извлечения понятий могут использовать словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Навигация по тексту (text-base navigation) позволяет пользователям перемещаться по документам относительно тем и значимых терминов. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Поиск ассоциаций также является одной из основных задач Data Mining. Для ее решения в заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

12 Извлечение ключевых понятий из текста

Извлечение ключевых понятий из текста

Извлечение ключевых понятий из текстовых документов можно рассматривать как фильтрацию больших объемов текста. идентификация фактов в текстах и извлечение их характеристик процесс извлечения ключевых понятий с помощью шаблонов извлечения фактов с помощью образцов

13 Процесс извлечения ключевых понятий

Процесс извлечения ключевых понятий

Локальный анализ

Анализ понятий

14 Стадия локального анализа

Стадия локального анализа

Петр Сергеевич Иванов покинул должность вице-президента известной фабрики ООО "Анкор". Его заменил Иван Андреевич Сидоров.

На этапе лексического анализа текст делится на предложения и лексемы.

Рассмотрим процесс выделения ключевых понятий на примере следующего текста:

В нашем примере на этом этапе должны быть идентифицированы следующие лексемы: "Петр", "Иван", "ООО". При этом "Петр" и "Иван"помечаются как имена, а "ООО" — как префикс фирмы.

15 На следующем этапе идентифицируются различные типы имен собственных и

На следующем этапе идентифицируются различные типы имен собственных и

другие специальные формы, такие как даты, денежные выражения. Имена идентифицируются с помощью образцов (регулярных выражений), которые строятся на основе частей речи, синтаксических и орфографических свойств (например, использование заглавных букв). Например, люди могут быть идентифицированы: предшествующими званиями: "мистер", "сударь", "господин", "товарищ " (например, мистер Смит, господин Иванов, товарищ Сталин) распространенными именами: "Иван", "Петр", "Елена" и т. п. (например,Иван Сидоров, Елена Премудрая, Петр Сергеевич Иванов) предшествующими инициалами имени и отчества (например, И. И. Сидоров, Е. А. Иванова) Компании могут идентифицироваться с помощью лексем, обозначающих форму их организации "ООО", "ЗАО"

16 Петр Сергеевич Иванов с типом "человек"; Иван Андреевич Сидоров с

Петр Сергеевич Иванов с типом "человек"; Иван Андреевич Сидоров с

типом "человек"; ООО "Анкор" с типом "фирма". В результате получим следующую структуру: [имя собственное тип: человек Петр Сергеевич Иванов] покинул должность вице-президента известной фабрики [имя собственное тип: фирма ООО "Анкор"]. Его заменил [имя собственное тип: человек Иван Андреевич Сидоров].

В нашем примере можно идентифицировать три имени собственных:

17 З а п о м н и т е

З а п о м н и т е

При идентификации имен собственных также важно распознавать и альтернативное их написание (другие формы тех же имен). Например, "Петр Сергеевич Иванов", "П. С. Иванов", "Петр Иванов", "господин Иванов" должны быть идентифицированы как одно и то же лицо. Такое сопоставление различных написаний имен собственных может помочь в идентификации свойств понятия. Например, по выражению "Елена работает с 9:00 до 20:00" невозможно понять, Елена является человеком или фирмой с названием "Елена "(однозначно это сложно определить даже человеку). Однако если в тексте также встречается альтернативное написание "ООО "Елена", то понятию "Елена" можно присвоить тип "фирма".

18 Разбор последовательных фрагментов предложений

Разбор последовательных фрагментов предложений

Они строят только такие структуры, которые могут быть точно определены или синтаксисом, или семантикой отдельного фрагмента предложения. Примером такого подхода может служить построение структур для групп имен существительных (имя существительное плюс его модификации) и глагольных групп (глагол с его вспомогательными частями). Вначале помечаются все основные группы имен существительных меткой "сущ.". В нашем примере имеются следующие группы имен существительных: три имени собственных, местоимение и две больших группы. Далее помечаются глагольные группы меткой "гл.".

19 В результате наш пример будет выглядеть следующим образом: [сущ

В результате наш пример будет выглядеть следующим образом: [сущ

сущность: е1 Петр Сергеевич Иванов] [гл.: покинул] [сущ. сущность: е2 должность вице-президента] [сущ. сущность: е3 известной фабрики] [[сущ. сущность: е4 ООО "Анкор"]. [сущ. сущность: е5 Его] [гл.: заменил] [сущ. сущность: е6 Иван Андреевич Сидоров]. Для каждой группы имен существительных создается сущность. В нашем примере их шесть: e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 — тип: должность, значение: "вице-президент"; e3 — тип: фирма; e4 — тип: фирма, имя: "ООО "Анкор"; e5 — тип: человек; e6 — тип: человек, имя: "Иван Андреевич Сидоров".

В нашем примере можно выделить два важных образца: описание фирмы, имя фирмы; конструкцию группы: должность фирмы.

20 Во втором образце "должность" представляет собой элемент, который

Во втором образце "должность" представляет собой элемент, который

сопоставляется с сущностью типа "должность" (в нашем примере это сущность е2),а элемент "фирма" сопоставляется c сущностью типа "фирма" (е3 и е4). Возможно использование некоторой иерархии семитических типов и сопоставление образцов с ее применением (например, "фирма" более общее понятие, чем "фабрика", поэтому сопоставление должно выполняться). В первом образце элемент "имя фирмы" определяет сущность типа "фирма", в которой главным словом является имя (е4); элемент "описание фирмы" определяет группу типа "фирма", в котором главным словом является общее описание(е3). Эти образцы порождают следующие метки: [сущ. сущность: е1 Петр Сергеевич Иванов] [гл: покинул] [сущ. сущность:е2 должность вице-президента известной фирмы ООО "Анкор"]. [сущ. сущность: е5 Его] [гл: заменил] [сущ. сущность: е6 Иван Андреевич Сидоров]. Таким образом, список сущностей обновится следующим образом:

21 e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 —тип: должность,

e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 —тип: должность,

значение: "вице-президент" фирмы: е3; e3 —тип: фирма, имя: "ООО "Анкор"; e5 —тип: человек; e6 —тип: человек, имя: "Иван Андреевич Сидоров".

22 Стадия интеграции и вывода понятий

Стадия интеграции и вывода понятий

Для извлечения событий и отношений используются образцы, которые получаются за счет расширения образцов, описанных ранее. Например, событие преемственности должности извлекается с помощью следующих образцов: человек покинул должность и человек заменяется человеком.

Группа имен сущест-ых

Актив. и пассивные глагол. формы

23 В результате в тексте выделяются две структуры событий на основе ранее

В результате в тексте выделяются две структуры событий на основе ранее

созданных сущностей:

[событие: е7 Петр Сергеевич Иванов покинул должность вице-президента известной фирмы ООО "Анкор"]. [событие: е8 Его заменил Иван Андреевич Сидоров]. Список сущностей обновляется следующим образом: e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 — тип: должность, значение: "вице-президент" фирмы: е3; e3 — тип: фирма, имя: "ООО "Анкор"; e5 — тип: человек; e6 — тип: человек, имя: "Иван Андреевич Сидоров"; e7 — тип: покинул, человек: e1, должность: е2; e8 — тип: заменил, человек: е6, человек: е5.

Ссылка, представленная местоимением, описываемая именем сущ.

24 Для разрешения этой ссылки будет выполняться поиск первой

Для разрешения этой ссылки будет выполняться поиск первой

предшествующей сущности с типом "человек". В нашем примере такой сущностью является e1. В результате ссылки на e5 должны быть заменены ссылками на e1. Таким образом, список сущностей и событий обновится следующим образом: e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 — тип: должность, значение: "вице-президент" фирмы: е3; e3 — тип: фирма, имя: "ООО "Анкор"; e6 — тип: человек, имя: "Иван Андреевич Сидоров"; e7 — тип: покинул, человек: e1, должность: е2; e8 — тип: заменил, человек: е6, человек: е1.

25 При анализе ссылок также надо учитывать иерархию понятий

При анализе ссылок также надо учитывать иерархию понятий

Во многих ситуациях определенная информация о событии может распространяться на другие предложения. Используя механизмы вывода, можно получить новые факты. В нашем примере, строя выводы на смысле сказуемого"заменил", можно получить новый факт, что Иван Андреевич Сидоров тоже был вице-президентом. Такой вывод можно сделать на основе системы порождающих правил, таких как следующие: покинул (X-человек, Y-должность) & заменил (Z-человек, X-человек) => вступил (Z-человек, Y-должность); вступил (X-человек, Y-должность) & заменил (X-человек, Z-человек) => покинул (Z-человек, Y-должность). Такие правила позволяют добавить еще одно событие: e1 — тип: человек, имя: "Петр Сергеевич Иванов"; e2 — тип: должность, значение: "вице-президент" фирмы: е3; e3 — тип: фирма, имя: "ООО "Анкор"; e6 — тип: человек, имя: "Иван Андреевич Сидоров"; e7 — тип: покинул, человек: e1, должность:е2; e8 — тип: заменил, человек: е6, человек: е1; e9 — тип: вступил, человек: е6, должность: е2.

26 Text Mining
27 Классификация текстовых документов

Классификация текстовых документов

28 Формально задачу классификации текстовых документов описывают набором

Формально задачу классификации текстовых документов описывают набором

множеств. Множество документов представляется в виде:

Категории документов представляются множеством:

Иерархию категорий можно представить в виде множества пар, отражающих отношение вложенности между рубриками:

(Категория cp вложена в категорию cj).

Таким образом, для каждой категории должно быть множество признаков:

Где,

Такое множество признаков часто называют словарем, т. к. оно состоит из лексем, которые включают слова и/или словосочетания, характеризующие категорию.

29 Подобно категориям каждый документ также имеет признаки, по которым

Подобно категориям каждый документ также имеет признаки, по которым

его можно отнести с некоторой степенью вероятности к одной или нескольким категориям:

Множество признаков всех документов должно совпадать с множеством признаков категорий, т. е.:

Решение об отнесении документа di к категории cr принимается на основании пересечения:

30 Методы классификации текстовых документов

Методы классификации текстовых документов

31 Существует два противоположных подхода к формированию множества F(C) и

Существует два противоположных подхода к формированию множества F(C) и

построению правил:

Машинное обучение

Экспертный метод

предполагается наличие обучающей выборки документов, по которому строится множество F(C). В случае машинного обучения анализируется статистика лингвистических шаблонов (таких как лексическая близость, повторяемость слов и т. п.) из документов обучающей выборки. Достоинством данного подхода является отсутствие необходимости в словарях, которые сложно построить для больших предметных областей.

предполагает, что выделение признаков — множества F(C) — и составление правил производится экспертами. Формирование словаря (множества F(C)) может быть вы- полнено на основе набора терминов предметной области и отношений между ними (основные термины, синонимы и родственные термины). Классификация может затем определить рубрику документа в соответствии с частотой, с которой появляются выделенные в тексте термины (ключевые понятия).

32 Метод Naive Bayes

Метод Naive Bayes

предполагает вычисление вероятностей принадлежности текстового документа к каждой рубрике. Решение о принадлежности принимается по максимальной вероятности:

Зависимая переменная y указывает на принадлежность документа к категории сr. Событие E заключается в наличии в текстовом документе признаков (лемм), характеризующих категорию сr .При этом независимой переменной xg является признак — наличие слова (леммы) из словаря F(Cr) для категории cr в текстовом документе di, т. е.:

33 Методы кластеризации текстовых документов

Методы кластеризации текстовых документов

Представление текстовых документов

34 Большинство алгоритмов кластеризации требуют, чтобы данные были

Большинство алгоритмов кластеризации требуют, чтобы данные были

представлены в виде модели векторного пространства (vector space model). Это наиболее широко используемая модель для информационного поиска. Эта модель представляет документы матрицей слов и документов:

Где,

Вектор в z -мерном пространстве

Каждому признаку в документе ставится в соответствие его вес ,который обозначает важность этого признака для данного документа. Для вычисления веса могут использоваться разные подходы, например алгоритм TFIDF (Term Frequency Inverse Document Frequency). Идея этого подхода —гарантировать, что вес признака будет находиться в диапазоне от 0 до 1. При этом чем чаще слово появляется в тексте, тем его вес выше, и наоборот: чем частота меньше, тем вес меньше. Формула, по которой вычисляется вес, имеет следующий вид:

35 ,Где

,Где

- Количество появлений признака

В документе

— Количество появлений признака во всех документах множества D; |D| — количество документов (мощность множества D).

36 Кроме метода TFIDF для взвешивания термов часто используется подход

Кроме метода TFIDF для взвешивания термов часто используется подход

TLTF (Term Length Term Frequency). Кластеры в данной модели представляются аналогично документам в виде векторов:

При этом целью кластеризации является группировка документов (представленных векторами) по кластерам в соответствии с близостью их к центрам. Близость документа и кластера, представленных пространственными векторами, вычисляется как угол между этими векторами:

37 Все алгоритмы кластеризации основываются на измерениях похожести по

Все алгоритмы кластеризации основываются на измерениях похожести по

различным критериям. Некоторые используют слова, часто появляющиеся вместе (лексическую близость), другие используют извлекаемые особенности (такие как имена людей и т. п.). Разница заключается также и в создаваемых кластерах. Выделяют три основных типа методов кластеризации документов:

Методы кластеризации документов

Иерархический

Нечеткий

Бинарный

38 иерархический — создает дерево со всеми документами в корневом узле и

иерархический — создает дерево со всеми документами в корневом узле и

одним документом в узле-листе. Промежуточные узлы содержат различные документы, которые становятся более и более специализированными по мере приближения к листьям дерева. Этот метод полезен, когда исследуют новую коллекцию документов и хотят получить общее представление о ней; бинарный — обеспечивает группировку и просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются самые близкие по своим свойствам документы. В процессе кластеризации строится базис ссылок от документа к документу, основанный на весах и совместном употреблении определяемых ключевых слов; нечеткий — включает каждый документ во все кластеры, но при этом связывает с ним весовую функцию, определяющую степень принадлежности данного документа определенному кластеру.

39 Иерархические методы кластеризации текстов

Иерархические методы кластеризации текстов

Методы иерархической кластеризации

Агломеративные

Дивизимные

40 Дентограмма

Дентограмма

Иерархическая агломеративная кластеризация (НАС — Hierarchical Agglomerative Clustering)

Методы группировки отдельных кластеров

Односвязный

Полносвязный

Среднесвязный

41 Эта группа методов характеризуется последовательным объединением

Эта группа методов характеризуется последовательным объединением

исходных элементов и соответствующим уменьшением числа кластеров.

42 Представителем дивизимной иерархической кластеризации текстовых

Представителем дивизимной иерархической кластеризации текстовых

документов является алгоритм дивизимного разделения по главному направлению (PDDP — Principal Direction Divisive Partitioning).

Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры.

43 Бинарные методы кластеризации текстов

Бинарные методы кластеризации текстов

44 Бинарная кластеризация обычно создает кластеры, оптимизируя целевую

Бинарная кластеризация обычно создает кластеры, оптимизируя целевую

функцию, описанную локально (среди документов одного и того же кластера) или глобально (через все документы).

Типичным представителем интерактивных алгоритмов является алгоритм k -средних . Он интерактивно выполняет деление данных на k -кластеров, минимизируя расстояния между элементами кластеров и их центрами.Для задачи кластеризации текстовых документов он адаптируется следующим образом. Имеется множество документов:

Алгоритм k -средних создает k декомпозиций так, чтобы если представляет собой k центров, то минимизируется следующая целевая функция:

45 Задача аннотирования текстов

Задача аннотирования текстов

(Выполнение аннотирования текстов)

Аннотирование - процесс аналитически-синтетической обработки информации, цель которого - получение обобщенной характеристики документа, раскрывает логическую структуру и содержание.

46 Автоматическое

Автоматическое

Ручное

Аннотирование

Этапы аннотирования

Анализ исходного текста

Определение его характерных фрагментов

Формирование соответствующего вывода

47 Подходы к автоматическому аннотированию

Подходы к автоматическому аннотированию

Извлечение — предполагает выделение наиболее важных фрагментов (чаще всего это предложения) из исходного текста и соединение их в аннотацию

Обобщение — предполагает использование предварительно разработанных грамматик естественных языков, тезаурусы, онтологические справочники ,на основании которых выполняется переформулирование исходного текста и его обобщение

48 Подход извлечения фрагментов

Подход извлечения фрагментов

В подходе, основанном на извлечении фрагментов методом сопоставления шаблонов. Общий вид формулы вычисления веса фрагмента текста U выглядит следующим образом

Weight(U) = Location(U) + KeyPhrase(U) + StatTerm(U) + AddTerm(U).

Показатель статистической важности

Весовой коэффициент расположения

Весовой коэффициент ключевой фразы

Появление терминов

49 Методы извлечения фрагментов для аннотации

Методы извлечения фрагментов для аннотации

50 Рассмотрим метод аннотирования документов, основанный на использовании

Рассмотрим метод аннотирования документов, основанный на использовании

карты текстовых отношений (TRM — Text Relationship Map). Идея метода заключается в представлении текста в виде графа: G=(P,E), где

- взвешенные векторы слов, соответствующие фрагментам документа. Вектор включает в себя веса составляющих его слов. Например, k -й фрагмент будет представлен вектором:

,Где

- Вес слова, находящегося в позиции i фрагмента k ; E — множество дуг между узлами графа:

51 На рис

На рис

1 изображен пример такой карты. Каждый узел на карте соответствует некоторому фрагменту текста (предложению, абзацу, разделу, параграфу) и представляется взвешенным вектором термов. Связи создаются между двумя узлами, если они имеют высокую меру подобия между параграфами, которая обычно вычисляется как скалярное произведение между векторами, представляющими эти фрагменты.

Рис 1. Пример карты текстовых отношений

52 Другими словами, если имеется связь между двумя узлами, то говорят,

Другими словами, если имеется связь между двумя узлами, то говорят,

что соответствующие фрагменты "семантически близки". Количество входящих в узел дуг на карте соответствует важности фрагмента и служит причиной его извлечения в резюме. Например, на рис.1 количество входящих дуг узла P5 равно 5, т. к. в него входят дуги от узлов P1,P2,P3,P4,P5,P6. Это значение максимально по сравнению с другими узлами. Следовательно, узел P5 своим содержанием может покрыть фрагменты, соответствующие связанным с ним узлам, и он должен быть помещен в аннотацию.

Рис 1. Пример карты текстовых отношений

53 Средства ORACLE- ORACLE Text

Средства ORACLE- ORACLE Text

Средства анализа текстовой информации

54 Oracle Text — программный комплекс, интегрированный в СУБД,

Oracle Text — программный комплекс, интегрированный в СУБД,

позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. Система Oracle Text обеспечивает решение следующих задач анализа текстовой информации: поиск документов по их содержанию; классификацию документов; кластеризацию документов; извлечение ключевых понятий; автоматическое аннотирование; поиск в документах ассоциативных связей;

55 Средства расширения поискового запроса

Средства расширения поискового запроса

Расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка

Расширение слов запроса близкими по смыслу словами за счет подключения тезауруса — семантического словаря.

Расширение запроса словами, близкими по написанию и по звучанию — нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании фамилии, названия организации

56 Средства от IBM- Intelligent Miner for Text

Средства от IBM- Intelligent Miner for Text

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор отдельных утилит, запускаемых из командной строки или из скриптов независимо друг от друга.

Утилиты IBM

Утилита определения языка (language identification tool)

Утилита классификации (categorisation tool)

Утилита извлечения ключевых понятий (feature extraction tool)

Утилита кластеризации (clusterisation tool)

Утилита автоматического аннотирования (annotation tool)

57 Средства SAS Institute — Text Miner

Средства SAS Institute — Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов — в базах данных, файловых системах и даже в Web.

Пример успешного использования логических возможностей Text Miner демонстрирует компания Compaq Computer Corp., которая в настоящее время тестирует Text Miner, анализируя более 2,5 Гбайт текстовых документов, полученных по e-mail и собранных представителями компании. Ранее обработать такие данные было практически невозможно.

58 Средства Мегапьютер Интеллидженс —TextAnalyst

Средства Мегапьютер Интеллидженс —TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst.

Задачи TextAnalyst

Создание семантической сети большого текста

Классификацию документов

Поиск по тексту

Автоматическое аннотирование текста

Кластеризацию текстов

59 Выводы

Выводы

Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов: удаление стоп-слов, стемминг, N-граммы,приведение регистра.

Задачами анализа текстовой информации являются: классификация, кластеризация, автоматическое аннотирование, извлечение ключевых понятий, навигация по тексту, анализ трендов, поиск ассоциаций

Выделяют два основных подхода к автоматическому аннотированию текстовых документов: извлечение (выделение наиболее важных фрагментов) и обобщение (использование предварительно собранных знаний).

60 В о п р о с ы

В о п р о с ы

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов, но одного шага не хватает. Какого именно???

a) Поиск информации

b) Обработка информации

с) Хранение информации

61 Используют следующие приемы удаления неинформативных слов и повышения

Используют следующие приемы удаления неинформативных слов и повышения

строгости текстов, но среди них есть лишнее. Какое???

Удаление стоп-слов

Приведение регистра

Стемминг

Удаление регистра

N-граммы

62 Да

Да

Верна ли схема???

Методы иерархической кластеризации

Дивизимные

Агломеративные

63 Установите соответствие формулы вычисления веса фрагмента текста

Установите соответствие формулы вычисления веса фрагмента текста

Weight(U) = Location(U) + KeyPhrase(U) + StatTerm(U) + AddTerm(U).

Location(U)

KeyPhrase(U)

StatTerm(U)

AddTerm(U).

Показатель статистической важности

Весовой коэффициент расположения

Появление терминов

Весовой коэффициент ключевой фразы

64 Oracle Text

Oracle Text

Продолжите определение

Программный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам -

«Text Mining»
http://900igr.net/prezentacija/informatika/text-mining-263815.html
cсылка на страницу

Работа с текстом

29 презентаций о работе с текстом
Урок

Информатика

130 тем
Слайды