Работа с текстом Скачать
презентацию
<<  Машинный перевод текста Текстовый процессор  >>
Извлечение информации из текстов: портрет направления
Извлечение информации из текстов: портрет направления
Содержание
Содержание
Особенности задачи
Особенности задачи
Выделяемые сущности
Выделяемые сущности
Технология решения
Технология решения
Проект ontos
Проект ontos
Система gate как инструмент
Система gate как инструмент
Gate: примеры аннотаций
Gate: примеры аннотаций
Gate : компоненты
Gate : компоненты
Gate : шаблоны и правила
Gate : шаблоны и правила
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
Особенности терминов
Особенности терминов
Методы распознавания
Методы распознавания
Методы распознавания: лингвистические критерии
Методы распознавания: лингвистические критерии
Распознавание терминов: текстовые варианты
Распознавание терминов: текстовые варианты
Терминологические варианты: пример
Терминологические варианты: пример
Распознавание терминов: соединения терминов
Распознавание терминов: соединения терминов
Шаблоны: язык lspl
Шаблоны: язык lspl
AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)
AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)
Lspl-шаблоны: примеры
Lspl-шаблоны: примеры
Заключение
Заключение
Слайды из презентации «Извлечение информации из текстов» к уроку информатики на тему «Работа с текстом»

Автор: Igor. Чтобы увеличить слайд, нажмите на его эскиз. Чтобы использовать презентацию на уроке, скачайте файл «Извлечение информации из текстов.ppt» бесплатно в zip-архиве размером 159 КБ.

Скачать презентацию

Извлечение информации из текстов

содержание презентации «Извлечение информации из текстов.ppt»
СлайдТекст
1 Извлечение информации из текстов: портрет направления

Извлечение информации из текстов: портрет направления

Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.su

Летняя школа по КЛ, 5-11 июля 2011

1

2 Содержание

Содержание

Особенности задачи Выделяемые сущности Технология решения: шаблоны Проект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

2

Летняя школа по КЛ, 5-11 июля 2011

3 Особенности задачи

Особенности задачи

Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

3

Летняя школа по КЛ, 5-11 июля 2011

4 Выделяемые сущности

Выделяемые сущности

Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…

4

Летняя школа по КЛ, 5-11 июля 2011

5 Технология решения

Технология решения

Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “работает” в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы

5

Летняя школа по КЛ, 5-11 июля 2011

6 Проект ontos

Проект ontos

АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация

6

Летняя школа по КЛ, 5-11 июля 2011

7 Система gate как инструмент

Система gate как инструмент

Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент

7

Летняя школа по КЛ, 5-11 июля 2011

8 Gate: примеры аннотаций

Gate: примеры аннотаций

Сущность «Angela Merkel»

9 Gate : компоненты

Gate : компоненты

Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста на предложения Part of Speech Tagger - определение части речи слов на основании словаря и правил Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

9

Летняя школа по КЛ, 5-11 июля 2011

10 Gate : шаблоны и правила

Gate : шаблоны и правила

Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) ? family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

10

Летняя школа по КЛ, 5-11 июля 2011

11 ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ

ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ

Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусов Часть приложений – обработка отдельного текста, но не коллекции

11

Летняя школа по КЛ, 5-11 июля 2011

12 Особенности терминов

Особенности терминов

Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов ? необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

12

Летняя школа по КЛ, 5-11 июля 2011

13 Методы распознавания

Методы распознавания

Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике: ?log2 |a| * freq (a), если a не вложено, иначе C-Value(a) = ? ? log2 |a| * (freq (a) – P(Ta)-1 * ?b?Ta freq (b)) где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

13

Летняя школа по КЛ, 5-11 июля 2011

14 Методы распознавания: лингвистические критерии

Методы распознавания: лингвистические критерии

грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег) Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

14

Летняя школа по КЛ, 5-11 июля 2011

15 Распознавание терминов: текстовые варианты

Распознавание терминов: текстовые варианты

При использовании терминов в тексте они могут образовывать варианты:

Орфографические варианты: браузер - броузер Морфоварианты: спецсимвол – спецзнак Лексико-синтаксические варианты: механическое напряжение - напряжение дисковый контроллер – контроллер диска Варианты сокращений: ЦП, авост В словаре представлены далеко не все варианты терминов, их необходимо распознвать

15

Летняя школа по КЛ, 5-11 июля 2011

16 Терминологические варианты: пример

Терминологические варианты: пример

16

Летняя школа по КЛ, 5-11 июля 2011

17 Распознавание терминов: соединения терминов

Распознавание терминов: соединения терминов

Соединения нескольких терминологических словосочетаний:

Бессоюзные соединения, с разрывом и без разрыва термина: разрядность внутренних регистров – разрядность регистра, внутренний регистр Соединения с союзом: шинам адреса, данных и управления – шина адреса, шина данных, шина управления Средство распознавания - лингвистические шаблоны

17

Летняя школа по КЛ, 5-11 июля 2011

18 Шаблоны: язык lspl

Шаблоны: язык lspl

Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A<важный> морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem> Грамматическое согласование элементов шаблона: A<тяжелый> N <A.gen=N.gen, A.num=N.num, A.case=N.case> Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

19 AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)

AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N)

AP = A(A) | pa(pa) AN= { AP } n<стол,c=nom> [“в”] <AP=N> (N).

Язык lspl-шаблонов: возможности

Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования

Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования

Альтернативы | Повторение {} Опциональное вхождение []

Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона

20 Lspl-шаблоны: примеры

Lspl-шаблоны: примеры

Шаблон типичной структуры термина: A N1 { N2 <case=gen>} (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1<c=acc> ["мы"] "назовем" NP2<c=ins> <NP1.n = NP2.n> Указанную операцию назовем операцией поиска примеров Шаблон образования терминологических вариантов: N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> #N1 N2<c=gen> , N1 N3<c=gen> , N1 N4<c=gen> шинам адреса, данных и управления – шина адреса, шина данных, шина управления

21 Заключение

Заключение

В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до 80-90 % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстов обычно в рамках коммерческих компаний СПАСИБО ЗА ВНИМАНИЕ!

21

Летняя школа по КЛ, 5-11 июля 2011

«Извлечение информации из текстов»
http://900igr.net/prezentatsii/informatika/Izvlechenie-informatsii-iz-tekstov/Izvlechenie-informatsii-iz-tekstov.html
cсылка на страницу
Урок

Информатика

126 тем
Слайды
Презентация: Извлечение информации из текстов.ppt | Тема: Работа с текстом | Урок: Информатика | Вид: Слайды
900igr.net > Презентации по информатике > Работа с текстом > Извлечение информации из текстов.ppt