Без темы
<<  Актуальные вопросы работников образования в разрезе социальных групп и отрасли в целом Аналитические функции секретаря  >>
Автоматический морфологический анализ Алгоритмические методы (без
Автоматический морфологический анализ Алгоритмические методы (без
План
План
План
План
Задачи морфологического анализа
Задачи морфологического анализа
Задачи морфологического анализа
Задачи морфологического анализа
Основные этапы морфологической разметки в BNC
Основные этапы морфологической разметки в BNC
План
План
Краткий обзор основных методов разметки
Краткий обзор основных методов разметки
SUPERVISED
SUPERVISED
Морфологическая разметка: Технологии морфологической разметки Теория
Морфологическая разметка: Технологии морфологической разметки Теория
Морфологическая разметка: Технологии морфологического анализа
Морфологическая разметка: Технологии морфологического анализа
Данные: контекст vs
Данные: контекст vs
План
План
Данные Контекст
Данные Контекст
Данные Внутренний состав словоформы
Данные Внутренний состав словоформы
НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при
НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при
ОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при
ОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при
ОБРАБОТКА СЛОВОФОРМЫ: морфологический анализ
ОБРАБОТКА СЛОВОФОРМЫ: морфологический анализ
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯ
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯ
МОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫ
МОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫ
Дневн(ой) дневник вечерн(ий) вечерник ночн(ой) ночник утренн(ий)
Дневн(ой) дневник вечерн(ий) вечерник ночн(ой) ночник утренн(ий)
Есть ли достаточная предсказуемость
Есть ли достаточная предсказуемость
Есть ли достаточная предсказуемость
Есть ли достаточная предсказуемость
Словоизменение и словообразование
Словоизменение и словообразование
Внутренний смысл противопоставления: варианты одной лексической
Внутренний смысл противопоставления: варианты одной лексической
Технический критерий позволяет подключить к явлениям словоизменения
Технический критерий позволяет подключить к явлениям словоизменения
Общий вывод для компьютерной морфологии: Класс явлений словоизменения
Общий вывод для компьютерной морфологии: Класс явлений словоизменения
Формальный разряд в компьютерной морфологии
Формальный разряд в компьютерной морфологии
Одна парадигма или больше
Одна парадигма или больше
Порогов
Порогов
Пороговый
Пороговый
Первичные и вторичные функции (процедуры) в компьютерной морфологии
Первичные и вторичные функции (процедуры) в компьютерной морфологии
Процедура определения типовой парадигмы
Процедура определения типовой парадигмы
Типизация внутри предсказания
Типизация внутри предсказания
Возможности использования кодов гсря в морфологических модулях
Возможности использования кодов гсря в морфологических модулях
Недостатки словаря зализняка
Недостатки словаря зализняка
Рекомендованная литература
Рекомендованная литература
Упомянутая литература
Упомянутая литература
Данные Внутренняя структура словоформы
Данные Внутренняя структура словоформы
Данные Внутренняя структура словоформы
Данные Внутренняя структура словоформы
Данные Внутренняя структура словоформы
Данные Внутренняя структура словоформы
Данные
Данные
План
План
Формализмы
Формализмы
Порождающие граммаики
Порождающие граммаики
ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ГРАММАТИКА - пример
ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ГРАММАТИКА - пример
Вывод в формальной грамматике
Вывод в формальной грамматике
Основные формализмы FST
Основные формализмы FST
Конечный автомат
Конечный автомат
Конечные автоматы
Конечные автоматы
Недетерминированный конечный автомат (НКА) является обобщением
Недетерминированный конечный автомат (НКА) является обобщением
Конечный преобразователь
Конечный преобразователь
Конечный преобразователь в виде диаграммы
Конечный преобразователь в виде диаграммы
Фрагмент английской глагольной системы: конечный преобразователь
Фрагмент английской глагольной системы: конечный преобразователь
ЛЕКСИКОН В ФОРМАТЕ xerox tools
ЛЕКСИКОН В ФОРМАТЕ xerox tools
Язык регулярных выражений
Язык регулярных выражений
Язык регулярных выражений
Язык регулярных выражений
Язык регулярных выражений
Язык регулярных выражений
План
План
Основные вопросы: Как разделять исходную словоформу на сколько частей
Основные вопросы: Как разделять исходную словоформу на сколько частей
Морфологическая разметка Методы, основанные на словаре
Морфологическая разметка Методы, основанные на словаре
LEXICON verbs; вписывать+verb+perf:впи(с/ш) V1;
LEXICON verbs; вписывать+verb+perf:впи(с/ш) V1;
Морфологическая разметка:
Морфологическая разметка:
%СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…
%СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…
Морфологическая разметка: Технологии морфологической разметки
Морфологическая разметка: Технологии морфологической разметки
Морфологическая разметка Методы, основанные на словаре
Морфологическая разметка Методы, основанные на словаре
Морфологическая разметка Методы, основанные на словаре
Морфологическая разметка Методы, основанные на словаре
План
План
Разрешение омонимии Морфологический анализ с использованием «ручных
Разрешение омонимии Морфологический анализ с использованием «ручных
Морфологическая разметка Методы «борьбы» с незнакомыми словами:
Морфологическая разметка Методы «борьбы» с незнакомыми словами:
План
План
Морфологическая разметка Методы «борьбы» с незнакомыми словами:
Морфологическая разметка Методы «борьбы» с незнакомыми словами:
Предсказание в аот: предсказание по концовке из известной словоформы
Предсказание в аот: предсказание по концовке из известной словоформы
Предсказание в аот: оценка качества
Предсказание в аот: оценка качества
План
План
Стемминг
Стемминг
Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером
Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером

Презентация на тему: «Алгоритмические методы». Автор: S.T.. Файл: «Алгоритмические методы.ppt». Размер zip-архива: 642 КБ.

Алгоритмические методы

содержание презентации «Алгоритмические методы.ppt»
СлайдТекст
1 Автоматический морфологический анализ Алгоритмические методы (без

Автоматический морфологический анализ Алгоритмические методы (без

обучения) Часть 2

2 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

3 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

4 Задачи морфологического анализа

Задачи морфологического анализа

Графематический анализ (токенизация): текстоформы, «неслова» («шаблоны», числа и т.п.), токены из списка (предлоги, союзы и т.п.) нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме); стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательное фотографический и существительное фотография могут быть приведены к одной основе, так как пользовательскому запросу будут удовлетворять и документы, содержащие словосочетание фотографический портрет, и документы, содержащие словосочетание портретная фотография)

5 Задачи морфологического анализа

Задачи морфологического анализа

частеречная аннотация (pos-tagging), т.е. указание части речи для каждой словоформы в тексте) полный морфологический анализ - приписывание грамматических характеристик словоформе (например, в цепочке словоформ по берегу реки словоформе берегу будут приписаны следующие грамматические характеристики: сущ., неодушевленное, мужского р., единственного числа, дательного падежа) дизамбигуация - разрешение морфологической омонимии (например, ) Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь), а также существование новых, редких слов или окказионализмов.

6 Основные этапы морфологической разметки в BNC

Основные этапы морфологической разметки в BNC

Tokenization

Initial tag assignment

Tag selection (disambiguation)

Idiomtagging

Template Tagger

Postprocessing: including Ambiguity tagging

A.

B.

C.

D.

E.

F.

7 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

8 Краткий обзор основных методов разметки

Краткий обзор основных методов разметки

9 SUPERVISED

SUPERVISED

UNSUPERVISED

selection of tagset/tagged corpus

induction of tagset using untagged training data

creation of dictionaries using tagged corpus

induction of dictionary using training data

calculation of disambiguation tools. may include:

induction of disambiguation tools. may include:

word frequencies

word frequencies

affix frequencies

affix frequencies

tag sequence probabilities

tag sequence probabilities

"formulaic" expressions

tagging of test data using dictionary information

tagging of test data using induced dictionaries

disambiguation using statistical, hybrid or rule based approaches

disambiguation using statistical, hybrid or rule based approaches

calculation of tagger accuracy

calculation of tagger accuracy

10 Морфологическая разметка: Технологии морфологической разметки Теория

Морфологическая разметка: Технологии морфологической разметки Теория

vs. практика

В 60-70 гг. все экспериментальные исследования в области машинной морфологии начинались с создания машинного словаря. Не было единого общепринятого формата и структуры такого словаря. Эти обстоятельства имели два последствия: во-первых, все алгоритмы автоматически становились словарнозависимыми, во-вторых, каждый алгоритм разрабатывался под определенный формат словаря.

Работы, посвященные морфологии, можно условно разделить на две категории: 1. теоретические, в некоторых представлены описания морфологических законов и формальные модели русской морфологии; 2. прикладные, описание програмно-реализованных систем с морфологическим модулем.

11 Морфологическая разметка: Технологии морфологического анализа

Морфологическая разметка: Технологии морфологического анализа

Теоретический vs. Инженерный подход В теоретических работах строятся многоуровневые формальные модели морфологии, в большинстве своем, предназначенные для синтеза. Такие модели морфологического синтеза подразумевают наличие больших словарей со сложной структурой. Они описывают широкий круг морфологических явлений. Многие компоненты этих моделей избыточны для задач машинного анализа (фонетическая реализация слова, акцентная парадигма, большое число словообразовательных аффиксов).

12 Данные: контекст vs

Данные: контекст vs

информация о внутренней структуре словоформы и о словоизменительных парадигмах словарные методы vs. методы без словаря Словарь: что в словаре? структура словаря? Методы анализа формализм правила vs. статистика Работа с незнакомыми словами: правила предсказания

Морфологическая разметка: Технологии морфологической разметки. Вопросы архитектуры.

.

??? Словарь

13 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

14 Данные Контекст

Данные Контекст

Пример

Контекст: The flights can fly Det N V(mod) V(inf) Что нужно знать? набор тегов (частеречный (N,V…) vs. простой (Nsg) vs. полный – Ncmsnn: Noun Type=common Gender=masculine Number=singular Case=nominative Animate=no) набор словоформ (ручкой – ручка, N; ручке – ручка, N …) возможные порядки тегов (NVN, NVV vs. *DV… из + Gen / * из + Case?Gen) частоту порядков …. подробности позже Словарь может состоять из списка всех возможных словоформ

15 Данные Внутренний состав словоформы

Данные Внутренний состав словоформы

Пример

Такие

Типы

Стали

Есть

В

Помещении

Таки-е:

Тип-ы

Стал-и

Ест-ь

Цех-е

N,Sg,n,Nom; N,Sg,Loc; N,Sg,Dat

N,pl,Nom N,pl,Acc Adj,Brev,Sg

N,Pl,Nom, N,Pl,Acc, N,Sg,Gen …

N,sg,f,m,nom; N,sg,f,acc

Prep; N

N,Sg,n,Nom; N,Sg,Loc; N,Sg,Dat

Так-ие

Ти-пы

Ста-ли

Ес-ть

Це-хе

A,Pl,Nom A,Pl,Acc

*

V,Pst,Pl

V,Inf

*

16 НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при

НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при

машинном переводе

Исследовать

research, explore, investigate, examine, …

Inf-ve

Исследую

research, explore, investigate, examine, …

Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

Исследуешь

research, explore, investigate, examine, …

Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

Исследует

research, explore, investigate, examine, …

Simple Pres. 3sg, Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

Исследовал

research, explore, investigate, examine, …

Simple Past, Pres.Perf., Past Cont., Past Perf.

Исследовала

research, explore, investigate, examine, …

Simple Past, Pres.Perf., Past Cont., Past Perf.

17 ОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при

ОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при

машинном переводе

Исследовать

{исследовать} + +Неопр.ф.

{Исследовать}

research, explore, investigate, examine, analyse, test, inquire into…

Исследую

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л.

Исследуешь

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л.

Неопр.ф.

Inf-ve

Исследует

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л.

Наст.+Ед.+1

S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+2

S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+3

S.Pres. 3sg, Pres. Cont.

Исследовал

{исследовать} + + Прош. вр. + Ед.ч. + М р.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Исследовала

{исследовать} + + Прош. вр. + Ед.ч. + Ж р.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Прош.+Ед.

S. Past, Pres.Perf., Past Cont., Past Perf.

18 ОБРАБОТКА СЛОВОФОРМЫ: морфологический анализ

ОБРАБОТКА СЛОВОФОРМЫ: морфологический анализ

Исследовать

{исследовать} + +Неопр.ф.

{Исследовать}

research, explore, investigate, examine, analyse, test, inquire into…

Исследую

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л.

Исследуешь

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л.

Неопр.ф.

Inf-ve

Исследует

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л.

Наст.+Ед.+1

S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+2

S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+3

S.Pres. 3sg, Pres. Cont.

Исследовал

{исследовать} + + Прош. вр. + Ед.ч. + М р.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Исследовала

{исследовать} + + Прош. вр. + Ед.ч. + Ж р.

Буд.+Ед.+1

S. Fut., Fut.Cont.,Fut.Perf.

Прош.+Ед.

S. Past, Pres.Perf., Past Cont., Past Perf.

19 ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

{исследовать} + Неопр.ф.

Исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л.

Исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л.

Исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л.

Исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л.

Исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л.

Исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л.

Исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р.

Исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р.

Исследовала

20 ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

{исследовать} + Неопр.ф.

Исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л.

Исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л.

Исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л.

Исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л.

Исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л.

Исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л.

Исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р.

Исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р.

Исследовала

21 ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез

{исследовать} + Неопр.ф.

Исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л.

Исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л.

Исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л.

Исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л.

Исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л.

Исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л.

Исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р.

Исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р.

Исследовала

22 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯ

МОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯ

Исследовать

{исследовать} + +Неопр.ф.

Исследовать

{Исследовать}

Исследую

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л.

Исследую

{Исследовать}

Исследуешь

{Исследовать}

Исследуешь

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л.

Исследует

{Исследовать}

Исследует

{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л.

Исследовал

{исследовать} + + Прош. вр. + Ед.ч. + М р.

Исследовал

{Исследовать}

Исследовала

{Исследовать}

Исследовала

{исследовать} + + Прош. вр. + Ед.ч. + Ж р.

23 МОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫ

МОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫ

{исследовать} + Неопр.ф.

Исследовать

{Исследовать}

Исследовать

Исследую исследуешь исследует исследуем исследуете исследуют буду исследовать будешь исследовать будет исследовать … исследовал исследовала …

{исследовать} + Наст. вр. + Ед.ч. + 1 л.

Исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л.

Исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л.

Исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л.

Исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л.

Исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л.

Исследует, будет исследовать

24 Дневн(ой) дневник вечерн(ий) вечерник ночн(ой) ночник утренн(ий)

Дневн(ой) дневник вечерн(ий) вечерник ночн(ой) ночник утренн(ий)

утренник

Есть ли достаточная предсказуемость?

25 Есть ли достаточная предсказуемость

Есть ли достаточная предсказуемость

Анализ:

Дневник

{Дневной} + тетрадь для записей, заполняемая с указанной периодичностью, {дневной} + студент формы обучения, предусматривающей занятия в указанное время суток

Вечерник

{Вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток

Ночник

{Ночной} + лампа, используемая в указанное время суток

Утренник

{Утренний} + представление, происходящее в указанное время суток

26 Есть ли достаточная предсказуемость

Есть ли достаточная предсказуемость

Синтез:

{Дневной} + студент формы обучения, предусматривающей занятия в указанное время суток

Дневник

{Вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток

Вечерник

{Утренний} + студент формы обучения, предусматривающей занятия в указанное время суток

??

{Дневной} + лампа, используемая в указанное время суток

??

{Вечерний} + представление, происходящее в указанное время суток

??

27 Словоизменение и словообразование

Словоизменение и словообразование

Внутренний смысл противопоставления: варианты одной лексической единицы или разные лексические единицы Подходы в теоретической морфологии: 28 «элементарных различий» словоизменения и словообразования по Ф.Планку 15 критериев противопоставления лексического и грамматического у Н.В.Перцова вхождение/невхождение в категории противопоставленных единиц и обязательные категории; коррелятивность; композиционность; и т.д.

28 Внутренний смысл противопоставления: варианты одной лексической

Внутренний смысл противопоставления: варианты одной лексической

единицы или разные лексические единицы Технические критерии противопоставления: при анализе композиционность: словоформа без остатка разбивается на формальные показатели (знаки), значение формы без остатка раскладывается на значения этих показателей при синтезе регулярность (коррелятивность): лексические единицы разбиты на (достаточно большие) классы, и для каждого класса известен набор возможных словоформ, а также правила, по которым их можно строить

Словоизменение и словообразование

29 Технический критерий позволяет подключить к явлениям словоизменения

Технический критерий позволяет подключить к явлениям словоизменения

(для русского языка): образование существительных от прилагательных образование существительных (имен действия и имен деятеля) от глаголов образование уменьшительных существительных Более осторожный термин С.А.Крылова и С.А.Старостина для таких явлений – «номинационное формообразование» (2003)

Словоизменение и словообразование

30 Общий вывод для компьютерной морфологии: Класс явлений словоизменения

Общий вывод для компьютерной морфологии: Класс явлений словоизменения

может быть расширен, нужно только исчерпывающее и объективное описание указать класс лексем, которые подвергаются такому варьированию (образуют уменьшит./ аугментатив. форму и т.п.) указать правила варьирования для каждой лексемы из класса достаточно экономным образом Но следует учитывать фактор практической целесообразности с учетом функции конкретной компьютерной системы

Словоизменение и словообразование

31 Формальный разряд в компьютерной морфологии

Формальный разряд в компьютерной морфологии

Учител-ь

Учител-я

Учител-я

Учител-ей

Учител-ю

Учител-ям

Учител-я

Учител-ей

Учител-ем

Учител-ями

Учител-е

Учител-ях

Учитель, соболь, егерь… (типовая парадигма, морфологический тип)

32 Одна парадигма или больше

Одна парадигма или больше

Узел

Узлы

Узла

Узлов

Узлу

Узлам

Узел

Узлы

Бубен

Бубны

Узлом

Узлами

Бубна

Бубнов

Узле

Узлах

Бубну

Бубнам

Бубен

Бубны

Хребет

Хребты

Бубном

Бубнами

Хребта

Хребтов

Бубне

Бубнах

Хребту

Хребтам

Хребет

Хребты

Хребтом

Хребтами

Хребте

Хребтах

33 Порогов

Порогов

302

Пород

005

Породнени

002

Порожда

401

Структура словарной базы данных

Идентификатор лексемы

Идентификатор парадигмы

34 Пороговый

Пороговый

Порогов

302

Порода

Пород

005

Породнение

Породнени

002

Порождать

Порожда

401

Структура словарной базы данных

Идентификатор лексемы

Основа

Идентификатор парадигмы

35 Первичные и вторичные функции (процедуры) в компьютерной морфологии

Первичные и вторичные функции (процедуры) в компьютерной морфологии

36 Процедура определения типовой парадигмы

Процедура определения типовой парадигмы

если слово оканчивается на щийся, то ТП 5; если слово оканчивается на ин, ын, то ТП 20; если слово оканчивается на ов, ёв, ев, то ТП 21; если слово оканчивается на цый, то ТП 6; если слово оканчивается на ый, то ТП 1; если слово оканчивается на кий, гий, хий, то ТП 3; если слово оканчивается на щий, то ТП 4; если слово оканчивается на жий, ший, чий, то ТП 4 или ТП 24; если слово оканчивается на ий, то ТП 2 или ТП 24; если слово оканчивается на кой, гой, хой, жой, шой, чой, щой, то ТП 8; если слово оканчивается на ой, то ТП 7.

37 Типизация внутри предсказания

Типизация внутри предсказания

38 Возможности использования кодов гсря в морфологических модулях

Возможности использования кодов гсря в морфологических модулях

Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1е имеют одинаковый набор окончаний клён м 1а Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) восстановление начальной формы: бугор м 1*b бугра: (- ра), (+ ор) котёл м 1*b котла: (- ла), (+ ёл) псалом м 1*b псалма: (- ма), (+ ом) сон м 1*b сна: (- на), (+ он) хребет м 1*b хребта: (- та), (+ ет)

39 Недостатки словаря зализняка

Недостатки словаря зализняка

Сложная структура словоизменительной характеристики формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее) неполнота словника

40 Рекомендованная литература

Рекомендованная литература

Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М., 2006 (глава 4, (3)) Коваль С.А. Лингвистические проблемы компьютерной морфологии. СПб., 2005 Библиография, собранная С. Нагелем (Sebastian Nagel): http://www.cis.uni-muenchen.de/~wastl/rmorph/rusmorphBib.pdf

41 Упомянутая литература

Упомянутая литература

Перцов Н.В. Инварианты в русском словоизменении. М.: Языки русской культуры, 2001 (глава 2) Крылов С.А., Старостин С.А. Актуальные задачи морфологического анализа и синтеза в интегрированной информационной среде STARLING // Тр. Междунар. конф. Диалог’2003 (http://www.dialog-21.ru/Archive/2003/Krylov.htm)

42 Данные Внутренняя структура словоформы

Данные Внутренняя структура словоформы

Пример

Городк”е

Городк” - е

Входные данные

Результат морфологического анализа:

43 Данные Внутренняя структура словоформы

Данные Внутренняя структура словоформы

Пример

Городок | городка |городк”е

Морфонологические правила:

(1) V -> ? | __ ? CV (beglie)

(2) C тв -> C мягк | __ ? vпередн ряд (palatalization)

(3) C зв -> C гл | __ ? Сгл (Oglushenie)

Обратный пересчет:

44 Данные Внутренняя структура словоформы

Данные Внутренняя структура словоформы

Пример

45 Данные

Данные

Полный список словоформ с их формами Полная декомпозиция:

46 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

47 Формализмы

Формализмы

FST (конечные преобразователи – Finite State Trasducers) Порождающая грамматика Язык регулярных выражений

48 Порождающие граммаики

Порождающие граммаики

Упорядоченная четверка , где V и W - непересекающиеся конечные множества, наз. Соответственно основным и вспомогательным алфавитами, или словарями (их элементы наз. Соответственно основными, пли терминальными, и вспомогательными, или нетерминальными, символам и), - элемент , наз. Начальным символом, и - конечное множество правил, имеющих вид , где - цепочки ( слова).В алфавите и не принадлежит ; rназ. Схемой грамматики.

49 ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ГРАММАТИКА - пример

ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ГРАММАТИКА - пример

Четверка (V, W, I, R): V = {а, е, й, к, л, о, у, ы} W = {Слово, Основа, Окончание} I = {Слово} R – множество правил грамматики Правила R : Слово ? Основа Окончание Основа ? к у к л Окончание ? а Окончание ? ы Окончание ? у Окончание ? е Окончание ? о й

50 Вывод в формальной грамматике

Вывод в формальной грамматике

Правила R : Слово ? Основа Окончание Основа ? к у к л Окончание ? а Окончание ? ы Окончание ? у Окончание ? е ВЫВОД: Слово (1) Основа Окончание (2) к у к л Окончание (6) к у к л о й

51 Основные формализмы FST

Основные формализмы FST

Один из наиболее распространенных Finite State Transducer (Конечные преобразователи) Конечный автомат — абстрактный автомат без выходного потока, число возможных состояний которого конечно. Результат работы автомата определяется по его конечному состоянию.

52 Конечный автомат

Конечный автомат

Существуют различные варианты задания конечного автомата. Например, конечный автомат может быть задан с помощью пяти параметров: , где: Q — конечное множество состояний автомата; q0 — начальное состояние автомата (); F — множество заключительных (или допускающих) состояний, таких что ; ? — допустимый входной алфавит (конечное множество допустимых входных символов), из которого формируются строки, считываемые автоматом; ? — заданное отображение множества во множество подмножеств Q: (иногда ? называют функцией переходов автомата).

53 Конечные автоматы

Конечные автоматы

Автомат начинает работу в состоянии q0, считывая по одному символу входной строки. Считанный символ переводит автомат в новое состояние из Q в соответствии с функцией переходов. Если по завершении считывания входного слова (цепочки символов) автомат оказывается в одном из допускающих состояний, то слово «принимается» автоматом. В этом случае говорят, что оно принадлежит языку данного автомата. В противном случае слово «отвергается». Конечный преобразователь: анализирует цепочку символов на входной ленте и записывает другую цепочку на выходной ленте.

54 Недетерминированный конечный автомат (НКА) является обобщением

Недетерминированный конечный автомат (НКА) является обобщением

детерминированного. Недетерминированность автоматов достигается двумя способами:

Недетерминированные конечные автмоматы

Существуют переходы, помеченные пустой цепочкой ?

Из одного состояния выходит несколько переходов, помеченных одним и тем же символом

55 Конечный преобразователь

Конечный преобразователь

q

Правила вида qi ai bi ? qj

У

К

О

Л

#

#

#

Читающая

Направление движения обеих лент

Головка

Устройства

Распознавание (порождение) цепочек пар символов Перекодирование (переход от записи на языке верхней ленты к записи на языке нижней ленты и наоборот)

i

56 Конечный преобразователь в виде диаграммы

Конечный преобразователь в виде диаграммы

Записать в виде таблицы?

57 Фрагмент английской глагольной системы: конечный преобразователь

Фрагмент английской глагольной системы: конечный преобразователь

Inf: ?

n

g

3PSg: s

i

?

s

i:a

n

g

Past:?

p

r

i:u

n

g

PP: ?

58 ЛЕКСИКОН В ФОРМАТЕ xerox tools

ЛЕКСИКОН В ФОРМАТЕ xerox tools

Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; sing+Past:sang # ; sing+PP:sung # ; spring+Inf:spring # ; spring+3pSg:springs # ; spring+Past:sprang # ; spring+PP:sprung # ;

59 Язык регулярных выражений

Язык регулярных выражений

Регулярные выражения состоят из констант и операторов, которые определяют множества строк и множества операций на них соответственно. На данном конечном алфавите ? определены следующие константы: (пустое множество) ?. (пустая строка) ? обозначает строку, не содержащую ни одного символа. Эквивалентно «». (символьный литерал) «a», где a — символ алфавита ?.

60 Язык регулярных выражений

Язык регулярных выражений

и следующие операции: (сцепление, конкатенация) RS обозначает множество {?? | ? ? R & ? ? S}. Например, {"boy", "girl"}{"friend", "cott"} = {"boyfriend", "girlfriend", "boycott", "girlcott"}. (дизъюнкция, чередование) R|S обозначает объединение R и S. Например, {"ab", "c"}|{"ab", "d", "ef"} = {"ab", "c", "d", "ef"}.[4] (замыкание Клини, звезда Клини) R* обозначает минимальное надмножество множества R, которое содержит ? и замкнуто относительно конкатенации. Это есть множество всех строк, полученных конкатенацией нуля или более строк из R. Например, {"Go", "Russia"}* = {?, "Go", "Russia", "GoGo", "GoRussia", "RussiaGo", "RussiaRussia", "GoGoGo", "GoGoRussia", "GoRussiaGo", …}.

61 Язык регулярных выражений

Язык регулярных выражений

Представление символов Обычные символы (литералы) и специальные символы (метасимволы) Большинство символов в регулярном выражении представляют сами себя за исключением специальных символов [ ] \ / ^ $ . | ? * + ( ) { }, которые могут быть предварены символом \ (обратная косая черта) («экранированы», «защищены») для представления их самих в качестве символов текста. Городо?[кк”]([еауи]/ом/ами/ах)?

62 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Методы, основанные на словарях Разрешение омонимии Предсказание незнакомых слов

63 Основные вопросы: Как разделять исходную словоформу на сколько частей

Основные вопросы: Как разделять исходную словоформу на сколько частей

и какие? Что хранить в словаре: словоформу, основу + правила преобразования + словоизменительные парадигмы, квазиосновы + квазиокончания

.

Методы, основанные на словаре

64 Морфологическая разметка Методы, основанные на словаре

Морфологическая разметка Методы, основанные на словаре

Существует три базовых подхода к проектированию морфологических машинных словарей (лексиконов) для флективных языков. копируется академическая лингвистическая модель описания, где выделяются основные парадигматические классы, соответствующие типу склонения и спряжения, и правила регулярных альтернаций (фонетических чередований), а нерегулярные формы (например, сильные глаголы в немецком и английском языках) задаются перечислением. (на базе модели грамматического словаря А.Зализняка, разрабатывая 8 классов именного склонения и 16 глагольного спряжения, а чередования в основе и глагольной темы выносятся в отдельное множество пост-морфологических правил альтернаций) 2) рассматривается любого вида регулярное и нерегулярное чередование как часть расширенной псевдо-флексии (в таком случае, основа словоформы ‘день’ – ‘д’, а флексия – ‘-ень’; для словоформы ‘песок’: ‘пес’ и ‘-ок’). В подобной модели описания число парадигматических классов для русского языка возрастает до 3000 3) В лексиконе для каждой лексемы приводится полный список словоформ

65 LEXICON verbs; вписывать+verb+perf:впи(с/ш) V1;

LEXICON verbs; вписывать+verb+perf:впи(с/ш) V1;

.

Методы, основанные на словаре

LEXICON V1; +inf+active:^hать #; +imperf+inf+passive:^hаться #; +ind+notpast+p1+sg+active:^sьу #; +ind+notpast+p2+sg+active:^sьэшь #; +ind+notpast+p3+sg+active:^sьэт #; +ind+notpast+p1+pl+active:^sьэм #; +ind+past+sg+masc+active:^hал #; +ind+past+sg+fem+active:^hала #; +ind+past+sg+neut+active:^hало #; лексическая форма ‘вписывать+verb+perf+ind+notpast+p3+sg+active’ соответствует поверхностной форме ‘впи(с/ш) ^sьэт’.

66 Морфологическая разметка:

Морфологическая разметка:

Методы, основанные на словаре

Фрагмент описания парадигмы для лексемы ‘рукоплескать’: 1740 %СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…. ………………… РУКОПЛЕ 1740 ‘Рукопле’ – основа слова в лексиконе; ‘1740’ – уникальный идентификатор парадигматического класса; ‘%’ маркирует начало псевдо-флексии; ‘*’ маркирует начало аношкинского кода; ‘ка’, ‘кб’, ‘лб’, ‘лг’, etc. – код. В таблице приведена расшифровка аношкинских кодов, использованных в примере:

67 %СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…

%СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…

Аношкинский код:

Морфологическая разметка: .

Методы, основанные на словаре

68 Морфологическая разметка: Технологии морфологической разметки

Морфологическая разметка: Технологии морфологической разметки

1. Традиционные алгоритмические методы: Словарь со всеми словоизменительными моделями без снятия омонимии Словарь + все словоизменительные модели + предсказание + эвристики (ad hoc правила) Словарь с моделями + алгоритмические контекстные правила снятия омонимии Словарь с моделями + частичный синтаксический анализ

Хороший словарь + исчерпывающее описание словоизменительных моделей

Для русского языка: А. А. Зализняк «Русское именное словоизменение» М.: Языки славянской культуры, 2002. І—VІІІ, 752 с. (Studia philologica) «Грамматический словарь русского языка» АСТ-Пресс Книга, 2009 г., 720 с. (http://starling.rinet.ru/cgi-bin/main.cgi?flags=eygtmnl)

69 Морфологическая разметка Методы, основанные на словаре

Морфологическая разметка Методы, основанные на словаре

Первый подход к проектированию лексиконов для построения морфологических анализаторов европейских и восточных языков был применен в научно-исследовательском центре Xerox (Гренобль) в середине 90-ых, а позже усовершенствован и доведен до промышленного использования в исследовательских отделах Inxight Software (Санта-Клара, США и Антверпен, Бельгия) в 2000-2002 гг. Конечный продукт Inxight LinguistX Platform 3.5 включает в себя морфологии 26 языков: 5 восточных (арабский, корейский, японский, etc.) и 21 европейский (английский, голландский, испанский, русский, etc.).

70 Морфологическая разметка Методы, основанные на словаре

Морфологическая разметка Методы, основанные на словаре

Наиболее разработанные языковые модули, такие как английский, немецкий и русский, имеют четыре уровня текстового анализа: tokenizer – графематика, осуществляющая деление исходного текста на предложения и словоформы; stemmer – лемматизация входных словоформ; tagger – снятие морфологической омонимии и унификация значений грамматических характеристик; np-grouper – синтаксическое выделение именных и составляющих NP из текстов.

71 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

72 Разрешение омонимии Морфологический анализ с использованием «ручных

Разрешение омонимии Морфологический анализ с использованием «ручных

правил»

… И предложили систему диагностических ситуаций, помогающих разрешить некоторые типы омонимии:

73 Морфологическая разметка Методы «борьбы» с незнакомыми словами:

Морфологическая разметка Методы «борьбы» с незнакомыми словами:

предсказания в АОТ

Предсказание префиксального образования предсказание по концовке, взятой из известных словоформ

74 План

План

Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов

75 Морфологическая разметка Методы «борьбы» с незнакомыми словами:

Морфологическая разметка Методы «борьбы» с незнакомыми словами:

предсказания в АОТ

попытка найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы. [евро]технологию, [супер]коньками

76 Предсказание в аот: предсказание по концовке из известной словоформы

Предсказание в аот: предсказание по концовке из известной словоформы

создается конечный автомат, построенный на строках вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например: меина|ед где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.» Такая строка заносится в исходный лексикон, если она встречается: не менее L раз (трех) и чаще конкурентов (строк с таким же ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым.

77 Предсказание в аот: оценка качества

Предсказание в аот: оценка качества

В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры). Все слова оказались либо существительными, либо прилагательными. Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%. Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%. http://www.aot.ru/demo/morph.html

78 План

План

Морфологический анализ без словаря

79 Стемминг

Стемминг

Стемматизация (стемминг) — это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова. Алгоритм стемматизации представляет собой давнюю проблему в области компьютерных наук. Первый документ по этому вопросу был опубликован в 1968 году. Данный процесс применяется в поиcковых системах для обобщения поискового запроса пользователя. Конкретные реализации стемматизации называются алгоритм стемматизации или просто стеммер

80 Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером

Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером

теммер Портера — алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка и была написана на языке BCPL. Впоследствии Мартин создал проект «Snowball» и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского. Алгоритм не использует баз основ слов, а лишь, применяя последовательно ряд правил, отсекает окончания и суффиксы, основываясь на особенностях языка, в связи с чем работает быстро, но не всегда безошибочно.

«Алгоритмические методы»
http://900igr.net/prezentacija/algebra/algoritmicheskie-metody-87652.html
cсылка на страницу

Без темы

326 презентаций
Урок

Алгебра

35 тем
Слайды
900igr.net > Презентации по алгебре > Без темы > Алгоритмические методы