Управление
<<  Организация управления RD в зарубежных компаниях: ключевые тренды последнего десятилетия ХРОНОЛОГИЧЕСКИЙ АЛЬБОМ ОТДЕЛЕНИЯ НАДЗОРНОЙ ДЕЯТЕЛЬНОСТИ ПО ЯНТИКОВСКОМУ РАЙОНУ УПРАВЛЕНИЯ НАДЗОРНОЙ ДЕЯТЕЛЬНОСТИ ГЛАВНОГО УПРАВЛЕНИЯ МЧС РОССИИ ПО ЧУВАШСКОЙ РЕСПУБЛИКЕ  >>
Методы извлечения ключевых фраз
Методы извлечения ключевых фраз
План доклада
План доклада
Зачем нужны ключевые фразы
Зачем нужны ключевые фразы
Общая схема работы
Общая схема работы
Выделение кандидатов в ключевые фразы
Выделение кандидатов в ключевые фразы
Без словаря
Без словаря
Со словарем
Со словарем
Общая схема выделения
Общая схема выделения
Расчет веса выделенной фразы
Расчет веса выделенной фразы
Основные атрибуты
Основные атрибуты
Специфические атрибуты
Специфические атрибуты
Методы учета атрибутов
Методы учета атрибутов
Общая схема выделения
Общая схема выделения
Отбор ключевых фраз из взвешенного множества
Отбор ключевых фраз из взвешенного множества
Особенности оценки систем
Особенности оценки систем
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Системы выделения ключевых фраз
Вопросы
Вопросы

Презентация: «Методы извлечения ключевых фраз». Автор: Дима. Файл: «Методы извлечения ключевых фраз.ppt». Размер zip-архива: 173 КБ.

Методы извлечения ключевых фраз

содержание презентации «Методы извлечения ключевых фраз.ppt»
СлайдТекст
1 Методы извлечения ключевых фраз

Методы извлечения ключевых фраз

Рязанцев Дмитрий 428

2 План доклада

План доклада

Зачем нужны ключевые фразы Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Особенности оценки систем Системы выделения ключевых фраз Kea HUMB KP-Miner

3 Зачем нужны ключевые фразы

Зачем нужны ключевые фразы

Возможность разделения документов по категориям Быстрый поиск документов по ключевым фразам Связывание разных документов между собой

4 Общая схема работы

Общая схема работы

Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

5 Выделение кандидатов в ключевые фразы

Выделение кандидатов в ключевые фразы

Выделение всех последовательностей длиной не более чем n слов (n-грамма) Стемминг Две группы подходов к сокращению количества кандидатов Без словаря Со словарем

6 Без словаря

Без словаря

Выделение n-грамм только из первых m слов документа Не учитываются слова, начинающиеся и заканчивающиеся на «стоп слова» Можно также учитывать: Частоту вхождения n-граммы в документ Место, где встречается n-грамма

7 Со словарем

Со словарем

Проверка на наличие в словаре всех n-грамм из текста Примеры словарей: GRISP – база технических у научных обозначений Wikipedia

8 Общая схема выделения

Общая схема выделения

Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

9 Расчет веса выделенной фразы

Расчет веса выделенной фразы

Необходимо определить вероятность того, что фраза – ключевая Введем набор атрибутов, с помощью которых будем учитывать оценивать фразы

10 Основные атрибуты

Основные атрибуты

TFxIDF TF(term frequency) - частота употребления фразы в документе IDF(inverse document frequency) Расстояние от начала документа. Длина фразы

11 Специфические атрибуты

Специфические атрибуты

Раздел, в котором встречается фраза Keyphraseness И другие…

12 Методы учета атрибутов

Методы учета атрибутов

С обучением Обучение классификатора и дальнейшее его применение Без обучения Применение формулы от значения атрибутов

13 Общая схема выделения

Общая схема выделения

Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

14 Отбор ключевых фраз из взвешенного множества

Отбор ключевых фраз из взвешенного множества

После просчета атрибутов получаем множество фраза-число Как отобрать нужное количество фраз ? Фиксированный порог Плавающий порог

15 Особенности оценки систем

Особенности оценки систем

Специфические оценки качества работы Точность (precision) – отношение количества правильно определенных фраз к общему числу выделенных фраз. Полнота (recall) – отношения количества правильно определенных фраз, к общему числу ключевых фраз. F – мера (F - measure) – среднее между полнотой и точностью. Зависимость от входных данных Научные статьи Документы общей тематики Блоги и т.д.

16 Системы выделения ключевых фраз

Системы выделения ключевых фраз

Kea

Нет ориентации на определенный тип статей Выделение n-грамм длины не более чем 3, за исключением: имен собственных начинающихся со стоп слов содержащих в себе знаки препинания Атрибуты TFxIDF Расстояния от начала документа Байесовский классификатор

17 Системы выделения ключевых фраз

Системы выделения ключевых фраз

Kea. Результаты

18 Системы выделения ключевых фраз

Системы выделения ключевых фраз

HUMB

Система выделения ключевых фраз из научных и технических статей. Выделение n-грамм длины не более чем 5, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания и математические символы Атрибуты Место первого вхождения фразы Phraseness Мера сплоченности слов во фразе Информативность (Informativeness) Используется TFxIDF Keywordness Как часто фраза является ключевой в документах коллекции

19 Системы выделения ключевых фраз

Системы выделения ключевых фраз

HUMB

Is in GRISP* Бинарный атрибут, показывающий есть ли данная фраза в GRISPe Wikipedia keyphraseness Как часто фраза является ссылкой из статьи википедии Длина фразы (в словах) Обучение классификаторов C4.5, SVN Постобработка Определение степени связанности фраз

20 Системы выделения ключевых фраз

Системы выделения ключевых фраз

HUMB. Результаты

21 Системы выделения ключевых фраз

Системы выделения ключевых фраз

KP-miner

Выделения ключевых фраз из английских и арабских документов. Выделение n-грамм из первых m слов текста , за исключением: начинающихся со стоп слов содержащих в себе знаки препинания появляющихся менее k раз в тексте Атрибуты TFxIDF B – коэффициент уравновешивания значимости длинных фраз P – атрибут основанный на положении фразы в документе

22 Системы выделения ключевых фраз

Системы выделения ключевых фраз

KP-miner

W = tf*idf*B*P W – вес фразы Отбор: Фиксированный порог Пересчет TF, для выбранных фраз, являющихся подфразами других

23 Системы выделения ключевых фраз

Системы выделения ключевых фраз

KP-miner. Результаты

Результаты тестирования на SemEval-2010

24 Вопросы

Вопросы

«Методы извлечения ключевых фраз»
http://900igr.net/prezentacija/ekonomika/metody-izvlechenija-kljuchevykh-fraz-66509.html
cсылка на страницу
Урок

Экономика

125 тем
Слайды
900igr.net > Презентации по экономике > Управление > Методы извлечения ключевых фраз