Реклама
<<  Морфологические и синтаксические особенности текстов служебных документов Таргетированные объявления Вконтакте и в Facebook как инструмент рекламы  >>
Автоматическая оценка подобия тематического содержания текстов на
Автоматическая оценка подобия тематического содержания текстов на
1. Аналитические системы
1. Аналитические системы
3
3
4
4
Подходы к сравнению смыслового содержания документов
Подходы к сравнению смыслового содержания документов
Составление формализованного смыслового описания документа
Составление формализованного смыслового описания документа
Назначение весов наименованиям понятий
Назначение весов наименованиям понятий
8
8
9
9
Результаты работы алгоритма Входные данные
Результаты работы алгоритма Входные данные
Результаты работы алгоритма Выходные данные
Результаты работы алгоритма Выходные данные
12
12
Поисковые системы (семантический поиск) Системы поиска заимствований
Поисковые системы (семантический поиск) Системы поиска заимствований
?
?
Спасибо за внимание
Спасибо за внимание

Презентация на тему: «Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний». Автор: alex. Файл: «Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний.ppt». Размер zip-архива: 2718 КБ.

Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний

содержание презентации «Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний.ppt»
СлайдТекст
1 Автоматическая оценка подобия тематического содержания текстов на

Автоматическая оценка подобия тематического содержания текстов на

основе сравнения их формализованных смысловых описаний

Захаров Виктор Николаевич Хорошилов Алексей Александрович

2 1. Аналитические системы

1. Аналитические системы

2. Поисковые системы

3. Системы классификации

Актуальность решаемой задачи

2

3 3

3

Идея оценки подобия тематического содержания текстов

Текст № 1

Текст № 2

Ил-2 — советский штурмовик времён Великой Отечественной войны, созданный в ОКБ Ильюшина под руководством Сергея Владимировича Ильюшина. Самый массовый самолёт 1940-х годов, было выпущено около 36 тысяч штук.

Один из самых грозных боевых самолетов ВОВ Ил-2 , разработанный в ОКБ Ильюшина производился в огромных количествах. Советские источники называют цифру 36 тысяч штук.

1. Ил-2

12

12

2. Великая отечественная война

24

24

3. ОКБ Ильюшина

16

16

4. 36 тысяч штук

3

3

Совпавшие наименования понятий

Вес в документе №1

Вес в документе №2

4 4

4

Общая схема процесса оценки подобия тематического содержания текстов

Получение коэффициента подобия тематического содержания текстов

Документ №1

Определение свойств слов (род, число, падеж, лицо)

Членение текстов на предложения

В каждом предложении определяется главные члены

Документ №2

Присвоение единицам смысла весов и построение ФСОД (формализованного смыслового описания документов)

Выделение из текста единиц смысла

Определение синтаксической структуры предложения и построение дерева зависимостей

5 Подходы к сравнению смыслового содержания документов

Подходы к сравнению смыслового содержания документов

Понятие 2

Понятие 1

Понятие 1

Понятие 3

Понятие 2

Понятие 3

Понятие 4

Понятие 4

Понятие 5

Понятие 5

Понятие 6

Понятие 7

Понятие 6

Понятие 7

5

6 Составление формализованного смыслового описания документа

Составление формализованного смыслового описания документа

7 Назначение весов наименованиям понятий

Назначение весов наименованиям понятий

7

- Коэффициент увеличивающий степень значимости наименования понятия - количество слов с словосочетании , которым выражается j-ое понятие в i-ом тексте -частота появления выражается j-ого понятия в i-ом тексте kmax -коэффициент установленный опытным путем -глобальная частота j-ого наименования понятия в i-ом тексте

8 8

8

Коэффициент подобия тематического содержания текстов

9 9

9

Коэффициент подобия тематического содержания p-ого и q-ого текстов

10 Результаты работы алгоритма Входные данные

Результаты работы алгоритма Входные данные

10

Текст №1

Текст №2

Официальным названием страны, которую мы обычно называем Англией, иногда Великобританией, является Объединенное Королевство Великобритании и Северной Ирландии. Объединенное Королевство расположено на группе островов, находящихся недалеко от материка северо-западной Европы. Британские острова включают саму Великобританию, Ирландию и множество маленьких островов. Великобритания состоит из Англии, Шотландии и Уэльса. Южная часть Ирландии оккупирована Великобританией и называется самими гражданами Республикой Эйр. Великобритания отделена от континента проливом Ла-Манш, самую узкую часть которого называют Па-де-Кале. Британские острова на западе окружены мелкими водами Ирландского моря, на севере и северо-востоке - Северным морем, на востоке - Норвежским морем…..

Полное название страны - Соединенное Королевство Великобритании и Северной Ирландии. Соединенное Королевство находится на Британских островах. Британские острова состоят из двух больших, Великобритания и Ирландия и большого количества маленьких островов. Их общая площадь - более 314 тысяч кв. км. Британские острова отделены от Европейского континента Северным морем и Ла-Маншем. Западное побережье Великобритании омывается Атлантическим океаном и Ирландским морем. Северная Ирландия занимает одну треть территории острова Ирландия. На юге она граничит с Ирландской Республикой. Остров Великобритания состоит из трех основных частей: Англия (южная и средняя часть острова), Уэльс (гористый полуостров на западе) и Шотландия (северная часть острова). В Великобритании нет высоких гор.На севере Чевиот Хилс отделяют Англию от Шотландии; Пеннинские горы тянутся от Северной Англии почти через всю ее центральную часть; Кембрийские горы занимают большую часть Уэльса; Северо-Шотландское нагорье - самые высокие горы в Британии……

11 Результаты работы алгоритма Выходные данные

Результаты работы алгоритма Выходные данные

11

Шкала подобия тематического содержания текстов

А.Тексты на разные темы Б.В текстах есть общие подтемы В.Тексты содержат близкую по смыслу тему Г. Тексты содержат близкие по смыслу темы и подтемы Д.Тексты совпадают по смысловому содержанию

А

Б

В

Г

Д

0

10

20

30

40

50

60

70

80

90

100

%

Результаты сравнения двух анализируемых текстов 00000544 Соединенный Королевство Великобритания 00000022 Северный море 00000044 Британский остров 00000080 Шотландия 00000036 Северный Ирландия 00000160 Лондон 00000160 Англия 00000072 Уэльс 00000036 Темза 00000080 Ирландия 00000004 климат Великобритания 00000018 Манчестер 00000018 Ливерпуль 00000018 Глазго Общий вес смыслового описания текста №1 =2367 Общий вес смыслового описания текста №2 =2134 Вес совпавших элементов описаний текста №1 и текста №2=1292 Коэффициент подобия тематического содержания текстов = 47%

12 12

12

Сравнение с поисковой сиcтемой Google

Запрос: Як-38 - самолет ОКБ Яковлева с технологией вертикального взлета.

Примечания

1

6

8

40

2

8

5

46

3

9

9

26

4

1

1

53

5

4

3

50

6

11

11

16

7

7

7

41

8

5

6

45

9

10

10

20

10

3

4

48

11

2

2

52

12

Номер текста среди результатов, полученных поисковой системой Google

Порядок значимости текстов, полученный экспертом

Порядок текстов полученный при помощи применения алгоритма

Коэффициент, полученный системой автоматическойоценки подобия тематического содержания текстов (%)

Сайт ОКБ Яковлева, мало информации

Сайт ОКБ Яковлева, перечень публикаций

История ОКБ Яковлева, ВОВ

Хороший и подробный текст про Як-38

Текст про Як-38

Текст про иностранные самолеты

Описание программы ударная сила про Як-38, Як-141

История як-38 и як-36( в основном)

Текст про спортивные самолеты Як

Подробный текст про Як-38

Подробный текст про Як-38

12

13 Поисковые системы (семантический поиск) Системы поиска заимствований

Поисковые системы (семантический поиск) Системы поиска заимствований

выраженных различными способами Аналитические системы (оценка подобия тематического содержания текстов )

Применение рассмотренных методов

13

14 ?

?

?

14

Развитие методов на примере систем поиска заимствований

1.

2.

3.

Понятие 8

Понятие 9

Понятие 1

Понятие 2

Понятие 11

Понятие 3

Понятие 4

Понятие 12

Понятие 5

Понятие 7

Понятие 10

Понятие 6

15 Спасибо за внимание

Спасибо за внимание

«Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний»
http://900igr.net/prezentacija/ekonomika/avtomaticheskaja-otsenka-podobija-tematicheskogo-soderzhanija-tekstov-na-osnove-sravnenija-ikh-formalizovannykh-smyslovykh-opisanij-100449.html
cсылка на страницу

Реклама

29 презентаций о рекламе
Урок

Экономика

125 тем
Слайды
900igr.net > Презентации по экономике > Реклама > Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний