Поисковые системы
<<  Прогнозирование тематического поискового трафика Содержание образования в поисках культурной опоры  >>
Поисковая система на основе семантики
Поисковая система на основе семантики
SEUS: search engine using semantics
SEUS: search engine using semantics
План доклада
План доклада
Постановка задачи
Постановка задачи
Постановка задачи
Постановка задачи
Векторная модель ранжирования
Векторная модель ранжирования
Триплетное представление данных
Триплетное представление данных
Модель поиска SEUS
Модель поиска SEUS
Представление текста в виде RDF графа
Представление текста в виде RDF графа
Триплетное представление документа 1
Триплетное представление документа 1
Триплетное представление документа 2
Триплетное представление документа 2
Триплетное представление запроса
Триплетное представление запроса
Лингвистическая онтология
Лингвистическая онтология
Триплетное представление документов, запроса и онтологии
Триплетное представление документов, запроса и онтологии
Логический вывод 1
Логический вывод 1
Логический вывод 2
Логический вывод 2
Вывод
Вывод
Модель SEUS на практике
Модель SEUS на практике
Триплетное представление текста
Триплетное представление текста
Лексико-синтаксические шаблоны
Лексико-синтаксические шаблоны
Пример шаблона
Пример шаблона
Lspl (пгу)
Lspl (пгу)
Полный текст шаблона
Полный текст шаблона
Интерпретатор языка LSPL
Интерпретатор языка LSPL
Online анализатор
Online анализатор
Триплетное представление документа 1
Триплетное представление документа 1
Триплетное представление документа 2
Триплетное представление документа 2
Семантический словарь
Семантический словарь
Коэффициенты доверия триплетов
Коэффициенты доверия триплетов
Валидатор шаблонов 1/3
Валидатор шаблонов 1/3
Валидатор шаблонов 2/3
Валидатор шаблонов 2/3
Валидатор шаблонов 3/3
Валидатор шаблонов 3/3
Коэффициенты доверия триплетов
Коэффициенты доверия триплетов
Логический вывод
Логический вывод
Работа с RDF данными
Работа с RDF данными
Семантический индекс 1/2
Семантический индекс 1/2
Семантический индекс 2/2
Семантический индекс 2/2
SEUS на РОМИП
SEUS на РОМИП
SEUS в прогонах семинара
SEUS в прогонах семинара
Результаты SEUS
Результаты SEUS
Результаты 1/3
Результаты 1/3
Результаты 2/3
Результаты 2/3
Результаты 3/3
Результаты 3/3
Спасибо за внимание
Спасибо за внимание

Презентация: «Поисковая система на основе семантики». Автор: . Файл: «Поисковая система на основе семантики.ppt». Размер zip-архива: 89 КБ.

Поисковая система на основе семантики

содержание презентации «Поисковая система на основе семантики.ppt»
СлайдТекст
1 Поисковая система на основе семантики

Поисковая система на основе семантики

Пермский Государственный Университет Рабчевский Евгений

2 SEUS: search engine using semantics

SEUS: search engine using semantics

Поисковая машина с использованием семантики Поиск по русско-язычным коллекциям данных Модифицированная векторная модель На базе библиотеки Lucene и анализатора Dictum

3 План доклада

План доклада

Постановка задачи, идея работы поисковой машины SEUS Работа SEUS на практике SEUS на РОМИП Результаты

4 Постановка задачи

Постановка задачи

Пусть коллекция документов состоит из двух документов: D1. Стоимость полетов в космос превышает стоимость жд билета в Москву. D2. Пункт продажи жд билетов в Москве находится здесь. А пользователь задает следующий запрос. Q: купить жд билет в Москве.

5 Постановка задачи

Постановка задачи

Отранжировать документы на основе семантики документов и вычислений на базе векторной модели

6 Векторная модель ранжирования

Векторная модель ранжирования

Текст представляется набором термов (слов текста, приведенных к нормальной форме) Запрос и документы коллекции представляются векторами, координатами которых являются относительные частоты соответствующих термов Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции

7 Триплетное представление данных

Триплетное представление данных

RDF модель как основа для представления данных RDF триплет – тройка RDF ресурсов: субъект, предикат и объект

8 Модель поиска SEUS

Модель поиска SEUS

Текст представляется набором триплетов Запрос и документы коллекции представляются векторами, координатами которых являются коэффициенты доверия соответствующих триплетов Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции

9 Представление текста в виде RDF графа

Представление текста в виде RDF графа

Текст каждого предложения представляется графом, полученным с помощью полного синтаксического анализа В результирующий граф включаются все подграфы главного графа

10 Триплетное представление документа 1

Триплетное представление документа 1

1 Стоимость полетов в космос 1 превышать 2 стоимость жд билета в Москву 3 2 полеты в космос 4 стоимость (стоить) 5 величина стоимости 6 3 тот кто способен летать 7 полететь в 8 Космос 9 4 полет 10 в (направление движения) 11 космос 9 5 жд билет в Москву 12 стоимость (стоить) 5 величина стоимости 6 6 жд билет 13 в (направление движения) 11 Москва 14

11 Триплетное представление документа 2

Триплетное представление документа 2

7 Пункт продажи жд билетов в Москве 15 место расположения 16 Здесь 17 8 Пункт продажи жд билетов 18 В (место расположения) 16 Москва 14 9 Продажа жд билетов 19 в (место проведения) 20 Москва 14 10 Продажа жд билетов 19 Имеет атрибут 21 Пункт 22 11 тот кто продает 23 Продажа - продавать 24 ЖД билет 13 12 Продажа 24 в (место проведения) 20 Москва 14

12 Триплетное представление запроса

Триплетное представление запроса

13 покупка жд билетов 25 в (место проведения) 20 Москва 14 14 Тот кто покупает 26 покупка - покупать 27 Жд билеты 13 15 покупка 27 в (место проведения) 20 Москва 14

13 Лингвистическая онтология

Лингвистическая онтология

Покупка и продажа - инверсные понятия 16 тот кто покупает 26 покупка 27 тот кто продает 23 17 тот кто продает 23 продажа 24 тот кто покупает 26

14 Триплетное представление документов, запроса и онтологии

Триплетное представление документов, запроса и онтологии

D1 1 1 2 3 2 4 5 6 3 7 8 9 4 10 11 9 5 12 5 6 6 13 11 14 D2 7 15 16 17 8 18 16 14 9 19 20 14 10 19 21 22 11 23 24 13 12 24 20 14 Q 13 25 20 14 14 26 27 13 15 27 20 14 O 16 26 27 23 17 23 24 26

15 Логический вывод 1

Логический вывод 1

Триплет 25 20 14 разложили на триплеты 26 27 13 27 20 14 Значит первый (при желании) можно не рассматривать

16 Логический вывод 2

Логический вывод 2

Используя инверсные свойства Покупка и Продажа, из триплетов запроса 26 27 13 27 20 14 Получим триплеты 23 24 13 24 20 14

17 Вывод

Вывод

Все триплеты отражающие смысл запроса полностью содержатся в RDF графе (наборе триплетов), отражающем смысл документа D2. Что не выполняется для документа D1. Значит документ D2 более релевантен запросу Q. Для точной оценки можно подсчитать углы между соответствующими векторами

18 Модель SEUS на практике

Модель SEUS на практике

Триплетное представление текста Коэффициенты доверия триплетов Логический вывод

19 Триплетное представление текста

Триплетное представление текста

RDF данные извлекаются при помощи: GRDDL извлечения из микроформатов (например RDF/A) Извлекаются из текста при помощи лексико-синтаксических шаблонов

20 Лексико-синтаксические шаблоны

Лексико-синтаксические шаблоны

Позволяют извлекать семантику текста на основе особенностей языка Тело шаблона состоит из входной и выходной схем. Входная схема – характерное описание части предложения, по которому в сочетании с входным текстом, можно однозначно построить выходную семантическую модель, соответствующую анализируемому тексту. Выходная семантическая модель представляется набором RDF триплетов, состоящих из субъекта, объекта и предиката.

21 Пример шаблона

Пример шаблона

Студент - это человек, который учится в университете http://result/subject/Студент http://result/property/#subClassOf http://result/object/человек

22 Lspl (пгу)

Lspl (пгу)

XML основанный язык формализации шаблонов LSPL (не путать с LSPL Большаковой) Элементы входной схемы: литерал, словоформа, часть речи, синтаксическая группа, знаки препинания Выходная схема – набор триплетов со с ссылками на элементы входной схемы

23 Полный текст шаблона

Полный текст шаблона

<Pattern> <inputschema> <element type="partofspeech" id="1"> <content>noun</content> </element> <element type="literal"> <content>-</content> </element> <element type="literal" id="2"> <content>это</content> </element> <element type="partofspeech" id="3"> <content>noun</content> </element> <element type="literal" id="4"> <content>,</content> </element> <element type="wordform" id="5"> <content>который</content> </element> <element type="partofspeech" id="6"> <content>verb</content> </element> </inputschema> <outputschema> <statement> <subject>http://seus.Rabchevsky.Name/rdf#**1**</subject> <object>http://seus.Rabchevsky.Name/rdf#**3**</object> <property>http://www.W3.Org/1999/02/22-rdf-syntax-ns#type</property> </statement> </outputschema> </pattern>

24 Интерпретатор языка LSPL

Интерпретатор языка LSPL

Для обеспечения семантики языка LSPL использовался синтаксический анализатор DictaScope. Java библиотека PatternLib: Взаимодействие с синтаксическим анализатором Обработка шаблонов и применение их тексту Работа с RDF данными через RDF store библиотеки Jena Визуализация полученных RDF графов с помощью библиотеки GraphViz Взаимодействие с клиентскими программами

25 Online анализатор

Online анализатор

http://seus.rabchevsky.name:8080/DemoServlet/ Вводится текст Выбираются шаблоны После анализа выводятся триплеты в декларативном и графическом виде

26 Триплетное представление документа 1

Триплетное представление документа 1

1 Стоимость полетов в космос 1 превышать 2 стоимость жд билета в Москву 3 2 полеты в космос 4 стоимость (стоить) 5 определяется только величина стоимости 6 субъект и предикат 3 тот кто способен летать 7 полететь в 8 Космос 9 4 полет 10 в (направление движения) 11 космос 9 5 жд билет в Москву 12 стоимость (стоить) 5 величина стоимости 6 6 жд билет 13 в (направление движения) 11 Москва 14

27 Триплетное представление документа 2

Триплетное представление документа 2

7 Пункт продажи жд билетов в Москве 15 место расположения 16 Здесь 17 8 Пункт продажи жд билетов 18 В (место расположения) 16 Москва 14 9 Продажа жд билетов 19 в (место проведения) 20 Москва 14 10 Продажа жд билетов 19 Имеет атрибут 21 Пункт 22 11 тот кто продает 23 Продажа - продавать 24 ЖД билет 13 12 Продажа 24 в (место проведения) 20 Москва 14

28 Семантический словарь

Семантический словарь

Для эффективного триплетного представления текста необходим семантический словарь Статьи словаря можно оформлять в виде таких же лексико-синтаксических шаблонов

29 Коэффициенты доверия триплетов

Коэффициенты доверия триплетов

Для триплетов, полученных с помощью шаблонов, суть вероятности валидной работы шаблона Для этого разработан валидатор шаблонов

30 Валидатор шаблонов 1/3

Валидатор шаблонов 1/3

http://seus.rabchevsky.name:8080/VallyWeb/ Позволяет оценивать работу шаблонов на коллекции документов Сейчас залиты коллекции РОМИП’2009 (legal, by.web и km.ru)

31 Валидатор шаблонов 2/3

Валидатор шаблонов 2/3

Пользователь выбирает шаблон из базы имеющихся шаблонов и может Пользователь применяет готовый шаблон к коллекции документов, и система выдает лексикализации данного шаблона Результат представляется в виде таблицы из лексикализации шаблона и соответствующего RDF графа

32 Валидатор шаблонов 3/3

Валидатор шаблонов 3/3

Планируется реализовать интерфейс для отметки качества работы шаблонов пользователем и механизм расчета коэффициентов доверия шаблонов

33 Коэффициенты доверия триплетов

Коэффициенты доверия триплетов

Для триплетов, полученных с помощью логического вывода, специализированного под информационный поиск, суть вероятности валидной работы правила логического вывода Возможны случаи когда значение коэффициентов доверия триплета существенно зависят от контекста (наличия других триплетов) – сейчас это не предусмотрено

34 Логический вывод

Логический вывод

Стандартный - при помощи стандартных машин вывода (например машина вывода RDFS или OWL в библиотеке Jena) Адаптированный под информационный поиск с учетом лингвистики (нужна лингвистическая онтология)

35 Работа с RDF данными

Работа с RDF данными

Полученные триплеты хранятся в RDF store библиотеки Jena Jena хранит RDF графы в виде моделей Физически модель может храниться в СУБД, в XML файлах на диске и т.д. В нашем случае – СУБД MySQL

36 Семантический индекс 1/2

Семантический индекс 1/2

В БД Jena моделей RDF графов добавлены поля: Идентификатора триплета Ссылка на документ источник Вместо термов коллекции в индексе хранятся идентификаторы триплетов

37 Семантический индекс 2/2

Семантический индекс 2/2

Модификация Lucene: Изменениям были подвергнуты методы класса Similarity библиотеки Lucene: метод обработки отдельного терма метод обработки коллекции термов.

38 SEUS на РОМИП

SEUS на РОМИП

GRDDL – в коллекциях РОМИП отсутствуют микроформаты Лексико-синтаксические шаблоны на данный момент дают очень плохие результаты Адаптированный под информационный поиск не разработан

39 SEUS в прогонах семинара

SEUS в прогонах семинара

Поиск по коллекции нормативно правовых документов и веб коллекции Взята стандартная библиотека Lucene Русскоязычный стеммер Snowball из поставки Lucene

40 Результаты SEUS

Результаты SEUS

41 Результаты 1/3

Результаты 1/3

LSPL - создан язык для формализации средств, позволяющих представлять текст в виде RDF графов. Интерпретатор LSPL - создан инструмент для применения языка LSPL Валидатор шаблонов – создан инструмент для работы по наполнению базы шаблонов или семантического словаря (для лингвиста)

42 Результаты 2/3

Результаты 2/3

Модификация Lucene – создана модель для поиска документов представленных в виде RDF графов. Модель реализована. SEUS на РОМИП’2009 1/2 – получена оценка «эталонной модели поиска» - оценка стандартной поставки Lucene SEUS на РОМИП’2009 2/2 – получены коллекции данных, запросы и таблицы релевантности, с помощью которых впоследствии можно будет оценить качество работы семантической поисковой машины *

43 Результаты 3/3

Результаты 3/3

Семантический словарь – не создан Созданных шаблонов – очень мало Логический вывод для информационного поиска - не реализован Лингвистическая онтология – не создана Предметная область коллекций документов – не выбрана

44 Спасибо за внимание

Спасибо за внимание

http://seus.rabchevsky.name/ http://seus.rabchevsky.name:8080/DemoServlet/ http://rabchevsky.name/semantic_web_in_IR http://seus.rabchevsky.name:8080/VallyWeb/ http://seus.rabchevsky.name:8080/SEUS/ Mail me: evgeny@rabchevsky.name

«Поисковая система на основе семантики»
http://900igr.net/prezentacija/informatika/poiskovaja-sistema-na-osnove-semantiki-224902.html
cсылка на страницу

Поисковые системы

24 презентации о поисковых системах
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Поисковые системы > Поисковая система на основе семантики