№ | Слайд | Текст |
1 |
 |
3.1. Назначение онтологийИнформационный поиск. |
2 |
 |
Информационный поиск Поиск информации (Information Retrieval) и задачаизвлечения документов (Document Retrieval) |
3 |
 |
Постановка задачи DRДано: 1) Коллекция документов на естественном языке - ЕЯ (одном или нескольких); 2) Запрос на ЕЯ. Требуется: Выбрать из коллекции документы релевантные запросу и только их. И, возможно, упорядочить выборку по релевантности. |
4 |
 |
Возникли вопросыОткуда взялись документы? Чем отличается естественный язык от искусственного? Кто и как формулирует запрос? Что такое релевантность? Ответы – далее... |
5 |
 |
Основные понятия (1)Коллекция документов множество текстов, описывающих некоторую область знаний и собранных вместе (коллекция текстов по гидродинамике) локальные и глобальные коллекции экстремальный случай – коллекция документов, доступных по Internet (область знаний?) |
6 |
 |
Основные понятия (2)Естественный язык используется для общения людей многозначный был и останется основным языком представления знаний человека Искусственный язык в отличие от ЕЯ, сконструирован целенаправленно как правило, не многозначен |
7 |
 |
Основные понятия (3)Информационная потребность внутреннее состояние психики человека причина возникновения: несоответствие между тем, что есть и тем, что хотелось бы иметь (в плане информации) выражается на ЕЯ словами «Хотелось бы знать...» реализуется в виде поискового запроса по коллекции документов |
8 |
 |
Основные понятия (4)Запрос к поисковой системе может быть задан на ЕЯ, но чаще задается на некотором ИЯ. обычный вопрос: «Как проехать в аэропорт?» запрос к Яндекс, Google: «аэропорт проезд». Поисковик не способен понимать ЕЯ. Он способен обрабатывать только поисковые образы – внутренние представления запросов (ПОЗ) и документов (ПОД) на информационно-поисковом языке. |
9 |
 |
Основные понятия (5)Релевантность мера близости документа и запроса может определяться человеком (экспертом), но обычно вычисляется поисковой машиной релевантные запросу документы формируют релевантную выборку... ... но удовлетворяют ли они информационную потребность пользователя? К сожалению, удовлетворение информационной потребности это – не задача, а проблема (трудно формализовать понятие «инф. потребность») |
10 |
 |
Существующие подходы к решению задачи DRОбработка документов и запросов Индексирование по ключевым словам Двоичный поиск Ранжированный поиск (vector-space model) Вероятностная модель |
11 |
 |
Индексирование по ключевым словамИнформационный поиск начинается не с написания запроса, а с индексирования документов. Каждому документу сопоставляется ПОД. Пример: документ – книга, ПОД – алфавитный указатель в конце книги. |
12 |
 |
Инвертированный словарьКаждая запись содержит: термин, количество документов коллекции, в которых термин появился, частоту появления в документах коллекции, ссылку на структуру, описывающую появление термина в каждом из документов. |
13 |
 |
Двоичный поискПОЗ – формула. Термины и логические связки (AND, OR, NOT) ПОЗ можно рассматривать как двоичную маску. Способ наложения маски: каждому операнду сопоставляется подмножество документов, затем над множествами выполняются соответствующие операции (пересечение, объединение, дополнение) Ровно 2 значения релевантности: true, false. |
14 |
 |
Ранжированный поиск (vector space model)ПОД и ПОЗ представляют собой векторы в пространстве терминов значения элементов векторов задаются некоторой функцией наиболее популярна tf*idf Релевантность – близость векторов ПОД и ПОЗ в пространстве терминов (косинус угла между ними) |
15 |
 |
Вероятностная модельОснована на вычислении вероятности того, что документ релевантен запросу. Делается ряд допущений: документ либо релевантен запросу, либо нет термины распределены по документам коллекции независимо релевантность одного документа не зависит от других В целом качество поиска не лучше, чем у модели vector space |
16 |
 |
R = A / n;P = A / m Оценка качества поисковых систем конференции TREC, CLEF, РОМИП важные параметры качества поиска полнота (recall, R) – доля релевантных документов в выборке, по отношению ко всем релевантным документам коллекции точность (precision, P) – доля релевантных документов в выборке, по отношению ко всем документам в выборке. N – число документов в коллекции n – число релевантных документов в коллекции m – число документов в выборке А – число релевантных документов в выборке |
17 |
 |
Как улучшить поискОтказ от идеи независимости («ортогональности») терминов: понятия могут быть связаны в семантические сети (представлены как тезаурусы или онтологии) Использование онтологий и тезаурусов расширение запроса было «бегемот» стало «бегемот, гиппопотам» недостатки подхода: «поисковый шум» |
18 |
 |
Вопросы к лекцииПеречислите традиционные подходы к решению задачи DR. Чем критерий полноты отличается от критерия точности? Назовите способы улучшения поиска при помощи тезаурусов и онтологий. |
«3.1. Назначение онтологий» |
http://900igr.net/prezentacija/informatika/3.1.-naznachenie-ontologij-172853.html