Компьютер
<<  Тема урока: «Назначение и боевые свойства автомата Калашникова» Освоение компьютера 2 класс  >>
3.1. Назначение онтологий
3.1. Назначение онтологий
Информационный поиск Поиск информации (Information Retrieval) и задача
Информационный поиск Поиск информации (Information Retrieval) и задача
Постановка задачи DR
Постановка задачи DR
Возникли вопросы
Возникли вопросы
Основные понятия (1)
Основные понятия (1)
Основные понятия (2)
Основные понятия (2)
Основные понятия (3)
Основные понятия (3)
Основные понятия (4)
Основные понятия (4)
Основные понятия (5)
Основные понятия (5)
Существующие подходы к решению задачи DR
Существующие подходы к решению задачи DR
Индексирование по ключевым словам
Индексирование по ключевым словам
Инвертированный словарь
Инвертированный словарь
Двоичный поиск
Двоичный поиск
Ранжированный поиск (vector space model)
Ранжированный поиск (vector space model)
Вероятностная модель
Вероятностная модель
R = A / n;
R = A / n;
Как улучшить поиск
Как улучшить поиск
Вопросы к лекции
Вопросы к лекции

Презентация: «3.1. Назначение онтологий». Автор: Мирослав. Файл: «3.1. Назначение онтологий.ppt». Размер zip-архива: 72 КБ.

3.1. Назначение онтологий

содержание презентации «3.1. Назначение онтологий.ppt»
СлайдТекст
1 3.1. Назначение онтологий

3.1. Назначение онтологий

Информационный поиск.

2 Информационный поиск Поиск информации (Information Retrieval) и задача

Информационный поиск Поиск информации (Information Retrieval) и задача

извлечения документов (Document Retrieval)

3 Постановка задачи DR

Постановка задачи DR

Дано: 1) Коллекция документов на естественном языке - ЕЯ (одном или нескольких); 2) Запрос на ЕЯ. Требуется: Выбрать из коллекции документы релевантные запросу и только их. И, возможно, упорядочить выборку по релевантности.

4 Возникли вопросы

Возникли вопросы

Откуда взялись документы? Чем отличается естественный язык от искусственного? Кто и как формулирует запрос? Что такое релевантность? Ответы – далее...

5 Основные понятия (1)

Основные понятия (1)

Коллекция документов множество текстов, описывающих некоторую область знаний и собранных вместе (коллекция текстов по гидродинамике) локальные и глобальные коллекции экстремальный случай – коллекция документов, доступных по Internet (область знаний?)

6 Основные понятия (2)

Основные понятия (2)

Естественный язык используется для общения людей многозначный был и останется основным языком представления знаний человека Искусственный язык в отличие от ЕЯ, сконструирован целенаправленно как правило, не многозначен

7 Основные понятия (3)

Основные понятия (3)

Информационная потребность внутреннее состояние психики человека причина возникновения: несоответствие между тем, что есть и тем, что хотелось бы иметь (в плане информации) выражается на ЕЯ словами «Хотелось бы знать...» реализуется в виде поискового запроса по коллекции документов

8 Основные понятия (4)

Основные понятия (4)

Запрос к поисковой системе может быть задан на ЕЯ, но чаще задается на некотором ИЯ. обычный вопрос: «Как проехать в аэропорт?» запрос к Яндекс, Google: «аэропорт проезд». Поисковик не способен понимать ЕЯ. Он способен обрабатывать только поисковые образы – внутренние представления запросов (ПОЗ) и документов (ПОД) на информационно-поисковом языке.

9 Основные понятия (5)

Основные понятия (5)

Релевантность мера близости документа и запроса может определяться человеком (экспертом), но обычно вычисляется поисковой машиной релевантные запросу документы формируют релевантную выборку... ... но удовлетворяют ли они информационную потребность пользователя? К сожалению, удовлетворение информационной потребности это – не задача, а проблема (трудно формализовать понятие «инф. потребность»)

10 Существующие подходы к решению задачи DR

Существующие подходы к решению задачи DR

Обработка документов и запросов Индексирование по ключевым словам Двоичный поиск Ранжированный поиск (vector-space model) Вероятностная модель

11 Индексирование по ключевым словам

Индексирование по ключевым словам

Информационный поиск начинается не с написания запроса, а с индексирования документов. Каждому документу сопоставляется ПОД. Пример: документ – книга, ПОД – алфавитный указатель в конце книги.

12 Инвертированный словарь

Инвертированный словарь

Каждая запись содержит: термин, количество документов коллекции, в которых термин появился, частоту появления в документах коллекции, ссылку на структуру, описывающую появление термина в каждом из документов.

13 Двоичный поиск

Двоичный поиск

ПОЗ – формула. Термины и логические связки (AND, OR, NOT) ПОЗ можно рассматривать как двоичную маску. Способ наложения маски: каждому операнду сопоставляется подмножество документов, затем над множествами выполняются соответствующие операции (пересечение, объединение, дополнение) Ровно 2 значения релевантности: true, false.

14 Ранжированный поиск (vector space model)

Ранжированный поиск (vector space model)

ПОД и ПОЗ представляют собой векторы в пространстве терминов значения элементов векторов задаются некоторой функцией наиболее популярна tf*idf Релевантность – близость векторов ПОД и ПОЗ в пространстве терминов (косинус угла между ними)

15 Вероятностная модель

Вероятностная модель

Основана на вычислении вероятности того, что документ релевантен запросу. Делается ряд допущений: документ либо релевантен запросу, либо нет термины распределены по документам коллекции независимо релевантность одного документа не зависит от других В целом качество поиска не лучше, чем у модели vector space

16 R = A / n;

R = A / n;

P = A / m

Оценка качества поисковых систем

конференции TREC, CLEF, РОМИП важные параметры качества поиска полнота (recall, R) – доля релевантных документов в выборке, по отношению ко всем релевантным документам коллекции точность (precision, P) – доля релевантных документов в выборке, по отношению ко всем документам в выборке.

N – число документов в коллекции n – число релевантных документов в коллекции m – число документов в выборке А – число релевантных документов в выборке

17 Как улучшить поиск

Как улучшить поиск

Отказ от идеи независимости («ортогональности») терминов: понятия могут быть связаны в семантические сети (представлены как тезаурусы или онтологии) Использование онтологий и тезаурусов расширение запроса было «бегемот» стало «бегемот, гиппопотам» недостатки подхода: «поисковый шум»

18 Вопросы к лекции

Вопросы к лекции

Перечислите традиционные подходы к решению задачи DR. Чем критерий полноты отличается от критерия точности? Назовите способы улучшения поиска при помощи тезаурусов и онтологий.

«3.1. Назначение онтологий»
http://900igr.net/prezentacija/informatika/3.1.-naznachenie-ontologij-172853.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Компьютер > 3.1. Назначение онтологий