Связь
<<  Навигационные системы Человек в системе социальных связей  >>
Навигационные запросы
Навигационные запросы
Что такое навигационный запрос
Что такое навигационный запрос
Почему навигация - это просто
Почему навигация - это просто
Почему навигация - это важно
Почему навигация - это важно
Ручной список, топ-120
Ручной список, топ-120
Как мы считаем полноту и точность
Как мы считаем полноту и точность
Цель – полнота без потери точности
Цель – полнота без потери точности
Анализ пользовательского поведения
Анализ пользовательского поведения
log ?C
log ?C
Свойства метрики
Свойства метрики
А если поведенческих данных нет,
А если поведенческих данных нет,
+ ML
+ ML
Пример полученных данных (hh
Пример полученных данных (hh
Новые проблемы при росте базы
Новые проблемы при росте базы
Решение проблем: запрос «изнутри»
Решение проблем: запрос «изнутри»
Авито купить собаку в самаре
Авито купить собаку в самаре
Конкатенация и факторизация списков
Конкатенация и факторизация списков
Ядро запроса
Ядро запроса
Путь внутрь сайта
Путь внутрь сайта
Региональные страницы
Региональные страницы
Для борьбы с фрагментарностью
Для борьбы с фрагментарностью
Выбираем оптимальную цель
Выбираем оптимальную цель
Q
Q
Зачем всё это
Зачем всё это
Немного статистики
Немного статистики
Спасибо
Спасибо

Презентация: «Навигационные запросы». Автор: Андрей Калинин. Файл: «Навигационные запросы.pptx». Размер zip-архива: 1170 КБ.

Навигационные запросы

содержание презентации «Навигационные запросы.pptx»
СлайдТекст
1 Навигационные запросы

Навигационные запросы

От простого к сложному и обратно

Михаил Долинин

2 Что такое навигационный запрос

Что такое навигационный запрос

Навигационный запрос – запрос, целью которого является точно определенный сайт или часть сайта. форум велосипедистов – не навигация велофорум ру – навигация Целью поиска следует считать сам объект в Интернете, а не его содержимое собственный контент страницы малозначим

3 Почему навигация - это просто

Почему навигация - это просто

Просто классифицировать запрос навигационные запросы короткие и потому менее разнообразные имеют чёткие маркеры (сайт, блог, форум) Просто оценить результат либо да, либо нет не бывает «слаборелевантных» результатов Предсказуемое поведение пользователя если искомое найдено

4 Почему навигация - это важно

Почему навигация - это важно

Примерно 20-30% потока запросов – навигация Почти весь топ запросов – навигация исключения: «порно», «игры», «окна» Крайне важна для пользователей Многие используют поиск как адресную строку Поиск как «вход в интернет» Правильный результат единственен и незаменим

5 Ручной список, топ-120

Ручной список, топ-120

Благодаря перекосу распределения навигов в сторону топа вконтакте + одноклассники ~ 20-25% всей навигации полнота такого списка ~60%. нормально для каталога, но мало для поиска

Вконтакте одноклассники яндекс google ютуб майл авито фейсбук зайцев нет гисметео рамблер авто ру натрибу omg wtf …

vk.com odnoklassniki.ru yandex.ru google.com youtube.com mail.ru avito.ru facebook.com zaycev.net gismeteo.ru rambler.ru auto.ru natribu.org Gtfo …

6 Как мы считаем полноту и точность

Как мы считаем полноту и точность

Cлучайная выборка из лога Размечаем вручную vs прогоняем через классификатор Qmanual – количество ручных навигов // relevant entries Qauto – количество автонавигов // retrieved entries Qgotcha! – из них совпавших с ручными // relevant retrieved entries

7 Цель – полнота без потери точности

Цель – полнота без потери точности

Точность топ-120 – 100% Как продолжать список автоматически? опасность в «почти релевантных» результатах - как правило, дорвей или сателлит Как отличить «вконтакте» от «порно»? анализируя поведение пользователей

8 Анализ пользовательского поведения

Анализ пользовательского поведения

Навигационные запросы характерны малым разбросом кликов т.е. все пользователи склонны кликать в один и тот же результат однако этим же свойством обладают высокорелевантные ненавигационные результаты но они, как правило, ведут внутрь сайта самый типичный пример: почти что-угодно википедия

9 log ?C

log ?C

Метрика на основе поведения

log Ci

N =

Группируем все клики по каждому запросу Считаем клики для каждого результата – Ci Навигационность пары запрос – результат: При N > Nmin считаем запрос навигационным Nmin=0.9, или даже 0.99

10 Свойства метрики

Свойства метрики

Pros: для запроса либо нет навигационного урла, либо он единственен одно и то же значение порога nmin для редких и для частотных запросов cons: необходима запросная статистика результат должен быть найден и показан не работает с геозависимой навигацией высокорелевантные ненавигационные результаты проходят порог

11 А если поведенческих данных нет,

А если поведенческих данных нет,

то используем то, что есть: Индекс Текст документа Ссылки и заголовки URL документов Cтруктура, сравнение с запросом Запрос Регион пользователя Маркеры Организации (ооо, зао, министерство, университет…) Веб (сайт, блог, форум, твиттер) Антимаркеры купить, скачать, смотреть

12 + ML

+ ML

Строим и балансируем обучающие выборки Обучаемся наивный Байес для анализа запроса деревья решений для всего остального Получаем значительный рост полноты и новый ворох проблем

13 Пример полученных данных (hh

Пример полученных данных (hh

ru)

Hh; hh москва; hh ru работа в москве; хедхантер; hh ru работа; hh ru вакансии в москве; headhunter; headhunter работа; хх; хантер; хэдхантер; hh ru в москве; hh работа; хх ру; www hh; хенд хантер; hh ru казань; хедхантер работа; www hh ru вакансии москва; hh ru москва; хэд хантер ru; hh ru вакансии в спб; hh kz; hh ru вакансии; хэд хантер; хэд хантер поиск работы; headhanter; работа hh; хэнд хантер; h h ru; h h; хантер поиск работы; hanter поиск работы; had hunter; хедхантер; поиск работы; хед хантер; хит хантер; хедхантер москва; handhanter; хетхантер; www hh ru в москве; hedhanter; head hunter; хэдхантер ру; поиск hh; хет хантер ру; h h ru работа; хеадхантер; хедхантер ру; хэд; head hanter; хед; www hh ru поиск вакансий; работа hh москва; хх ru; хеад хантер; хендхандер; работа на hh ru; работа хедхантер; hathanter; хенд хантер москва; hh ru нижний новгород; работа в москве hh ru; работа hh ru; нед хантер; ww hh ru; www headhunter; hh ру; hh ру москва; hh headhunter; noreply hh ru; hh hunter; theadhunter; tl fynth; хедхантер ru; www hh ru в москве резюме должность глюэнергетик; hh ru работа в москве водитель; работа на hh; сайт хедхантер; ненд хантер; работа в москве hh; www hh ru москва; хид хантер; рр кг; хитхантер; info site hh ru; hh ru вакансии москва; хэдхантер москва; www hh ru вакансии в москве; вакансии hh; no reply hh ru; хэндхантер; hunter поиск работы; мое резюме на hh ru; рр ру; хх ру вакансии; поиск headhunter; хх ру работа; поиск работы в москве hh; http hh ru applicant resumes; hed hanter; wwww hh ru; сайт hh; heand hunter; hh ru работа москва; hh ru москва вакансии; hed hunter; hant hunter; хэдх; headhunter noreply hh ru …

Всё ок, но отсутствует РАБОТА ХЕДХАНТЕР

«Омоним»

Опечатка

Мусор

14 Новые проблемы при росте базы

Новые проблемы при росте базы

Омонимичность несколько сайтов для одного запроса Фрагментарность не ловим малопопулярные разделы сайтов неуверенная региональность Мусор опечатки запросы на грани навигации случайные аккаунты соцсетей, блоги/твиттеры динамические страницы сайтов (поиски, темы на форумах)

15 Решение проблем: запрос «изнутри»

Решение проблем: запрос «изнутри»

Авито купить собаку в самаре

Шум

Корень сайта

Регион

Характерное слово

Внутрисайтовый путь

http://www.avito.ru/samara/sobaki

16 Авито купить собаку в самаре

Авито купить собаку в самаре

Наблюдения: Запросы имеют повторяющиеся общие фрагменты Смысл запроса не зависит от порядка слов в нём Некоторые слова («купить») не меняют смысла запроса Некоторые слова («собаку») ведут внутрь указанного сайта в Самаре этот запрос должен давать тот же результат без слов «в самаре»

17 Конкатенация и факторизация списков

Конкатенация и факторизация списков

Конкатенация списков строк – список конкатенаций всевозможных наборов строк этих списков Факторизация списка – его разложение, обратная процедура: Сортируем строки по длине Ищем каждую строку во всех последующих «Вырезаем» её из них

A B

x

=

A B c A A e A B f B

c d e f

A B c A d B B B A c

B e f A c d B e f A c f e c A B A c A c B d A e B f

18 Ядро запроса

Ядро запроса

Ядро – минимальный фрагмент запроса, определяющий навигационную цель «Хвосты» отбрасываем там залежи опечаток и низкочастотного мусора

Ютуб youtube

=

x

Ютуб видео на ютубе youtube смотреть ролики youtube ютуб видео онлайн …

Главная видео ролики смотреть приколы онлайн клипы …

19 Путь внутрь сайта

Путь внутрь сайта

Путь – фрагмент запроса, смещающий навигационную цель внутрь сайта Получаем его, вычитая ядро сайта из внутрисайтовых запросов

Карты пробки maps

=

x

Карты яндекс yandex maps яндекс пробки …

maps.yandex.ru

Все запросы, ведущие на

yandex.ru

20 Региональные страницы

Региональные страницы

Если путь – географический объект, то считаем, что запрос геозависим При отсутствии геопути в запросе используем геоданные, полученные на основе IP пользователя

+

Ижевск

=

+

Воркута

=

+

Омск

=

gismeteo.ru

gismeteo.ru/city/daily/4508/

gismeteo.ru/city/daily/12972/

gismeteo.ru/city/daily/4578/

21 Для борьбы с фрагментарностью

Для борьбы с фрагментарностью

Используем алгоритмы выделения навигационной обвязки

Тексты внутренних ссылок используем как путь запроса

22 Выбираем оптимальную цель

Выбираем оптимальную цель

Итого: находим все фрагменты, взвешиваем все цели и выбираем победителя В случае неразрешимых противоречий – запрос не навигационен или …

tutu.ru

zaycev.fm

zaitsev.info

zaycev.net

23 Q

Q

http://lib.rus.ec/search?ask= Q

… или Динамическая навигация

Либрусек

+

=

=

Если фрагменты запроса противоречивы или незнакомы: либо ищем по упомянутому сайту либо возвращаем ссылку на его собственный поиск либо отдаём всё ранжированию как есть

24 Зачем всё это

Зачем всё это

Дополнительный фактор для ранжирования Визуализация Расширенный сниппет Сайтлинки Показ нескольких результатов с сайта Статистика и мониторинг Метод «факторизации» списков применим и для других классов запросов например, картиночных и музыкальных

25 Немного статистики

Немного статистики

Навигационные

Весь поток запросов

ok+vk 24%

Прочие 38%

Навигация 24%

Гео 9%

Внутрисайт 29%

Все остальные 69%

Динамические 7%

26 Спасибо

Спасибо

Вопросы?

Михаил Долинин dolinin@corp.mail.ru

«Навигационные запросы»
http://900igr.net/prezentacija/informatika/navigatsionnye-zaprosy-216847.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Связь > Навигационные запросы