№ | Слайд | Текст |
1 |
 |
Навигационные запросыОт простого к сложному и обратно Михаил Долинин |
2 |
 |
Что такое навигационный запросНавигационный запрос – запрос, целью которого является точно определенный сайт или часть сайта. форум велосипедистов – не навигация велофорум ру – навигация Целью поиска следует считать сам объект в Интернете, а не его содержимое собственный контент страницы малозначим |
3 |
 |
Почему навигация - это простоПросто классифицировать запрос навигационные запросы короткие и потому менее разнообразные имеют чёткие маркеры (сайт, блог, форум) Просто оценить результат либо да, либо нет не бывает «слаборелевантных» результатов Предсказуемое поведение пользователя если искомое найдено |
4 |
 |
Почему навигация - это важноПримерно 20-30% потока запросов – навигация Почти весь топ запросов – навигация исключения: «порно», «игры», «окна» Крайне важна для пользователей Многие используют поиск как адресную строку Поиск как «вход в интернет» Правильный результат единственен и незаменим |
5 |
 |
Ручной список, топ-120Благодаря перекосу распределения навигов в сторону топа вконтакте + одноклассники ~ 20-25% всей навигации полнота такого списка ~60%. нормально для каталога, но мало для поиска Вконтакте одноклассники яндекс google ютуб майл авито фейсбук зайцев нет гисметео рамблер авто ру натрибу omg wtf … vk.com odnoklassniki.ru yandex.ru google.com youtube.com mail.ru avito.ru facebook.com zaycev.net gismeteo.ru rambler.ru auto.ru natribu.org Gtfo … |
6 |
 |
Как мы считаем полноту и точностьCлучайная выборка из лога Размечаем вручную vs прогоняем через классификатор Qmanual – количество ручных навигов // relevant entries Qauto – количество автонавигов // retrieved entries Qgotcha! – из них совпавших с ручными // relevant retrieved entries |
7 |
 |
Цель – полнота без потери точностиТочность топ-120 – 100% Как продолжать список автоматически? опасность в «почти релевантных» результатах - как правило, дорвей или сателлит Как отличить «вконтакте» от «порно»? анализируя поведение пользователей |
8 |
 |
Анализ пользовательского поведенияНавигационные запросы характерны малым разбросом кликов т.е. все пользователи склонны кликать в один и тот же результат однако этим же свойством обладают высокорелевантные ненавигационные результаты но они, как правило, ведут внутрь сайта самый типичный пример: почти что-угодно википедия |
9 |
 |
log ?CМетрика на основе поведения log Ci N = Группируем все клики по каждому запросу Считаем клики для каждого результата – Ci Навигационность пары запрос – результат: При N > Nmin считаем запрос навигационным Nmin=0.9, или даже 0.99 |
10 |
 |
Свойства метрикиPros: для запроса либо нет навигационного урла, либо он единственен одно и то же значение порога nmin для редких и для частотных запросов cons: необходима запросная статистика результат должен быть найден и показан не работает с геозависимой навигацией высокорелевантные ненавигационные результаты проходят порог |
11 |
 |
А если поведенческих данных нет,то используем то, что есть: Индекс Текст документа Ссылки и заголовки URL документов Cтруктура, сравнение с запросом Запрос Регион пользователя Маркеры Организации (ооо, зао, министерство, университет…) Веб (сайт, блог, форум, твиттер) Антимаркеры купить, скачать, смотреть |
12 |
 |
+ MLСтроим и балансируем обучающие выборки Обучаемся наивный Байес для анализа запроса деревья решений для всего остального Получаем значительный рост полноты и новый ворох проблем |
13 |
 |
Пример полученных данных (hhru) Hh; hh москва; hh ru работа в москве; хедхантер; hh ru работа; hh ru вакансии в москве; headhunter; headhunter работа; хх; хантер; хэдхантер; hh ru в москве; hh работа; хх ру; www hh; хенд хантер; hh ru казань; хедхантер работа; www hh ru вакансии москва; hh ru москва; хэд хантер ru; hh ru вакансии в спб; hh kz; hh ru вакансии; хэд хантер; хэд хантер поиск работы; headhanter; работа hh; хэнд хантер; h h ru; h h; хантер поиск работы; hanter поиск работы; had hunter; хедхантер; поиск работы; хед хантер; хит хантер; хедхантер москва; handhanter; хетхантер; www hh ru в москве; hedhanter; head hunter; хэдхантер ру; поиск hh; хет хантер ру; h h ru работа; хеадхантер; хедхантер ру; хэд; head hanter; хед; www hh ru поиск вакансий; работа hh москва; хх ru; хеад хантер; хендхандер; работа на hh ru; работа хедхантер; hathanter; хенд хантер москва; hh ru нижний новгород; работа в москве hh ru; работа hh ru; нед хантер; ww hh ru; www headhunter; hh ру; hh ру москва; hh headhunter; noreply hh ru; hh hunter; theadhunter; tl fynth; хедхантер ru; www hh ru в москве резюме должность глюэнергетик; hh ru работа в москве водитель; работа на hh; сайт хедхантер; ненд хантер; работа в москве hh; www hh ru москва; хид хантер; рр кг; хитхантер; info site hh ru; hh ru вакансии москва; хэдхантер москва; www hh ru вакансии в москве; вакансии hh; no reply hh ru; хэндхантер; hunter поиск работы; мое резюме на hh ru; рр ру; хх ру вакансии; поиск headhunter; хх ру работа; поиск работы в москве hh; http hh ru applicant resumes; hed hanter; wwww hh ru; сайт hh; heand hunter; hh ru работа москва; hh ru москва вакансии; hed hunter; hant hunter; хэдх; headhunter noreply hh ru … Всё ок, но отсутствует РАБОТА ХЕДХАНТЕР «Омоним» Опечатка Мусор |
14 |
 |
Новые проблемы при росте базыОмонимичность несколько сайтов для одного запроса Фрагментарность не ловим малопопулярные разделы сайтов неуверенная региональность Мусор опечатки запросы на грани навигации случайные аккаунты соцсетей, блоги/твиттеры динамические страницы сайтов (поиски, темы на форумах) |
15 |
 |
Решение проблем: запрос «изнутри»Авито купить собаку в самаре Шум Корень сайта Регион Характерное слово Внутрисайтовый путь http://www.avito.ru/samara/sobaki |
16 |
 |
Авито купить собаку в самареНаблюдения: Запросы имеют повторяющиеся общие фрагменты Смысл запроса не зависит от порядка слов в нём Некоторые слова («купить») не меняют смысла запроса Некоторые слова («собаку») ведут внутрь указанного сайта в Самаре этот запрос должен давать тот же результат без слов «в самаре» |
17 |
 |
Конкатенация и факторизация списковКонкатенация списков строк – список конкатенаций всевозможных наборов строк этих списков Факторизация списка – его разложение, обратная процедура: Сортируем строки по длине Ищем каждую строку во всех последующих «Вырезаем» её из них A B x = A B c A A e A B f B c d e f A B c A d B B B A c … B e f A c d B e f A c f e c A B A c A c B d A e B f |
18 |
 |
Ядро запросаЯдро – минимальный фрагмент запроса, определяющий навигационную цель «Хвосты» отбрасываем там залежи опечаток и низкочастотного мусора Ютуб youtube = x Ютуб видео на ютубе youtube смотреть ролики youtube ютуб видео онлайн … Главная видео ролики смотреть приколы онлайн клипы … |
19 |
 |
Путь внутрь сайтаПуть – фрагмент запроса, смещающий навигационную цель внутрь сайта Получаем его, вычитая ядро сайта из внутрисайтовых запросов Карты пробки maps = x Карты яндекс yandex maps яндекс пробки … maps.yandex.ru Все запросы, ведущие на yandex.ru |
20 |
 |
Региональные страницыЕсли путь – географический объект, то считаем, что запрос геозависим При отсутствии геопути в запросе используем геоданные, полученные на основе IP пользователя + Ижевск = + Воркута = + Омск = gismeteo.ru gismeteo.ru/city/daily/4508/ gismeteo.ru/city/daily/12972/ gismeteo.ru/city/daily/4578/ |
21 |
 |
Для борьбы с фрагментарностьюИспользуем алгоритмы выделения навигационной обвязки Тексты внутренних ссылок используем как путь запроса |
22 |
 |
Выбираем оптимальную цельИтого: находим все фрагменты, взвешиваем все цели и выбираем победителя В случае неразрешимых противоречий – запрос не навигационен или … tutu.ru zaycev.fm zaitsev.info zaycev.net |
23 |
 |
Qhttp://lib.rus.ec/search?ask= Q … или Динамическая навигация Либрусек + = = Если фрагменты запроса противоречивы или незнакомы: либо ищем по упомянутому сайту либо возвращаем ссылку на его собственный поиск либо отдаём всё ранжированию как есть |
24 |
 |
Зачем всё этоДополнительный фактор для ранжирования Визуализация Расширенный сниппет Сайтлинки Показ нескольких результатов с сайта Статистика и мониторинг Метод «факторизации» списков применим и для других классов запросов например, картиночных и музыкальных |
25 |
 |
Немного статистикиНавигационные Весь поток запросов ok+vk 24% Прочие 38% Навигация 24% Гео 9% Внутрисайт 29% Все остальные 69% Динамические 7% |
26 |
 |
СпасибоВопросы? Михаил Долинин dolinin@corp.mail.ru |
«Навигационные запросы» |