Поисковые системы
<<  Использование особенностей языка запросов поиска Яндекса для исследований Картинки на мусор в виде  >>
Переформулировки поисковых запросов в Яндексе
Переформулировки поисковых запросов в Яндексе
Я: Переформулировки-2004
Я: Переформулировки-2004
Примеры-2004
Примеры-2004
Переформулировки -2008
Переформулировки -2008
Опечаточник в XML
Опечаточник в XML
Выкачка
Выкачка
Пример переформулировки: продвижение сайтов => становится:
Пример переформулировки: продвижение сайтов => становится:
Транслитерация слов
Транслитерация слов
Ограничения расстояний
Ограничения расстояний
Работа с фрагментами слов
Работа с фрагментами слов
Работа с фрагментами слов
Работа с фрагментами слов
Основное: расширения слов
Основное: расширения слов
Курьезы переформулировок
Курьезы переформулировок
Витрина – это ведь окно
Витрина – это ведь окно
!!! Экстракция сущностей в большом поиске
!!! Экстракция сущностей в большом поиске
вfi – все имена на букву В
вfi – все имена на букву В
поиск по зоне ФИО
поиск по зоне ФИО
А выделение сущностей в большом поиске - это мощные изменения…
А выделение сущностей в большом поиске - это мощные изменения…
Оператор [^]
Оператор [^]
А для [%]
А для [%]
Контрастности (веса) слов
Контрастности (веса) слов
::Веса -не документные
::Веса -не документные
::Веса по разным коллекциям
::Веса по разным коллекциям
Итого польза:
Итого польза:
ВСЁ
ВСЁ

Презентация на тему: «Переформулировки поисковых запросов в Яндексе». Автор: . Файл: «Переформулировки поисковых запросов в Яндексе.pptx». Размер zip-архива: 377 КБ.

Переформулировки поисковых запросов в Яндексе

содержание презентации «Переформулировки поисковых запросов в Яндексе.pptx»
СлайдТекст
1 Переформулировки поисковых запросов в Яндексе

Переформулировки поисковых запросов в Яндексе

Трофименко Евгений сЭо-эксперт info@promosite.ru http://tools.promosite.ru/

2 Я: Переформулировки-2004

Я: Переформулировки-2004

Были обнаружены осенью 2004 года. «Переколдовки» в URL сохраненной копии &reqtext=(реальный::111 & запрос::222)//6 Использовались для: Расширения запроса другими словами Усиления влияния отдельных слов Ограничения расстояний между словами Установка контрастности слов

3 Примеры-2004

Примеры-2004

Расширение запроса другими словами что такое ААА => ААА !%это::359 &/(-2 4) %означает::16316 &/(-2 4) %аббревиатура::334021 &/(-2 4) %расшифровывается::183623 Усиление влияния отдельных слов лоренциан => (лоренциан::2063133498 &/(0 0) !!%лоренциан::2063133498) Ограничение расстояний между словами новый год => (новый::532 &/(-1 3) год::502) Установка контрастности слов – двоеточечный вес. В общем, все как и сейчас. Прожил reqtext до весны 2007.

4 Переформулировки -2008

Переформулировки -2008

Лето 2008 – введены переформулировки запросов: Теперь поиск Яндекса (версия "Магадан") еще учитывает следующие отношения: а) некоторые типы переходов из одной части речи в другую ("гамбург" -> "гамбургский"); б) транслитерация ("mazda" -> "мазда"); в) аббревиатуры (МГУ -> Московский государственный университет). А также существенно ослаблены ограничения расстояний (поиск соседних слов в пределах документа) Ограничения расстояний можно было подобрать перебором (+слова +запроса) ~~ (+слова [ОПЕРАТОР] +запроса) Однако сейчас это «вылечено». Но зато появились подсказки в XML по опечаткам и варианты исправления исходного запроса.

5 Опечаточник в XML

Опечаточник в XML

Есть несколько типов опечаток: Volapyuk, Undash и др. При комбинации нескольких вариантов опечаток «случайно» выдавался переформулированный запрос: (fizi-olog) (поисковая оптимизация) => <reask> <rule>Undash</rule> <source-text/> <text-to-show/> <text>(fizi::61543020-olog::1234567) ((поисковая::17483 ^ поисковик::65545) &&/(-32768 32768) (оптимизация::32653 ^ оптимизировать::95157 ^ оптимизироваться::4208069)) </text> </reask>

6 Выкачка

Выкачка

Генерим экспериментальный массив со всеми словами русского языка (было 5М) Ищем другие воляпюки (20К) => выкачиваем переформулировки по 1.3М запросов … нашли и закрыли. ?

7 Пример переформулировки: продвижение сайтов => становится:

Пример переформулировки: продвижение сайтов => становится:

(продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/(-32768 32768) сайтов::410

Новые части речи, транслит, аббревиатуры Большие расстояния «двоеточечные» веса Оператор ^ (терм не обязан присутствовать, но если есть, это плюс) Точные фразы и ограничения расстояний Почему-то возвратные глаголы тоже отдельно

8 Транслитерация слов

Транслитерация слов

Ютуб ютуб::956008 ^ utube::6608646 ^ yutub::27352453 ^ ((ю::7853-туб::342977)) hyundai hyundai::93536 ^ !!Хюндай::70910356 ^ !!Хендай::709103565

9 Ограничения расстояний

Ограничения расстояний

10% запросов!

Рабочий стол обои рабочий::4494 &/(-1 1) стол::6379 &&/(-32768 32768) обои::7086 6300 nokia 6300::270856 &/(-3 3) nokia::12493 нормативные документы дополнительного образования нормативные::20026 &/(-1 1) документы::3472 &&/(-7 7) дополнительного::4085 &&/(-7 7) образования::3396

10 Работа с фрагментами слов

Работа с фрагментами слов

Разбиение и склейка

Кинопоиск кинопоиск::192359 ^ kinopoisk::830960 ^ ((кино::4292-поиск::775)) билайн билайн::46541 ^ beeline::224866 ^ ((би::45262-лайн::28714)) dsl 200 (dsl::91438 &/(-1 1) 200::4936) | dsl200::709103565

11 Работа с фрагментами слов

Работа с фрагментами слов

Сколько бывает вариантов…

W200i w200i::4958766 ^ (!(w::1737 &/(1 1) 200::5303 &/(1 1) i::199)) ^ ((w200::633693 &/(1 1) !I::199)) ^ ((!W::1737 &/(1 1) 200i::23636785)) …все варианты разбиений буква-цифра

12 Основное: расширения слов

Основное: расширения слов

Русская страховая компания ((русская::1225 ^ русско::49342) &/(-1 3) ((страховая::19855 ^ страховка::74092 ^ страховщик::125678 ^ страхование::12393) &&/(-32768 32768) компания::923) ^ ск::55022) ^ !Рск::1487444

13 Курьезы переформулировок

Курьезы переформулировок

Вряд ли только машины работают:

Партия единая россия (партия::10385 &&/(-32768 32768) ((единая::10481 &/(-1 3) россия::827) ^ ер::234393) ^ !!Едро::2480323) ^ !!Педирос::492344160

14 Витрина – это ведь окно

Витрина – это ведь окно

Да… взгляд с той стороны витрины ?

15 !!! Экстракция сущностей в большом поиске

!!! Экстракция сущностей в большом поиске

!!

ФИО – новые зоны и термы

Для запросов, содержащих имена в виде 2+ слов вася пупкин Переформулируется с фрагментом *** ( fioname[((васяfi::332552 &&/(-32768 32768) !!пупкин::901729))] | fiinname[((вfi::1574 &&/(-32768 32768) !!пупкин::901729))] | fiinoinname[((вfi::1574 &&/(-32768 32768) !!пупкин::901729))] | finame[((васяfi::332552 &&/(-32768 32768) !!пупкин::901729))] ) Новые операторы (новые зоны?) соответствующие поиску по имени Новые термы (вfi) – поиск всех имен на букву «В» и сокращений

16 вfi – все имена на букву В

вfi – все имена на букву В

Экстракция объектов из текста…

17 поиск по зоне ФИО

поиск по зоне ФИО

Не очень нужные операторы

fioname[ ] fiinname[ ] fiinoinname[ ] finame[ ]

18 А выделение сущностей в большом поиске - это мощные изменения…

А выделение сущностей в большом поиске - это мощные изменения…

И ведь без микроформатов и разметки…

19 Оператор [^]

Оператор [^]

Похож на % Доп.слово не обязательное

Для запроса вида слово1 ^ слово2 Слово1 обязательно находится, ему приоритет Слово2 не обязано находиться. окна ^ мебель – окна первые мебель ^ окна – мебель первая domain:root ^ мебель ^ окна –окна выше!

20 А для [%]

А для [%]

Не совсем похоже:

Для запроса вида слово1 % слово2 Слово1 обязательно находится Слово1 и Слово2, похоже, равноправны в смысле ранжирования окна %мебель – (окна+мебель) первые мебель %окна – (окна+мебель) первые domain:root %мебель %окна - (окна+мебель) И выдачи похожие.

21 Контрастности (веса) слов

Контрастности (веса) слов

::вес – это НЕ IDF (классический)

IDF (inverse document frequency — обратная частота документа) А как выглядят набор ::весов –дискретный набор, являются целочисленными дробями от максимального веса. По куску коллекции --- Догадываемся - ::вес=D/Di Это отношение числа документов. Чтобы получить IDF, берем логарифм: => IDF=log(::вес)

::Вес

Слов

Отличие, раз

984688320

2080

1

492344160

302

2

328229440

206

3

246172080

197

4

196937664

148

5

22 ::Веса -не документные

::Веса -не документные

А от словоформ? Не IDF, а ICF?

23 ::Веса по разным коллекциям

::Веса по разным коллекциям

Веса разные по RU, EN, UK коллекциям

Слово fizi присутствовало во всех запросах. Оно имело разные веса в разных запросах! Есть три коллекции документов, по каждой считается свой вес. Русская (запрос с русскими словами) Англоязычная (запрос весь из цифр и английских букв) Украинская (пример: музика скачати безкоштовно) Одно и то же слово может обладать разной контрастностью для разных баз. Разное число документов, разная популярность слов.

24 Итого польза:

Итого польза:

Раньше мы знали про переформулировки, но теперь очевидно, что переформулировка производится на уровне исходного запроса Поэтому «дополнительные» слова обязаны давать вклад в релевантность, это не просто подсветка. Новые операторы (^, fio* и другие) Использование доп. слов при оптимизации и в ссылках Знания об ограничении расстояний в переколдовке – необходимы! Веса слов тоже полезны это частично внедрено в сервис http://tools.promosite.ru/

25 ВСЁ

ВСЁ

Переформулировки поисковых запросов в Яндексе

Трофименко Евгений сЭо-эксперт info@promosite.ru http://tools.promosite.ru/

«Переформулировки поисковых запросов в Яндексе»
http://900igr.net/prezentacija/informatika/pereformulirovki-poiskovykh-zaprosov-v-jandekse-120726.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Поисковые системы > Переформулировки поисковых запросов в Яндексе