Электронная почта
<<  Распределенные системы обнаружения спама Весна музыкальные электронные клипы  >>
Выявление спам сайтов на основе анализа контента страниц
Выявление спам сайтов на основе анализа контента страниц
Что мы хотим получить
Что мы хотим получить
Зачем
Зачем
Методы воздействия на поисковый механизм:
Методы воздействия на поисковый механизм:
Классификация воздействий на поисковый механизм
Классификация воздействий на поисковый механизм
В 2006 году в рамках материалов конференции IW3C2 была опубликована
В 2006 году в рамках материалов конференции IW3C2 была опубликована
Для генерации текстов можно использовать:
Для генерации текстов можно использовать:
Например:
Например:
Нам интересны более простые методы выявления искусственности страниц
Нам интересны более простые методы выявления искусственности страниц
Рассмотрим проблему обнаружения спам страниц как задачу бинарной
Рассмотрим проблему обнаружения спам страниц как задачу бинарной
Качество классификации напрямую зависит от качества признаков
Качество классификации напрямую зависит от качества признаков
Распределение количества слов на странице в спамовых и неспамовых
Распределение количества слов на странице в спамовых и неспамовых
Распределение количества слов в заголовке страниц в спамовых и
Распределение количества слов в заголовке страниц в спамовых и
Распределение средней длины слова в спамовых и неспамовых множествах
Распределение средней длины слова в спамовых и неспамовых множествах
Количество слов в анкорах ссылок для спамовых и неспамовых множеств
Количество слов в анкорах ссылок для спамовых и неспамовых множеств
Степень сжатия документов в спамовых и неспамовых множествах
Степень сжатия документов в спамовых и неспамовых множествах
Сравнивая приведенные данные с ранними исследованиями, приходим к
Сравнивая приведенные данные с ранними исследованиями, приходим к
Распределение усредненного веса ключевых слов для спам- и обычных
Распределение усредненного веса ключевых слов для спам- и обычных
Распределение отношения веса значимых ключевых слов к общему
Распределение отношения веса значимых ключевых слов к общему
Распределение вероятности n-грамм грамматических категорий
Распределение вероятности n-грамм грамматических категорий
Мы привели несколько характеристических языковых признаков и увидели,
Мы привели несколько характеристических языковых признаков и увидели,
Точность - 0,97 Полнота - 0,94 F-мера - 0,96
Точность - 0,97 Полнота - 0,94 F-мера - 0,96
Результат показывает, что использование признаков, связанных со
Результат показывает, что использование признаков, связанных со
Что делать дальше
Что делать дальше
Спам или нет
Спам или нет
?
?
Причины:
Причины:
Характеристики сайта:
Характеристики сайта:
Доля спам страниц
Доля спам страниц
Распределение спама по сайту
Распределение спама по сайту
Участие в спам ферме
Участие в спам ферме
Вероятность участия в спам-ферме
Вероятность участия в спам-ферме
На отобранных признаках строим классификатор
На отобранных признаках строим классификатор
Результаты:
Результаты:
Спасибо
Спасибо

Презентация: «Выявление спам сайтов на основе анализа контента страниц». Автор: Dmitry Soloviev. Файл: «Выявление спам сайтов на основе анализа контента страниц.ppt». Размер zip-архива: 2659 КБ.

Выявление спам сайтов на основе анализа контента страниц

содержание презентации «Выявление спам сайтов на основе анализа контента страниц.ppt»
СлайдТекст
1 Выявление спам сайтов на основе анализа контента страниц

Выявление спам сайтов на основе анализа контента страниц

Дмитрий Соловьев Евгений Чернов

2 Что мы хотим получить

Что мы хотим получить

Уменьшение количества поискового спама в выдаче поиска mail.ru

www.mail.ru

2

2

3 Зачем

Зачем

Так как спам: генерирует огромное количество мусорного контента; затрудняет эффективную работу поисковых серверов; ухудшает ранжирование хороших интернет-ресурсов и релевантность результатов; как следствие, приводит к уходу пользователей.

www.mail.ru

3

3

4 Методы воздействия на поисковый механизм:

Методы воздействия на поисковый механизм:

Перенасыщение заголовков ключевыми словами. Перенасыщение текстов ключевыми словами. Оптимизация текстов под одно ключевое слово. Оптимизация текстов под большое количество ключевых слов. Оптимизация анкоров ссылок под ключевые слова. Активный обмен ссылками. Фермы ссылок. ...

www.mail.ru

4

4

5 Классификация воздействий на поисковый механизм

Классификация воздействий на поисковый механизм

Воздействие при помощи оптимизации контента страницы. Воздействие при помощи оптимизации ссылок. Воздействие на поведенческие факторы. …

Вопрос: Разработка в каком направлении даст лучшие результаты?

www.mail.ru

5

5

6 В 2006 году в рамках материалов конференции IW3C2 была опубликована

В 2006 году в рамках материалов конференции IW3C2 была опубликована

статья: «Выявление спам-страниц через анализ контента» («Detecting Spam Web Pages through Content Analysis”. A. Ntoulas и коллектив авторов). В статье показано, что 86% спама можно вычислить на основе анализа контента страниц.

Разработка в направлении детекции контекстного спама даст лучший профит.

www.mail.ru

6

6

7 Для генерации текстов можно использовать:

Для генерации текстов можно использовать:

Марковские цепи, обученные на больших объёмах текстов. Заимствование существующих текстов и случайные вставки ключевых слов внутрь существующих текстов. Замена слов в существующих текстах на синонимы.

www.mail.ru

7

7

8 Например:

Например:

Если для генерации текста использовать Марковскую модель N-го порядка, то, что бы выявить искусственность этого текста, потребуется строить модели порядка N+1.

www.mail.ru

«Самым интересным для меня узнать, как называются воды, омывающие остров Рюген»

8

Модель 2-го порядка

Модель 3 -го порядка

Интересным ? для ? [меня] P=0.0020

Интересным ? для ? меня ? [было] P=0.0009

Для ? меня ? [узнать] P=0.0019

Для ? меня ? было ? [узнать] P=0.0008

Меня ?узнать ? [,] P=0.0018

Меня ?было ? узнать ? [,] P=0.0007

Узнать ? , ? [как] P=0.0018

Было ? узнать ? , ? [как] P=0.0007

Для ? меня ? [было] P=0.0001

Важно ? для ? меня ? [узнать] P=0.0004

Меня ? было ? не ? [узнать] P=0.0004

Меня ? было ? [узнать] P=0.0001

8

9 Нам интересны более простые методы выявления искусственности страниц

Нам интересны более простые методы выявления искусственности страниц

Достаточно просто поддерживать в актуальном состоянии.

Использовать для классификации спама с высокой точностью.

www.mail.ru

9

9

10 Рассмотрим проблему обнаружения спам страниц как задачу бинарной

Рассмотрим проблему обнаружения спам страниц как задачу бинарной

классификации.

1 — спам 0 — не спам

Требуется: 1. Определить пространство признаков. 2. Определиться с методом классификации.

www.mail.ru

10

10

11 Качество классификации напрямую зависит от качества признаков

Качество классификации напрямую зависит от качества признаков

описывающих пространство.

Линейно неразделимые признаки.

Линейно разделимые признаки

Выделение небольшого количества хорошо разделимых признаков позволит нам решить задачу классификации с большей эффективностью.

www.mail.ru

11

11

12 Распределение количества слов на странице в спамовых и неспамовых

Распределение количества слов на странице в спамовых и неспамовых

множествах

www.mail.ru

12

12

13 Распределение количества слов в заголовке страниц в спамовых и

Распределение количества слов в заголовке страниц в спамовых и

неспамовых множествах.

www.mail.ru

13

13

14 Распределение средней длины слова в спамовых и неспамовых множествах

Распределение средней длины слова в спамовых и неспамовых множествах

www.mail.ru

14

15 Количество слов в анкорах ссылок для спамовых и неспамовых множеств

Количество слов в анкорах ссылок для спамовых и неспамовых множеств

www.mail.ru

15

16 Степень сжатия документов в спамовых и неспамовых множествах

Степень сжатия документов в спамовых и неспамовых множествах

www.mail.ru

16

17 Сравнивая приведенные данные с ранними исследованиями, приходим к

Сравнивая приведенные данные с ранними исследованиями, приходим к

выводу, что спам подвергается мутациям, в сторону обычных страниц. Хотя, в распределениях все еще присутствует явная «искусственность».

www.mail.ru

17

18 Распределение усредненного веса ключевых слов для спам- и обычных

Распределение усредненного веса ключевых слов для спам- и обычных

страниц

www.mail.ru

18

Усредненное значение веса ключевых слов документа:

Вес ключевого слова количество ключевых слов

19 Распределение отношения веса значимых ключевых слов к общему

Распределение отношения веса значимых ключевых слов к общему

количеству слов в спамовых и неспамовых множествах

www.mail.ru

19

Усредненное значение веса значимых ключевых слов документа:

Вес ключевого слова количество ключевых слов количество значимых слов

20 Распределение вероятности n-грамм грамматических категорий

Распределение вероятности n-грамм грамматических категорий

www.mail.ru

20

Вероятность правдоподобия документа:

Вероятность встречаемости n-граммы количество n-грамм

21 Мы привели несколько характеристических языковых признаков и увидели,

Мы привели несколько характеристических языковых признаков и увидели,

что они дают лучшее разделение, чем признаки, полученные на основе параметров страницы. В эксперименте мы рассчитали 10 дополнительных признаков, основанных на статистике распределения слов в текстах. Теперь, имея хороший набор факторов, перейдем к решению поставленной задачи, а именно – попробуем создать классификатор на основе описанных признаков.

www.mail.ru

21

22 Точность - 0,97 Полнота - 0,94 F-мера - 0,96

Точность - 0,97 Полнота - 0,94 F-мера - 0,96

Классификатор — многослойный персептрон: Входной слой — 80 нейронов , Скрытый слой — 96 нейронов Выходной слой — 2 нейрона спам=1 и не-спам=0 Функция активации — сигмоид

www.mail.ru

Для тренировки нашего классификатора мы использовали страницы, отобранные асессорами. ______________________________ Обучающий вектор - 80 признаков. Размер обучающего множества — 20000 страниц. Размер тестового множества — 50000 страниц. ______________________________

22

23 Результат показывает, что использование признаков, связанных со

Результат показывает, что использование признаков, связанных со

статистикой распределения слов и грамматических конструкций в текстах, привело к значительному улучшению качества классификации спам-страниц, даже несмотря на использование слабого алгоритма классификации.

www.mail.ru

24 Что делать дальше

Что делать дальше

Можно ли использовать информацию, полученную из контентента страниц, для классификации сайтов?

www.mail.ru

24

25 Спам или нет

Спам или нет

Спам сайт

Не спам сайт

www.mail.ru

100% = спам

0% = не спам

25

26 ?

?

?

?

Спам или нет?

Спам сайт

Не спам сайт

www.mail.ru

26

27 Причины:

Причины:

Хороший сайт со спам страницами: Ошибка классификатора. Взломанный сайт. Переоптимизированный контент. Спам сайт с полезными страницами: Ошибка классификатора. Разбавление спама не спам страницами.

www.mail.ru

27

28 Характеристики сайта:

Характеристики сайта:

Доля спам страниц. Расположение спам страниц. Вероятность прихода/ухода на спам страницу с сайта. На какие страницы ведут входящие/исходящие ссылки. Вероятность участия в спам-ферме.

www.mail.ru

www.mail.ru

28

29 Доля спам страниц

Доля спам страниц

www.mail.ru

www.mail.ru

Доля сайтов

Доля спам страниц

29

30 Распределение спама по сайту

Распределение спама по сайту

www.mail.ru

www.mail.ru

Доля сайтов

Энтропия спам страниц

30

31 Участие в спам ферме

Участие в спам ферме

Вычисляем вероятность того, что сайт раскручивается спам-сайтами. Вычисляем вероятность участия в спам-ферме.

www.mail.ru

20%

60%

0%

50%

45%

P=0,3

Дорвеи

Целевой сайт

31

100%

32 Вероятность участия в спам-ферме

Вероятность участия в спам-ферме

www.mail.ru

32

33 На отобранных признаках строим классификатор

На отобранных признаках строим классификатор

Всего получили 20 признаков

Используем алгоритм Еxpectation Maximization для выделения из множества сайтов двух центров, соответствующих классам: спам и не спам.

Используем полученные центры как исходные данные для классификации при помощи алгоритма k-nearest neighbor.

34 Результаты:

Результаты:

Уменьшение количества спама в выдаче в среднем на 20%.

Точность анализатора - 90%.

Доля спам сайтов - 17%.

35 Спасибо

Спасибо

Вопросы.

Дмитрий Соловьев d.soloviev@corp.mail.ru Евгений Чернов e.chernov@corp.mail.ru

www.mail.ru

«Выявление спам сайтов на основе анализа контента страниц»
http://900igr.net/prezentacija/informatika/vyjavlenie-spam-sajtov-na-osnove-analiza-kontenta-stranits-192521.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Электронная почта > Выявление спам сайтов на основе анализа контента страниц