Без темы
<<  Фармацевтический вестник Формы правления  >>
Фильтрация порнографии в поисковой выдаче
Фильтрация порнографии в поисковой выдаче
А в чем проблема
А в чем проблема
А в чем проблема
А в чем проблема
И вдруг
И вдруг
Фильтрация порнографии в поисковой выдаче
Фильтрация порнографии в поисковой выдаче
Что делать
Что делать
Что делать
Что делать
Текстовая классификация
Текстовая классификация
Текстовая классификация
Текстовая классификация
Текстовая классификация
Текстовая классификация
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Трудные случаи
Что пробовали
Что пробовали
Результаты
Результаты
Картинки из презентации «Фильтрация порнографии в поисковой выдаче» к уроку экономики на тему «Без темы»

Автор: . Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока экономики, скачайте бесплатно презентацию «Фильтрация порнографии в поисковой выдаче.ppt» со всеми картинками в zip-архиве размером 2163 КБ.

Фильтрация порнографии в поисковой выдаче

содержание презентации «Фильтрация порнографии в поисковой выдаче.ppt»
Сл Текст Сл Текст
1Фильтрация порнографии в поисковой 13на сайт за порнографией, наверное, она там
выдаче. есть.
2А в чем проблема? 14Машинное обучение. В качетстве
3И вдруг... алгоритма использовался AdditiveGroves
4 (каскады деревьев решений) Обучали на
5Что делать? Классифиция документов небольшом, но точном наборе документов
Нужно выделить набор характеристик, (около 8 тыс.) При нахождении ошибок
которые отличали бы порносайт от обычного классификации: Выделяем свойство, которое
Порносайты не маскируются, и это хорошо плохо распознается Находим примеры,
Много документов в “серой” зоне добавляем в обучающее множество
Классификация запросов Запросы короткие и Переобучаемся Проверяем маркерным тестом,
зачастую имеют несколько смыслов Некоторые что ничего не «отъехало».
из них содержат опечатки. 15Что получилось? Характеристики
6Источники данных. Неразмеченные документа, по степени значимости bayes
html-страницы в индексе Логи запросов с 2.05685 porn_clicks 0.8613 keywords 0.7252
данными о переходах на страницы title 0.1173 url 0.1018 img_num 0.028
Переформулировки запросов Внешние script_num 0.017 teasers 0.00013 Точность
каталоги: общие (list.mail.ru, — 98.3, полнота — 95.5 и F1 — 96.5.
liveinternet.ru/rating) и специальные 16Классификация запросов. Фильтрация
(orgazmo.ru, nulist.biz). порнографии по обычным запросам
7Текстовая классификация. Первое (мультфильмы, рассказы, видео, фото) По
приближение: наивный Байесовский неявным «взрослым» запросам (азиатки, мама
классификатор Документ рассматривается как и сын, девушка с конем) Показываем всё,
набор независимых слов По обучающему как есть по порно запросам (эротика, порно
множеству составляются словари с весами смотреть онлайн, проститутки в москве) по
Находим слова классифицируемого документа навигационным и точно попадающим в тему
в словарях и смотрим, вес слов какого запросам (саша грей видео, redtube,
класса больше. gexx.com).
8Недостатки подхода. Не учитываем 17Что пробовали. Составлять большие
разметку документа, хотя она может быть списки «плохих» и «хороших» запросов.
важна. Слова в некоторых частях документа Слишком много форм (порно, порнушечка,
(title, url, keywords, a href) более порево, порноонлайн) Все меняется – тяжело
значимы Тяжело составить правильное поддерживать Морфология часто мешает
обучающее множество. Оно должно быть: (вафли ? вафлить) Составлять короткие
Полным (иначе будем часто встречаться с списки регулярных выражений Потеряли из
проблемой «нулевой частоты») саджестов чЕБурашку, аЭРОфлот, оПОРНый
Сбалансированным (должны быть представлены прыжок Смотреть на переформулировки видео
разные темы: рассказы, фото/видео ? порно онлайн, youtube, эровидео, sex
хостинги, сайты знакомств и т. п.) Точным. видео Смотреть на выдачу По запросам
9Примеры ошибок классификатора. Фазиль мулатки, малолетки, бесплатное видео около
Искандер «Рассказы о Чике». Много слов, 80% страниц из выдачи определялись как
неизвестных классификатору Некоторое порнография.
количество слов, употребляемых на 18Необходимые словари. Выдача дает много
порносайтах (top в списке справа) информации о запросе, но Словарь «запрос —
Результат — документ попал в «серую» зону. процент порнодокументов» строится оффлайн
Толстенькими 5.33898 поскуливала 4.89884 и содержит не все возможные запросы.
дырочках 4.69508 зрелые 4.62396 всовывал Составляем небольшой словарь (около 200
4.56707 жесткое 4.45139 отсосав 4.40743 вхождений) регулярных выражений (плохая
раздвигал 4.37484 юбкой 4.3215 лизала полнота, но хорошая точность). Этот же
4.2573 кончала 4.17881 чулках 4.16239 словарь используется при классификации
щекотали 4.13878 всунув 4.1025 пахучую документов. Составляем словарь
4.06708 задвигалась 4.0397 блаженном «эвфемизмов» — обычных слов, в некотором
3.99227 упругую 3.9481 аппетитную 3.92286 контексте придающих запросу порносмысл (
глотала 3.90956 извивалась 3.88 девочки, секретарши, бесплатно, зрелые ).
покачивались 3.85739 оттопырила 3.8235 19Как происходит классификация. Ищем,
бритую 3.81365. соответствует ли запрос выражениям из
10Трудные случаи. Мало текста Текст ручного «черного» списка (если да, запрос
является навигационной обвязкой Текст не порнографичен). Если нет, ищем его в
имеет отношения к картинкам На странице автоматически составленном словаре,
только картинка. проверяя, сколько документов из выдачи
11Трудные случаи. Порнотизеры Часто порнографические. Если меньше некоторого
занимают большую часть страницы Сильно порога, запрос чист. Если больше — удаляем
привлекают внимание В html-коде выглядят из запроса все «эвфемизмы» и проверяем
как часть скрипта, запрос к (также по выдаче) оставшуюся часть
соответствующей тизерной сети: <script запроса. Пример: redtube видео.
src="http://camo4ek.net/effect.php?in 20Результаты. Точность 96%, полнота 85%.
ormer=101" Ошибки Наличие слова порно не всегда
type="text/javascript"> говорит о «взрослом» запросе (Зак и Мири
</script> снимают порно, незаконное распространение
12Результаты текстовой классификации. порнографии) Не всегда по навигационным
Граница. Точность. Полнота. F1-мера. -0.6. запросам в выдаче много порно. На графике
80.96. 99.15. 89.14. -0.7. 83.39. 96.78. — процент порнозапросов в потоке. Красная
89.59. -0.8. 87.54. 93.01. 90.19. -0.9. линия — то, что нашлось по списку. (будни
92.73. 88.15. 90.38. -1.0. 95.50. 78.85. 4.5%, выходные 5.5%) Зеленая — по выдаче
86.38. (0.7%).
13Добавляем данных. Порносайты часто 21Оставшиеся проблемы. Картиночный поиск
имеют URL, содержащий определенные Сейчас пользуется классификатором веба
подстроки (xxx, porno, adult, sex, erotic) Есть страницы, не попадающие под выбранные
Заголовок и ключевые слова будем характеристики порностраниц, но имеющие
обрабатывать по-другому (посчитаем порнокартинки Фильтрация запросов в
встреченное количество слов из саджестах и переформулировках Более
порнословаря) Крупных тизерных сетей, жесткие требования Плохие запросы с
отдающих порно, не так много, будем искать ошибками не ловятся словарями, но
обращения к ним в коде страницы Будем накликиваются пользователями.
считать количества переходов на страницу 22Спасибо! Вопросы? Татьяна Романова
по порнозапросам: раз пользователи ходят t.romanova@corp.mail.ru.
Фильтрация порнографии в поисковой выдаче.ppt
http://900igr.net/kartinka/ekonomika/filtratsija-pornografii-v-poiskovoj-vydache-111774.html
cсылка на страницу

Фильтрация порнографии в поисковой выдаче

другие презентации на тему «Фильтрация порнографии в поисковой выдаче»

«Информационно-поисковые системы» - 1998 - Overture Впервые была реализована модель “платы за клик”. Яндекс Rambler Апорт. Лето 1996. Rambler. 1996 – демонстрация поисковой машины “Апорт”. Апорт. 1994 – WebCrawler (Brian Pinkerton – Wash. Информационно-поисковые системы. Как устроен Яндекс. Яндекс в железе. Октябрь 1999 – “Апорт 2000”, интегрированная с каталогом “Каталог-Апорт”.

«Поисковые системы интернета» - www.aport.ru. Вы хотите научиться пользоваться огромной информационной копилкой, тогда мы ждем вас на нашем курсе. Работа в различных поисковых системах: www.rambler.ru. Получить информацию через Интернет можно гораздо быстрее, чем по бумажной почте, а главное, в Интернет, хранится практически все, что вам может понадобиться.

«Кредиты физическим лицам» - Кредитование физических лиц коммерческим банком. Организация работы по кредитам физическим лицам. США, К = 0,5 при Д в эквиваленте свыше 2 000 долл. 1. Виды кредитов физических лиц. Виды кредитов физических лиц. 2. Организация работы по кредитам физическим лицам. 3. Методики оценки кредитоспособности физических лиц.

«Собеседование» - Что влияет на наш выбор рост надежность перспектива. Как пройти собеседование в крупную компанию??? Механизм работы крупной компании. Ответственность за свое выживание на рынке перед сотрудниками. Цель «Найти работу». Описание объектов управления. Структура крупной компании. Почему люди выбирают крупные компании?

«Моделирование экономических систем» - Оценки потенциала роста Российской экономики. Типы моделей экономики. Модель рационального поведения банка. Система условий оптимальности. Модель экономики России. Принцип рациональных ожиданий. Аналитические расчеты. Система управления производством. Модель реакции банковской системы. Исходные представления.

«Экономика и экономическая наука» - Позже возникает стремление найти место в жизни, получить общественное признание и т.д. Платой за использование труда в производственной деятельности является заработная плата. Субъективный характер потребностей. Человек в своей хозяйственной деятельности научился удовлетворять разнообразные потребности.

Без темы

757 презентаций
Урок

Экономика

125 тем
Картинки
900igr.net > Презентации по экономике > Без темы > Фильтрация порнографии в поисковой выдаче