Психология
<<  Математические методы в психологии Предмет, задачи и методы психологии  >>
Контент-анализ
Контент-анализ
Что можно анализировать
Что можно анализировать
Темы и идеи
Темы и идеи
Слова и грамматические показатели
Слова и грамматические показатели
Контент-анализ
Контент-анализ
Выступления
Выступления
Проблема синонимии
Проблема синонимии
Субъективное и объективное
Субъективное и объективное
Примеры
Примеры
Оценочное высказывание
Оценочное высказывание
Основа контент-анализа
Основа контент-анализа
Задача программы
Задача программы
Обучающие данные
Обучающие данные
Классификатор
Классификатор
Субъективные объекты
Субъективные объекты
Сочинительные словосочетания
Сочинительные словосочетания
Существительные
Существительные
Рейтинг
Рейтинг
Оценка
Оценка
Контент-анализ
Контент-анализ
Новости
Новости
Заголовок
Заголовок
Жалкий неудачник
Жалкий неудачник
Структура словарной статьи
Структура словарной статьи
Показатели
Показатели
Контент-анализ
Контент-анализ

Презентация: «Контент-анализ». Автор: . Файл: «Контент-анализ.ppt». Размер zip-архива: 36 КБ.

Контент-анализ

содержание презентации «Контент-анализ.ppt»
СлайдТекст
1 Контент-анализ

Контент-анализ

Что такое контент-анализ?

Английское слово ‘content’ – содержание Количественный анализа текстов и выявление числовых закономерностей, интерпретация закономерностей.

2 Что можно анализировать

Что можно анализировать

– Лексика языка (слова и их эквиваленты, например выражение железная дорога или термин контент-анализ, т.Е. То, что фиксируется в словарях) – грамматические показатели (например, отрицательные частицы или показатели таких категорий, как, скажем, отглагольные имена).

3 Темы и идеи

Темы и идеи

Что можно анализировать?

Основные темы и идеи Основные тезисы (утверждения)

4 Слова и грамматические показатели

Слова и грамматические показатели

Что проще автоматически считать в тексте? Проще – слова и грамматические показатели. А что делать, если нам нужно посмотреть нечто более общее? Например, понять, какие темы часто повторяются.

5 Контент-анализ
6 Выступления

Выступления

Через все выступления X-а красной нитью проходит тема Y; X постоянно обращался в своей речи к проблеме Y; Он не упускал ни одного случая, чтобы не лягнуть Z-а; Ну, задудел в свою дуду, Эти выражения свидетельствуют о наличии в информационном потоке некоторых настойчиво повторяющихся тем. Именно с помощью этих выражений мы можем автоматически найти в тексте эти настойчиво повторяющиеся тексты.

7 Проблема синонимии

Проблема синонимии

Исследователь, интересующийся тем, какое место в общественном сознании занимает проблема преступности, обязан принимать во внимание упоминания заказных и всяких прочих убийств, бандитского беспредела, «крыши», «братков», авторитетов, власти криминала и проч.

8 Субъективное и объективное

Субъективное и объективное

Субъективность – личное отношение человека к чему-нибудь, суждение на основе эмоций Объективность – отношение к чему-то исходя из свойств и особенностей этого чего-то, собственные чувства человека не берутся в расчёт.

9 Примеры

Примеры

Однажды двоечник, которого учитель не любит, взял да и написал самостоятельно контрольную на 5. Какую оценку поставят ему объективный и субъективный учителя?

10 Оценочное высказывание

Оценочное высказывание

Высказывание, в котором содержится положительная или отрицательная оценка происходящего. Пример: «несомненный успех», «особенно удачно ему удалось…», … Противоположность: констатация факта Приведите пример!

11 Основа контент-анализа

Основа контент-анализа

Переделать

Основа контент-анализа – считаем встречаемость некоторых элементов в массиве текстов, Находим статистические взаимосвзяи

12 Задача программы

Задача программы

автоматически отслеживать эмоции и отношение к содержанию в текстах новостей и форумов вычислять объективные высказывания (vs. оценочные) Т.е. создать классификаторы, отличающие субъективные предложения от объективных.

13 Обучающие данные

Обучающие данные

Как мы делаем программу?

Обучающие данные – словарь слов, свидетельствующих о субъективности предложения, и набор субъективных и объективных предложений; далее создается классификатор, который для каждого предложения определяет вероятность его субъективности; этот классификатор делают самообучающимся, т.Е. Он корректируется по мере накопления знаний;

14 Классификатор

Классификатор

Классификатор помечал предложение как субъективное, если оно содержало 2 и более «сильных» субъективных выражений, иначе – никак не помечал; объективное, если: - в нем не было «сильных» субъективных выражений, - не более чем 1 такое выражение было в предыдущем и последующем предложениях одновременно, - не более 2 таких выражений одновременно присутствовали в текущем, предыдущем и последующем предложениях. РЕЗУЛЬТАТ: размеченная выборка предложений

15 Субъективные объекты

Субъективные объекты

Субъективные объекты: частота его встречаемости в корпусе – не менее 5%; предложения, содержащие этот объект, были субъективными не менее чем в 95% случаях. Объективные объекты: частота его встречаемости в корпусе – не менее 5%; предложения, содержащие этот объект, были субъективными не более чем в 15% случаях.

16 Сочинительные словосочетания

Сочинительные словосочетания

более часто встречаются однородные в эмоциональном отношении сочинительные словосочетания («добрый и справедливый», точность 92%) - это свойство можно использовать для поиска слов с положительными и отрицательными коннотациями. Берутся два исходных размеченных списка: - «+»: {хороший, милый, добрый, прекрасный, …} - «-»: {несчастный, плохой, нечестный, …} Используется статистика совместной встречаемости слов в Интернете (вычисляется по Altavista.com). Вид запроса: «хороший NEAR добрый» или «плохой NEAR доброжелательный» (NEAR - оператор).

17 Существительные

Существительные

Существительные тоже могут иметь оценочную семантику (обожание, забота) и группироваться вокруг осей типа «любовь» многие из выделяемых категорий не связаны напрямую с эмоциями: убыток, ум, разрушение, справедливость

18 Рейтинг

Рейтинг

Находим рейтинг человека

Пользователь выбирает имя и фамилию человека, мнение о котором в конкретный период времени он хочет узнать. Система посылает запрос GoogleNews и выбирает 1000 отрывков из новостных сообщений, касающихся выбранного пользователем лица и появившихся в заданный период времени. Из каждой выбранной статьи программа вырезает отрывок, содержащий слово-запрос (размер окна – 120 символов до и 120 символов после слова-запроса). Отрывки сортируются, дубли удаляются. Отобранные отрывки сопоставляются, каждому слову присваивается оценочный класс. Слова, которые могут одновременно входить и в «+», и в «-», из рассмотрения удаляются.

19 Оценка

Оценка

Находим рейтинг человека

Для слова-запроса рассчитывается оценка (число слов, входящих в «позитивные» классы, делится на число слов из «негативных» классов). 1536/3736=0.41. Оценка негативная.

20 Контент-анализ
21 Новости

Новости

Попробую продемонстрировать идею на конкретном примере, взяв две одинаковых по смыслу, но абсолютно разных по содержанию и набору ключевых слов новости. Объекты, фигурирующие в новости, выделены красным, слова, определяющие тематическое окружение - синим. Ключевые слова с одинаковой частотой сортируются в порядке убывания длины - это связано с тем, что более длинные слова имеют большую различительную силу в тексте.

22 Заголовок

Заголовок

Заголовок: Google определил Джорджа Буша в категорию “жалких неудачников” Текст новости: Пользователи популярного интернет-ресурса Google столкнулись с забавным казусом, ставшим следствием особой системы оформления ссылок поисковой системы. Как сообщается на сайте BBC News, при введении в строке поиска словосочетания “miserable failure” (жалкий неудачник), первой найденной ссылкой значится биография президента США Джорджа Буша, размещенная на официальном сайте Белого дома. Как утверждают эксперты, столь странный результат объясняется тем, что Google при поиске учитывает не только содержание интернет-страниц, но и то, как часто сайт или конкретный персонаж упоминается в сети в связи с конкретными словами или характеристиками. Подобная практика “фальсификации” результатов поиска, впервые примененная в 2001 году, получила название “бомбардировка Google”. Заключается она в том, что пользователи интернета намеренно привязывают некоторые сайты к определенным словосочетаниям. По данным газеты Newsday, к биографии Джорджа Буша “прилинкованы”, как минимум, 32 интернет-страницы с уже упоминавшейся нелестной характеристикой американского президента. Администрация США не первый раз становится объектом таких нападок. Так, перед началом войны в Ираке при введении в строке поиска определения “оружие массового поражения” пользователи находили ссылку, гласившую “Это оружие невозможно обнаружить”.

23 Жалкий неудачник

Жалкий неудачник

Заголовок: “Жалкий неудачник” в виртуальной битве Текст новости: Практика “Google - бомбардировки” получила толчок в тот момент, когда интересующиеся политикой пользователи интернет осознали, что могут влиять на результаты деятельности Google, широко известного поискового сайта, привнеся в нее долю здоровой сатиры. Первой жертвой стал президент Джордж Буш, который обнаружил в прошлом году, что его биография на официальном веб-сайте Белого дома заняла первое место в рейтинге Google. Это произошло после того, как какой-то шутник добавил туда слова “жалкий неудачник”. В настоящее время битва между сторонниками и оппонентами Буша затронула биографию Джимми Картера, домашнюю страничку писателя и кинорежиссера Майкла Мура. Они заняли, соответственно, второе и третье места в списке “жалких неудачников”. Онлайновая драка породила опасения, что попытки интернет - пользователей исказить предоставляемую информацию могут существенно навредить поисковому сайту. “Оружие” этих деятелей напрямую зависит от нового способа Google собирать информацию, “прочесывая” сеть и используя специальные алгоритмы для определения значимости той или иной страницы. Этот метод существенно продвинул вперед технологию поиска информации. Однако это также означает, что если в интернете есть много ссылок на официальный сайт Белого дома с биографией Джорджа Буша на нем и вставкой “жалкий неудачник”, Google укажет, что наиболее значимой является страница “жалкий неудачник” и поставит ее первой в своем рейтинге. Самый большой плюс Google может оказаться его минусом. Программист, подкинувший Бушу эту бомбу, сообщил вчера the New York Times, что он не ожидал, что все окажется настолько просто. “Все дело в том, что у нас есть очень много людей, которым это показалось забавным, и они отсылали ссылку своим многочисленным знакомым”, - сказал Джордж Джонсон.

24 Структура словарной статьи

Структура словарной статьи

<Lexical_entry> (лексическая единица) <part_of_speech_tag> (часть речи) <affect_category> (категория эмоции) <centrality> (центрированность) <intensity> (степень эмоциональности)

25 Показатели

Показатели

Как определить показатели + и -

Дать нескольким людям набор слов и есть ожидаемое число слов в каждой категории Дать нескольким людям набор слов и попросить их сравнивать каждое слово попарно со всеми другими случаями Чем могут быть плохи эти методы?

26 Контент-анализ
«Контент-анализ»
http://900igr.net/prezentacija/psikhologija/kontent-analiz-58867.html
cсылка на страницу

Психология

11 презентаций о психологии
Урок

Психология

42 темы
Слайды