Статистический анализ связности текстов по общественно-политической тематике |
Политика | ||
<< Новое политическое мышление, региональные конфликты биополярная система международных отношений, демилитаризация, разоружение | Подход выработке решений >> |
Автор: . Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока обществознания, скачайте бесплатно презентацию «Статистический анализ связности текстов по общественно-политической тематике.ppt» со всеми картинками в zip-архиве размером 193 КБ.
Сл | Текст | Сл | Текст |
1 | Статистический анализ связности | 13 | «тот же год», «этот месяц» и т.д. |
текстов по общественно-политической | Указательное местоимение тот (во всех | ||
тематике. RCDL 2011 19- 22 октября 2011 г. | падежах) не должно использоваться для | ||
______________________________. к.т.н. | связи в сложном предложении ( «в том, | ||
Абрамова Н.Н., к.т.н. Абрамов В.Е., | что…», «в том случае, если», «до того, | ||
Некрасова Е.В, Росс Г.Н. ФГУП «НИЦИ при | как» и т.п.). Предложение оставляется для | ||
МИД России», ЗАО СКБ «ТЭЛКА» | дальнейшего анализа, если в него не входят | ||
NAbramova@mid.ru, AbramVal@yandex.ru, | слова, указанные в пунктах 3 и 4. | ||
ENekrasova@mid.ru, GRoss@mid.ru. 1. | 14 | Выявление в предложении вводных | |
2 | Цель работы. Исследование законов | конструкций. Учет особенностей | |
связности общественно-политических | расположения и пунктуационного оформления | ||
текстов, разработка методов и алгоритмов | вводных конструкций: вводные слова и | ||
выявления межфразовых связей с целью | обороты находятся в начале предложения и | ||
усовершенствования технологии | выделяются на письме запятыми: либо | ||
реферирования текстов. | справа, либо с двух сторон (пример: Вместе | ||
3 | Основные понятия. Для получения | с тем, французские журналисты выяснили, | |
связного текста реферата необходимо | что ее зовут Нафиссатоу Диалло); вставные | ||
анализировать связи между предложениями - | элементы заключаются в круглые, квадратные | ||
межфразовые связи. Согласно законам | или косые скобки (пример: Вместе эти | ||
связности текста, межфразовые связи можно | страны располагают огромной ресурсной | ||
определить через понятие замещения | базой, самыми большими трудовыми | ||
(анафоры), т.е. повторения смысла | резервами, большими внутренними рынками | ||
какого-либо отрезка текста с помощью | (общая численность населения стран БРИКС – | ||
особых языковых средств. Заместители или | 2,939 миллиарда человек). 2. Распознавание | ||
показатели связи – это слова и | вводных конструкций с помощью словаря | ||
словосочетания, обозначающие понятия, | вводных слов и словаря оборотов. 3. | ||
повторяющиеся в тексте, Замещаемое | Вставные элементы не могут быть средством | ||
(антецедент) – это обозначение того же | межфразовой связи. 4. Вводные слова и | ||
понятия в предшествующем предложении. | обороты могут быть средством межфразовой | ||
Между замещаемым и заместителем существует | связи, если включают в себя местоимения | ||
анафорическая связь. Сами заместители | или уточняющие прилагательные (например, | ||
могут выступать как антецеденты по | «по его словам», «в связи с | ||
отношению к своим заместителям. Существует | вышеизложенным»). Для выявления этой связи | ||
много способов выражения анафорических | проводился поиск местоимений и уточняющих | ||
связей. Различают лексическую и | прилагательных в словаре личных, | ||
местоименную анафору. | указательных и притяжательных местоимений | ||
4 | Типы замещения в текстах. Буквальный | и уточняющих прилагательных (он, этот, | |
повтор - совпадение замещаемого и | тот, его, им, указанный, данный, последний | ||
заместителя с точностью до словоформ. | и т.д.). 5. Вводные слова и обороты, не | ||
Морфо-синтаксический повтор - совпадение | содержащие местоимений и уточняющих | ||
происходит с точностью до словообразования | прилагательных, а также вставные элементы | ||
(например, «консульство» - «консульский») | не учитываются при дальнейшем анализе. | ||
или на уровне опорных слов, определители | 15 | Определение вида предложения. Вид | |
которых могут трансформироваться | предложения определяется на основе анализа | ||
(например, «журналисткое расследование» – | синтаксической структуры предложения. | ||
«расследование журналиста»). Синонимия, | Опорные слова структуры - это слова, | ||
вызванная изменением состава слов и | относящиеся к грамматическим классам | ||
словосочетаний антецедента и заместителя | глаголов, кратких причастий и кратких | ||
(«безвизовый режим» - «полная отмена | прилагательных с признаком отглагольности. | ||
виз»), или аббревиацией или сокращением | К классу глаголов относятся: глаголы в | ||
слов («Содружество независимых государств» | личной форме, глаголы прошедшего времени, | ||
– «СНГ», «генеральное консульство» – | инфинитив, модальный глагол. Признаки | ||
«генконсульство»). Гипонимия | простого предложения: отсутствуют глаголы; | ||
(«информационная безопасность» – | имеется только один глагол или группа | ||
«международная информационная | рядом стоящих глаголов; имеется несколько | ||
безопасность») и гиперонимия («заместитель | глаголов, связанных сочинительными | ||
министра» – «руководство министерства»). | союзами, перед которыми не стоит знак | ||
Эллипсис – повторение смысла с некоторыми | препинания; имеется несколько глаголов, не | ||
опущенными элементами, не сводимого к | разделенных знаками препинания. Граница | ||
отношению род-вид («Комиссия по правам | простого предложения проходит по знакам | ||
человека» - «Комиссия»). Местоименная | препинания, непосредственно предшествующим | ||
анафора – замена слова или словосочетания | опорным словам, при условии нахождения | ||
предшествующего предложения замещающими | слева от знака препинания хотя бы одного | ||
его местоимениями (личными - «он», «она», | опорного слова. Сложные предложения | ||
«они», «его»…; указательными – «это», | расчленяются на простые, но для анализа | ||
«то»,..; относительными – «который», | выбираются только два первых простых | ||
«где», «что», …) или местоименными | предложения из состава сложного. | ||
наречиями («куда», «там», «туда»,…). | 16 | Распознавание прямой речи. | |
Вводные слова, наречия и союзы («таким | Анализируются конструкции четырех типов: | ||
образом», «в связи с изложенным», «выше», | Прямая речь после слов автора. Пример: Он | ||
«далее», «поэтому», ...). | спросил: «Что ты делаешь?». Прямая речь | ||
5 | Современное состояние проблемы. Методы | перед словами автора.. Пример: «Что ты | |
разрешения анафоры описаны в работах Е. | делаешь?» - спросил он. Прямая речь | ||
Рича, Д. Карбонеллы, Р. Брауна, С. Рико | прерывается словами автора. Признаком ее | ||
Перез, Ш. Лаппина, Г. Лисса . Г.Хирста, | являются внешние открывающиеся и | ||
Р.Миткова и М.Поэсио. Современные подходы | закрывающиеся кавычки и наличие внутри | ||
базируются на интегрируемой модели | комбинаций двух «тире», «запятой» или | ||
разрешения анафоры, использующей | «точки». Пример: «Что ты делаешь вечером? | ||
комбинацию традиционных лингвистических | - спросил он, - я хочу к тебе придти.» или | ||
методов с новым статистическим подходом. | «Что ты делаешь вечером? - спросил он. - Я | ||
Подход Ермакова А.Е. используется для | хочу к тебе придти.» Прямая речь стоит | ||
решения задачи извлечения фактографической | внутри авторских слов. Она распознается по | ||
информации из текстовых документов особого | признакам первого шаблона с той лишь | ||
стиля (биографий, протоколов, сводок и | разницей, что после закрывающихся кавычек | ||
т.д.). Метод Толпегина П. В. предназначен | авторские слова продолжаются после «тире». | ||
для автоматического разрешения анафоры | Пример: Он спросил: «К вам можно?» - и | ||
личных местоимений третьего лица на основе | вошел в комнату. | ||
методов машинного обучения. 5. | 17 | Выявление анафор в простом | |
6 | Исходные данные для анализа. Сообщения | предложении. Последовательно выбираются | |
информационных агентств. 59913. 1712. | слова с признаками местоименности от | ||
Газетные статьи. 179580. 5131. Брифинги. | начала до границы предложения (за | ||
79219. 2264. Вид текста. Суммарная длина | исключением местоимений, входящих во | ||
текстов (в байтах). Средняя длина текста | вводные конструкции, обороты и «временные» | ||
(в байтах). Всего было обработано 105 | словосочетания) и ищутся в словаре личных, | ||
текстов общим объемом 319 Кб. | указательных и притяжательных местоимений | ||
7 | Пример установления межфразовых | и уточняющих прилагательных . Далее анализ | |
связей. 7. | проводится согласно следующим принципам: | ||
8 | Распределение частот встречаемости | 1. Местоименная анафора отсутствует, если | |
различных типов связей в | встречается местоимение «это», | ||
общественно-политических текстах. 0,28. | непосредственно перед которым стоит тире : | ||
0,2. 0,16. 0,09. 0,15. 0,12. 9,8. 0,43. | «БРИКС – это площадка для диалога». 2. | ||
0,13. 0,04. 0,15. 0,17. 0,08. 27,5. 0,36. | Если местоимение входит в именную группу, | ||
0,2. 0,15. 0,07. 0,16. 0,06. 12,3. Вид | состоящую из однородных членов | ||
связи Вид текста. Лексический повтор. | предложения, связанных союзами «и»/»или» | ||
Синонимия. Гипонимия, гиперонимия. | (например, «министры и их постоянные | ||
Эллипсис. Местоим. анафора. Другие связи. | представители», «ООН и ее работники»), то | ||
Кол-во связей на док-т. Сообщения информ. | межфразовой связи нет. 3. Если местоимение | ||
агентств. Газеты. Брифинги. 8. | не входит в именную группу и находится не | ||
9 | Частота встречаемости различных типов | далее третьего места от начала | |
связей в общественно-политических текстах. | предложения, то существует межфразовая | ||
10 | Автоматическое разрешение местоименной | связь: По ее итогам было принято | |
анафоры. Цель работы: разработать алгоритм | совместное коммюнике. 4. Межфразовая связь | ||
выявления межфразовых местоименных | отсутствует, если слева от местоимения | ||
анафорических связей. Основные | стоит согласованное с ним в роде и числе | ||
ограничения: 1. Между анафорой и | существительное (субстантивированное | ||
антецедентом имеется явная | прилагательное): На странице юноши (м.р., | ||
кореферентность. Анафорическое местоимение | ед.ч.) размещены также его (м. р., ед. ч.) | ||
обозначает один и тот же объект | фотографии. 5. Межфразовая связь | ||
действительности (имеет один и тот же | существует, если слева от местоимения нет | ||
референт). 2. Случаи катафоры не | согласованных с ним в роде и числе | ||
анализируются: Когда бортпроводники | существительных: Содержание (ср.р., ед.ч.) | ||
преградили ему дорогу, Гаев набросился на | радиоактивных веществ (мн.,ч.) в ней | ||
них. 3. Предполагается, что в тексте нет | (ж.р., ед.ч.) составляет около 1,9 | ||
референциальных конфликтов | беккерелей на кубический сантиметр. | ||
(неоднозначностей), т.е. для каждого | 18 | Принципы выявления анафор в сложных | |
референта существует только один | предложениях. В сложных предложениях всех | ||
антецедент. Пример конфликта: Сотрудник | видов (с сочинительной и подчинительной | ||
выполнил свою работу. Затем его вызвал | связью и бессоюзных) анализируются только | ||
начальник отдела . Он изложил план работы | два первых простых предложения. Первая | ||
на ближайшее время. 4. Предсказуемость | часть сложного предложения анализируется | ||
антецедента зависит от “референциального | согласно принципам 1 – 5, как обычное | ||
расстояния”, поэтому кореферентным | простое предложение (предыдущий слайд). | ||
считается ближайший по тексту антецедент. | При этом, если межфразовая связь не | ||
10. | выявляется в первом предложении, то поиск | ||
11 | Метод распознавания межфразовых | ее должен быть продолжен во втором | |
местоименных анафор. Этап 1. Выявление | предложении. Во второй части сложного | ||
предложений текста, подлежащих анализу на | предложения сначала ищутся личные и | ||
предмет обнаружения анафор. Этап 2. | притяжательные местоимения. Если слева от | ||
Выявление слов, грамматически не связанных | местоимения стоит согласованное с ним в | ||
с членами предложения, т.е. вводных слов, | роде и числе существительное | ||
вставных предложений и оборотов. Этап 3. | (субстантивированное прилагательное), то | ||
Определение вида предложения: простое, | считается, что межфразовая связь | ||
сложное или предложение с прямой речью. | отсутствует. Если такое существительное не | ||
Этап 4. Определение межфразовых | находится, то его поиск продолжается в | ||
местоименных анафорических связей. 11. | первой части предложения, начиная от | ||
12 | Входная информация. Исходный текст, | конца. | |
каждая словоформа которого сопровождается: | 19 | Принципы выявления анафор в сложных | |
сведениями о ее месторасположении (номере | предложениях. 4. Межфразовая связь | ||
предложения, в котором она находится, | отсутствует, если слева от знака | ||
порядковом номере в этом предложении); | препинания, разделяющего простые | ||
признаком буквы, с которой она начинается | предложения, стоит существительное | ||
(большая или маленькая); набором | (субстантивированное прилагательное), | ||
грамматической информации (часть речи, | согласованное в роде и числе с найденным | ||
род, число, падеж и т.д.). 1#3#1#по | во второй части местоимением. Главный | ||
00/156/03 2#3#0#поступающей | редактор агентства Reuters Стивен Адлер | ||
02/105/10/32333536 3#3#0#информации | (м.р., ед.ч.) сообщил , что он (м.р., | ||
01/061/10/1213162124 4#3#0#, 00/2000/01 | ед.ч.) связался с сирийскими властями с | ||
5#3#0#23 00/2000/01 6#3#0#марта | просьбой о помощи в поиске пропавших | ||
01/001/01/12 7#3#0#примерно 00/152/01 | коллег. 5. Межфразовая связь существует, | ||
8#3#0#в 00/164/046 9#3#0#15 00/2000/01 | если слева от знака препинания, | ||
10#3#0#. 00/2000/01 11#3#0#00 00/2000/01 | разделяющего простые предложения, нет | ||
12#3#0#по 00/156/03 13#3#0#местному | существительных, согласованных в роде и | ||
03/103/01/1323 14#3#0#времени | числе с найденным во второй части | ||
01/076/01/121316. 15#3#0#в 00/164/046 | местоимением, или встречается дейктическое | ||
16#3#1#районе 01/001/01/16 | местоимение («я», «мы», «ты», «вы»). | ||
17#3#0#автовокзала 01/125/10/3 18#3#0#в | Думаю, что они должны активно подключиться | ||
00/164/046 19#3#1#иерусалиме 01/001/01/16 | к выработке оптимального курса, по | ||
20#3#0#было 01/125/10/2 21#3#0#приведено | которому пойдет БРИКС. 6. Межфразовая | ||
00/147/01 22#3#0#в 00/164/046 | связь существует, если во второй части | ||
23#3#0#действие 01/073/10/1114 | сложного предложения отсутствуют личные и | ||
24#3#0#самодельное 02/103/01/2124 | притяжательные местоимения, но есть | ||
25#3#0#взрывное 02/107/01/2124 | указательное местоимение («этот», «тот», | ||
26#3#0#устройство 01/070/01/1114 27#3#0#. | «такой»). Маркин сообщил, что эти решения | ||
00/2000/01. | Генпрокуратуры будут обжалованы…. | ||
13 | Принципы выявления предложений для | 20 | |
анализа межфразовых связей. В предложении | 21 | Оценка работы алгоритма. Тестирование | |
встретилось хотя бы одно слово с признаком | проводилось на случайной выборке из 30 | ||
местоименности. Найденное слово должно | текстов. В каждом документе определялась | ||
распознаваться в словаре личных, | количество найденных и правильно | ||
указательных и притяжательных местоимений | определенных межфразовых связей. Отношение | ||
и уточняющих прилагательных (он, этот, | числа правильно определенных связей к | ||
тот, его, им, указанный, данный, последний | количеству всех найденных межфразовых | ||
и т.д.). Распознанное в словаре слово не | связей, выраженное в процентах, - точность | ||
должно входить во «временные» | алгоритма. Она составила ~80%. 21. | ||
словосочетания, например, «этой неделе», | 22 | С п а с и б о з а в н и м а н и е! | |
Статистический анализ связности текстов по общественно-политической тематике.ppt |
«Типы текста» - Основополагающий вопрос: все ли типы текста построены одинаково? Вопросы. Материалы учебно-методического пакета. В проекте участвуют: ученики начальной школы. Аннотация. Данный проект охватывает учебный предмет: русский язык. План проведения занятий. Цель проекта: познакомить младших школьников с типами текста.
«Работа с текстом» - Вступить в коммуникацию или понравиться определенным людям. Сноски, например, нужно форматировать отдельно. Здесь же основное понятие МРР: «слайд» – один кадр, один экран. Принято формулировать в инфинитивах. Подвергнуть фамилию научного руководителя эффекту «торнадо» - чем плохо? Советы, каким должно быть устное (научное) выступление.
«Статистические данные» - Месяц рождения. Beeline. Апрель. Во все области деятельности человека внедряется математическая статистика. Рассмотреть связь статистики и математики. Статистические данные в градусах: Для работы над проектом были созданы две группы: Мегафон. Вывод: Изучить историю возникновения статистики. Было опрошено 90 человек.
«Статистические характеристики» - Анализ и обобщение. Этапы исследовательской деятельности. Формулировка выводов. Статистические характеристики (1). Таблица относительных частот. « Есть три вида лжи : обычная ложь, наглая ложь и статистическая . ». Что такое статистика? Комбинаторика». Статистические исследования. Статистические характеристики.
«Анализ художественного текста» - Содержания и ритма. Педагогические возможности урока компаративного анализа. Культ. Метафоричность синтез. Навеивание мыслей, настроений. Птица на ветке соседней Песню поет. Скажи, что сделал ты с собой? Непосредственная номинация предметов и явлений. творчество А. Фета, Ф. Тютчева. Морфологическом.
«Статистическая оценка» - Статистика изучает: Задание: определить моду числового ряда из предыдущего примера. Таблица. График. Задача 1: Найти среднее арифметическое, размах, моду и медиану ряда чисел: 1,2; 1,4; 2,2; 2,6; 3,2; 3,8; 4,4; 5,6. Как сэкономить время при вычислении статистических характеристик? Например: определить средний размер обуви, которую носят учащиеся школы.