Сравнение Скачать
презентацию
<<  Решение задач на разностное сравнение Сравнение чисел  >>
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Лекция 11 “Основы концепции “глубинного анализа текстов” (Text
Контент-анализ: определения
Контент-анализ: определения
Контент-анализ и добыча данных
Контент-анализ и добыча данных
Основные задачи Text Mining
Основные задачи Text Mining
Основные элементы Text Mining
Основные элементы Text Mining
Классификация
Классификация
Кластеризация
Кластеризация
Другие элементы
Другие элементы
Автоматическое реферирование
Автоматическое реферирование
3 направления квазиреферирования
3 направления квазиреферирования
Определение веса фрагментов при квазиреферирования
Определение веса фрагментов при квазиреферирования
Поисковые образы документов
Поисковые образы документов
Особенности реализации систем
Особенности реализации систем
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
Intelligent Miner for Text (IBM)
PolyAnalyst (Мегапьютер Інтеллидженс)
PolyAnalyst (Мегапьютер Інтеллидженс)
TextAnalyst
TextAnalyst
TextAnalyst
TextAnalyst
Text Miner (SAS)
Text Miner (SAS)
SemioMap (Semio Corp
SemioMap (Semio Corp
SemioMap (Semio Corp
SemioMap (Semio Corp
Oracle Text (Oracle)
Oracle Text (Oracle)
Oracle Text (Oracle)
Oracle Text (Oracle)
Knowledge Server (Autonomy)
Knowledge Server (Autonomy)
Knowledge Server (Autonomy)
Knowledge Server (Autonomy)
RetrievalWare (Convera)
RetrievalWare (Convera)
RetrievalWare (Convera)
RetrievalWare (Convera)
Galaktika-ZOOM ("Галактика")
Galaktika-ZOOM ("Галактика")
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
(ИЦ "ЭЛВИСТИ") (http://infostream
Спасибо за внимание
Спасибо за внимание
Картинки из презентации «Анализ» к уроку математики на тему «Сравнение»

Автор: Jon Jagger. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока математики, скачайте бесплатно презентацию «Анализ.ppt» со всеми картинками в zip-архиве размером 638 КБ.

Скачать презентацию

Анализ

содержание презентации «Анализ.ppt»
Сл Текст Сл Текст
1Лекция 11 “Основы концепции “глубинного анализа текстов” 12больших документов оказывается образованием, лишь отдаленно
(Text Mining)”. Дмитрий Владимирович ЛАНДЭ. Международный напоминающим исходный текст и не всегда оказывается
соломонов университет. © ElVisti. воспринимаемым человеком, но за счет содержания наиболее весомых
2Контент-анализ: определения. Один из истоков концепции Text ключевых слов и фраз, он может приводить к вполне адекватным
Mining – контент-анализ. Понятие контент-анализа, корни которого результатам при полнотекстовом поиске. © ElVisti. 12.
в психологии и социологии, не имеет однозначного определения: - 13Особенности реализации систем. Рассматриваются системы:
Контент-анализ - это методика объективного качественного и Intelligent Miner for Text (IBM) PolyAnalyst (Мегапьютер
систематического изучения содержания средств коммуникации Інтеллидженс) Text Miner (SAS) SemioMap (Semio Corp.) Oracle
(Д.Джери, Дж. Джери). - Контент-анализ - это систематическая Text (Oracle) Knowledge Server (Autonomy) RetrievalWare
числовая обработка, оценка и интерпретация формы и содержания (Convera) Galaktika-ZOOM (корпорация "Галактика")
информационного источника (Д. Мангейм, Р. Рич). - Контент-анализ InfoStream (ИЦ "ЭЛВИСТИ"). © ElVisti. 13.
- это качественно-количественный метод изучения документов, 14Intelligent Miner for Text (IBM).
которое характеризуется объективностью выводов и строгостью (http://www-3.ibm.com/software/data/iminer/fortext/) Система
процедуры и состоит из квантификационной обработки текста с является одним из лучших инструментов глубинного анализа
дальнейшей интерпретацией результатов (В. Иванов). - текстов. Содержит утилиты : Language Identification Tool -
Контент-анализ состоит из нахождения в тексте определенных утилита определения языка - для автоматического определения
содержательных понятий (единиц анализа), выявление частоты их языка, на котором составлен документ. Categorisation Tool -
встречаемости и соотношение с содержанием всего документа утилита классификации - автоматического отнесения текста к
(Б.Краснов). - Контент-анализ - это исследовательская техника некоторой категории (входной информацией на обучающей фазе
для получения результатов путем анализа содержания текста о работы этого инструмента может служить результат работы
состоянии и свойствах социальной действительности (Э. Таршис). © следующей утилиты - Clusterisation Tool). Clusterisation Tool -
ElVisti. 2. утилита кластеризации - разбиения большого множества документов
3Контент-анализ и добыча данных. Контент-анализ в рамках на группы по близости стиля, формы, различных частотных
исследования электронных информационных массивов - относительно характеристик выявляемых ключевых слов. Feature Extraction Tool
новое направление, которое предусматривает анализ множеств - утилита определения нового - выявление в документе новых
текстовых документов. Принято распределение методологий ключевых слов (собственные имена, названия, сокращения) на
контент-анализа на две области: качественную и количественную. основе анализа заданного заранее словаря. Annotation Tool -
Основа количественного контент-анализа - частота появления в утилита "выявления смысла" текстов и составления
документах определенных характеристик содержания. Качественный рефератов - аннотаций к исходным текстам. © ElVisti. 14.
контент-анализ основан на самом факте присутствия или отсутствия 15Intelligent Miner for Text (IBM). Визуализация кластеров в
в тексте одной или нескольких характеристик содержания. IBM Intelligent Miner for Text: © ElVisti. 15.
Технологии глубинного анализа текста Text Mining исторически 16PolyAnalyst (Мегапьютер Інтеллидженс). (
предшествовала технология добычи данных, методология и подходы http://www.megaputer.com/ ) PolyAnalyst может применяться для
которой широко используются. © ElVisti. 3. автоматизированного анализа числовых и текстовых баз данных с
4Основные задачи Text Mining. Как и большинство когнитивных целью обнаружения ранее неизвестных, нетривиальных, полезных и
технологий – Text Mining – это алгоритмическое выявление прежде доступных пониманию закономерностей. PolyAnalyst является
не известных связей и корреляций в уже имеющихся текстовых клиент-серверным приложением. При этом пользователь работает с
данных. Важная задача технологии Text Mining связана с программой PolyAnalyst Workplace. Математические же модули
извлечением из текста его характерных элементов или свойств, выделены в серверную часть - PolyAnalyst Knowledge Server.
которые могут использоваться как метаданные документа, ключевых PolyAnalyst работает с разными типами данных. Это - числа,
слов, аннотаций. Другая важная задача состоит в отнесении логические переменные, текстовые строки, даты, а также свободный
документа к некоторым категориям из заданной схемы их текст. PolyAnalyst может обрабатывать исходные данные из
систематизации. Text Mining также обеспечивает новый уровень различных источников, к примеру, файлы Microsoft Excel 97/2000,
семантического поиска документов. Возможности современных систем ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM
Text Mining могут применяться при управлении знаниями для Visual Warehouse. © ElVisti. 16.
выявления шаблонов в тексте, для автоматического «выталкивания» 17TextAnalyst. В состав PolyAnalyst входит система
или размещения информации по интересующим пользователей TextAnalyst, которая решает такие задачи Text Mining: создание
профилям, создавать обзоры документов. © ElVisti. 4. семантической сети большого текста, подготовка резюме текста,
5Основные элементы Text Mining. В соответствии с уже поиск по тексту и автоматическая классификация и кластеризация
сформированной методологии к основным элементам Text Mining текстов. Построение семантической сети - это поиск ключевых
относятся: классификация (classification), кластеризация понятий текста и установление взаимоотношений между ними. ©
(clustering), построение семантических сетей, извлечение фактов, ElVisti. 17.
понятий (feature extraction), суммаризация (summarization), 18Text Miner (SAS).
ответ на запросы (question answering), тематическое http://www.sas.com/technologies/analytics/datamining/textminer/.
индексирование (thematic indexing), поиск по ключевым словам Система SAS Text Miner может работать с текстовыми докумен-тами
(keyword searching). Также в некоторых случаях набор дополняют различных форматов из баз данных, файловых систем и Web. Text
средства поддержки и создание таксономии (oftaxonomies) и Miner обеспечивает логическую обработку текста в среде мощного
тезаурусов (thesauri). © ElVisti. 5. пакета SAS Enterprise Miner. Это позволяет интегрировать
6Классификация. При классификации текстов используются тексто-вую информацию со структурированными данными. © ElVisti.
статистические корреляции для построения правил размещения 18.
документов в определенные категории. Задача классификации - это 19SemioMap (Semio Corp.).
классическая задачу распознавания, где по некоторой контрольной http://www.entrieva.com/entrieva/products/semiomap.asp?Hdr=semio
выборке система относит новый объект к той или другой категории. ap SemioMap - это продукт компании Entrieva, созданный в 1996 г.
Особенность систем Text Mining заключается в том, что количество ученым-семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г.
объектов и их атрибутов может быть очень большой, поэтому должны продукт был выпущен как промышленный комплекс SemioMap 2.0 -
быть предусмотрены интеллектуальные механизмы оптимизации первая система Text Mining, работающая в архитектуре
процесса классификации. В существующих сегодня системах клиент-сервер. © ElVisti. 19.
классификация применяется, например, в таких задачах: 20SemioMap (Semio Corp.). Система SemioMap состоит из двух
группировка документов в intranet-сетях и на Web-сайтах, основных компонент - сервера SemioMap и клиента SemioMap. Работа
размещение документов в определенные папки, сортировка сообщений системы протекает в три фазы: Индексирование: сервер SemioMap
электронной почты, избирательное распространение новостей автоматически читает массивы неструктурированного текста,
подписчикам. © ElVisti. 6. извлекает ключевые фразы (понятия) и создает из них индекс;
7Кластеризация. Кластеризация базируется на признаках Кластеризация понятий: сервер SemioMap выявляет связи между
документов, которые использует лингвистические и математические извлеченными фразами и строит из них, на основе совместной
методы без использования определенных категорий. Результат - встречаемости, лексическую сеть ("понятийную карту");
таксономия или визуальная карта, которая обеспечивает Графическое отображение и навигация: визуализация карт связей,
эффективный охват больших объемов данных. Кластеризация в Text которая обеспечивает быструю навигацию по ключевым фразам и
Mining рассматривается как процесс выделения компактных подгрупп связям между ними, а также возможность быстрого обращения к
объектов с близкими свойствами. Система должна самостоятельно конкретным документам. © ElVisti. 20.
найти признаки и разделить объекты по подгруппам. Кластеризация, 21Oracle Text (Oracle).
как правило, передует классификации, поскольку разрешает (www.oracle.com/technology/products/text/) Средства Text Mining,
определить группы объектов. Различают два основных типа начиная с Text Server в составе СУБД Oracle 7.3.3 и картриджа
кластеризации - иерархическую и бинарную. Кластеризация interMedia Text в Oracle8i, являются неотъемлемой частью
применяется при реферировании больших документальных массивов, продуктов Oracle. В Oracle9i эти средства развились и получили
определение взаимосвязанных групп документов, упрощения процесса новое название - Oracle Text. © ElVisti. 21.
просмотра при поиске необходимой информации, нахождения 22Oracle Text (Oracle). Основной задачей, на решение которой
уникальных документов из коллекции, выявления дубликатов или нацелены средства Oracle Text, является задача поиска документов
очень близких по содержанию документов. © ElVisti. 7. по их содержанию - словам или фразам, которые при необходимости
8Другие элементы. Построение семантических сетей Построение комбинируются с использованием булевых операций. Результаты
семантических сетей или анализ связей, которые определяют поиска ранжируются по релевантности, с учетом частоты
появление дескрипторов (ключевых фраз) в документе для встречаемости слов запроса в найденных документах. Для повышения
обеспечения навигации. Извлечение фактов Извлечение фактов, полноты поиска Oracle Text предоставляет ряд средств расширения
предназначенное для получения некоторых фактов из текста с целью поискового запроса, среди которых можно выделить: расширение
улучшения классификации, поиска и кластеризации. Прогнозирование слов запроса всеми морфологическими формами, расширение слов
Состоит в том, чтобы предсказать по значениям одних признаков запроса близкими по смыслу словами за счет подключения
объекта значения остальных. Нахождение исключений Поиск тезауруса, а также расширение запроса словами, близкими по
объектов, которые своими характеристиками сильно выделяются из написанию и по звучанию - нечеткий поиск и поиск созвучных слов.
общей массы. Визуализация. Визуализация используется как Система Oracle Text обеспечивает проведение тематического
средство представления контента текстовых массивов, а также для анализа текстов на английском языке. В ходе обработки текст
реализации навигационных механизмов. © ElVisti. 8. каждого документа подвергается процедурам лингвистического и
9Автоматическое реферирование. Автоматическое реферирование статистического анализа, в результате чего определяются его
(Automatic Text Summarization) - это составление коротких ключевые темы и строятся тематические резюме, а также общее
изложений материалов, аннотаций или дайджестов, т.е. извлечения резюме - реферат. © ElVisti. 22.
наиболее важных сведений из одного или нескольких документов и 23Knowledge Server (Autonomy). http://www.autonomy.com/)
генерация на их основе лаконичных и информационно-насыщенных Архитектура IDOL (Intelligent Data Operating Layer) сервера
отчетов. Существует два направления автоматического компании Autonomy, известной своими разработками в области
реферирования - квазиреферирование и краткое изложение статистического контент-анализа, объединяет интеллектуальный
содержания. Квазиреферирование основано на экстрагировании парсинг по шаблонам со сложными методами контекстного анализа и
фрагментов документов - выделении наиболее информативных фраз и извлечения смысла для решения задач автоматической классификацию
формировании из них квазирефератов. Краткое изложение исходного и организации перекрестных ссылок. © ElVisti. 23.
материала основывается на выделении из текстов с помощью методов 24Knowledge Server (Autonomy). Основное преимущество системы
искусственного интеллекта и специальных информационных языков Autonomy - интеллектуальные алгоритмы, основанные на
наиболее важной информации и порождении новых текстов, статистической обработке. Эти алгоритмы базируются на
содержательно обобщающих первичные документы. Семантические информационной теории Шеннона, Байесовых вероятностях и
методы формирования рефератов-изложений допускают два основных нейронных сетях. Autonomy включает такие основные возможности:
подхода: метод синтаксического разбора предложений, и методы, автоматическая классификация; кластеризация; автореферирование;
базирующиеся на понимании естественного языка, методах автоматическое проставление гиперссылок; автоматическое создание
искусственного интеллекта. © ElVisti. 9. профилей (информационных портретов); генерация
103 направления квазиреферирования. В рамках таксонометрических деревьев; создание и манипулирование
квазиреферирования выделяют три основных направления, зачастую метаданными; интеллектуальная обработка XML-данных;
применяемых совместно: статистические методы, основанные на персонализация; поиск. © ElVisti. 24.
оценке информативности разных элементов текста по частоте 25RetrievalWare (Convera). (www.convera.com) RetrievaWare -
встречаемости, которая служит основным критерием информативности средство полнотекстового и атрибутивного поиска. К документам, с
слов, предложений или фраз; позиционные методы, которые которыми способна работать система RetrievalWare, относятся
опираются на предположение о том, что информативность элемента тексты в различных форматах и кодировках в 200 форматах.
текста есть зависимым от его позиции в документе; индикаторные Позиционируется как система добычи знаний (Knowledge Mining). ©
методы, основанные на оценке элементов текста, исходя из наличия ElVisti. 25.
в них специальных слов и словосочетаний - маркеров важности, что 26Galaktika-ZOOM ("Галактика").
характеризуют их содержательную значимость. © ElVisti. 10. (http://zoom.galaktika.ru/) Основное назначение Galaktika-ZOOM -
11Определение веса фрагментов при квазиреферирования. интеллектуальный поиск по ключевым словам с учетом морфологии, а
Определение веса фрагментов (предложений или абзацев) исходного также и формирование информационных портретов по конкретным
текста выполняется по алгоритмам, которые стали уже аспектам. Ориентация на большие информационные объекты. Система
традиционными. Общий вес текстового блока на этом этапе содержит инструментарий для анализа смысловых связей и
определяется по формуле: Weight = Location + KeyPhrase + формирования "образа" проблемы - многомерной модели в
StatTerm Коэффициент Location определяется расположением блока в форме списка значимых словосочетаний. Система содержит
исходном тексте и зависит от того, где появляется данный инструментарий для выявления тенденций и динамики развития
фрагмент - в начале, в середине или в конце, а также проблем. © ElVisti. 26.
используется ли он в ключевых разделах текста, например, в 27(ИЦ "ЭЛВИСТИ") (http://infostream.Ua). Система
выводе. Ключевые фразы (KeyPhrase) представляют собой InfoStream создана для охвата и обобщения динамических новостных
конструкции-маркеры, которые резюмируют, типа "в информационных массивов, генерируемых в Интернет. © ElVisti. 27.
заключение", "в данной статье", "в 28(ИЦ "ЭЛВИСТИ") (http://infostream.Ua). Система
результате анализа" и т.п. Весовой коэффициент ключевой InfoStream обеспечивает: Доступ к оперативной информации (более
фразы может зависеть также от оценочного термина, например, 2700 источников) с единого интерфейса в поисковом режиме с
"отличный". Статистический вес текстового блока учетом возможного дублирования и семантической близости
(StatTerm) вычисляется как нормированная по длине блока сумма документов, языковых версий, размеров документов их цифровой
весов входящих в него строк - слов и словосочетаний. © ElVisti. насыщенности и т. д. Доступ к уникальному ретроспективному
11. фонду, превышающему 30 млн. записей. Поддержку аналитической
12Поисковые образы документов. На основе методов работы в режиме реального времени: построение сюжетных цепочек,
автоматического реферирования возможно формирование поисковых дайджестов, диаграмм встречаемости и таблиц взаимосвязей
образов документов. По автоматически построенным аннотациям понятий, медиа-рейтингов. © ElVisti. 28.
больших текстов (поисковым образам документов) проводится поиск, 29Спасибо за внимание! МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ
который характеризуется высокой точностью (естественно, за счет Киев, Украина. Ландэ Д.В dwl@visti.net http://poiskbook.kiev.ua.
полноты). В этом случае аннотированные тексты рассматри-ваются © ElVisti.
как поисковые образы документов (ПОД). Хотя ПОД часто для
«Анализ текстов» | Анализ.ppt
http://900igr.net/kartinki/matematika/Analiz/Analiz-tekstov.html
cсылка на страницу

Сравнение

другие презентации о сравнении

«Тригонометрические функции» - Обратные тригонометрические функции. Содержание. Тангенсом угла х называется отношение синуса угла х к косинусу угла х. Объектом исследования является процесс изучения функциональной линии в курсе старшей школы. В изучении тригонометрических функций можно выделить разные этапы. Первое знакомство с тригонометрическими функциями углового аргумента в геометрии.

«Задачи на движение» - Математика 4класс. Задача №4. Задачи на движение. Задача №2. Задача №3. Задача №5. Слон прошёл до водопоя 180 км за 6 часов. Составление по рисунку задачи. Два орла вылетели одновременно из гнезда и полетели в противоположных направлениях. Задача №1 Петушок и собака двигаются на встречу друг другу.

«Решение уравнений 2» - Графический метод. Метод подбора. Искусственный метод. Искусственный метод. Среднее арифметическое всех корней уравнения. Простейший метод. Решение. Методы решения уравнений третьей степени. Способ группировки. Решение уравнений с модулем.

«Задачи на работу» - Пример 2. Пример 3. Решение текстовых задач «на работу». Алгоритм решения задачи. Работа. Составление уравнения. Особенности решения задач «на работу». Пример 1. Уравнение. Производительность. Результаты решения текстовых задач на ЕГЭ по математике. Подготовка к ЕГЭ по математике. Решение задачи.

«Олимпиада по математике» - Городской тур олимпиады по математике. Нестандартные задачи по математике. Теория делимости чисел. Алгебра. Всероссийский тур. Этапы Всероссийской олимпиады по математике. Тематика олимпиадных заданий. Школьный тур. Провести школьный тур олимпиады по единым текстам, предложенным методистом ГМЦ. Школьный тур олимпиады по математике.

«Комплексные числа» - Мнимая единица. Комплексные числа применяются при конструировании ракет и самолетов. Bi – мнимая часть комплексного числа. Числа вида a + bi, где a и b – действительные числа, i – мнимая единица, называются комплексными. Первым учёным, предложившим ввести числа новой природы, был Джорж Кордано. Комплексные числа имеют прикладное значение во многих областях науки.

Урок

Математика

67 тем
Картинки
Презентация: Анализ | Тема: Сравнение | Урок: Математика | Вид: Картинки