Работа с базами данных Скачать
презентацию
<<  Резервное копирование базы данных Проектирование баз данных  >>
Data Mining
Data Mining
Докладчики
Докладчики
История Data Mining
История Data Mining
Возникновение Data Mining
Возникновение Data Mining
Понятие Data Mining
Понятие Data Mining
Мультидисциплинарность
Мультидисциплинарность
Мультидисциплинарность
Мультидисциплинарность
Задачи Data Mining
Задачи Data Mining
Стадии Data Mining
Стадии Data Mining
Методы Data Mining
Методы Data Mining
Методы Data Mining
Методы Data Mining
Методы Data Mining
Методы Data Mining
Визуализация инструментов Data Mining
Визуализация инструментов Data Mining
Проблемы и вопросы
Проблемы и вопросы
Области применения Data mining
Области применения Data mining
Области применения Data mining
Области применения Data mining
Перспективы технологии Data Mining
Перспективы технологии Data Mining
Литература по Data Mining
Литература по Data Mining
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Деревья решений
Метод "ближайшего соседа" или системы рассуждений на основе
Метод "ближайшего соседа" или системы рассуждений на основе
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
Метод "ближайшего соседа"
?
?
Картинки из презентации «Data Mining» к уроку информатики на тему «Работа с базами данных»

Автор: Alexandra A. Simonova. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока информатики, скачайте бесплатно презентацию «Data Mining.ppt» со всеми картинками в zip-архиве размером 381 КБ.

Скачать презентацию

Data Mining

содержание презентации «Data Mining.ppt»
Сл Текст Сл Текст
1Data Mining. Докладчики. Введение в Data Mining. Деревья 17ml) "INTUIT.ru: Учебный курс - Data Mining“
решений. Метод ближайшего соседа. Вопросы? 1. 2. 3. 4. (http://www.intuit.ru/department/database/datamining/)
2Докладчики. Александра Симонова, Мат-Мех, 5 курс. "Data Mining - подготовка исходных данных“
3История Data Mining. 1960-е гг. – первая промышленная СУБД (http://www.basegroup.ru/tasks/datamining_prepare.htm).
система IMS фирмы IBM. 1970-е гг. – Conference on Data System 18Деревья решений. История и основные понятия. Возникновение -
Languages (CODASYL) 1980-е гг. – SQL 1990-е гг. – Data Mining. 50-е годы (Ховиленд и Хант (Hoveland, Hunt) ) Метод также
4Возникновение Data Mining. Способствующие факторы. называют деревьями решающих правил, деревьями классификации и
Совершенствование аппаратного и программного обеспечения; регрессии Это способ представления правил в иерархической,
совершенствование технологий хранения и записи данных; последовательной структуре.
накопление большого количества ретроспективных данных; 19Деревья решений. Пример 1.
совершенствование алгоритмов обработки информации. 20Деревья решений. Пример 2.
5Понятие Data Mining. Data Mining - это процесс обнаружения в 21Деревья решений. Преимущества метода. Интуитивность деревьев
сырых данных ранее неизвестных, нетривиальных, практически решений Возможность извлекать правила из базы данных на
полезных и доступных интерпретации знаний, необходимых для естественном языке Не требует от пользователя выбора входных
принятия решений в различных сферах человеческой деятельности. атрибутов Точность моделей Разработан ряд масштабируемых
Gregory Piatetsky-Shapiro Это технология, которая предназначена алгоритмов Быстрый процесс обучения Обработка пропущенных
для поиска в больших объемах данных неочевидных, объективных и значений Работа и с числовыми, и с категориальными типами
полезных на практике закономерностей. данных.
6Мультидисциплинарность. 22Деревья решений. Процесс конструирования. Основные этапы
7Задачи Data Mining. Классификация Кластеризация алгоритмов конструирования деревьев: "построение" или
Прогнозирование Ассоциация Визуализация анализ и обнаружение "создание" дерева (tree building)
отклонений Оценивание Анализ связей Подведение итогов. "сокращение" дерева (tree pruning).
8Стадии Data Mining. СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) 23Деревья решений. Критерии расщепления. "мера
ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ. информационного выигрыша" (information gain measure) индекс
9Методы Data Mining. Технологические методы. Непосредственное Gini, т.е. gini(T), определяется по формуле: Большое дерево не
использование данных, или сохранение данных: кластерный анализ, означает, что оно "подходящее"
метод ближайшего соседа, метод k-ближайшего соседа, рассуждение 24Деревья решений. Остановка построения дерева. Остановка -
по аналогии (этот метод будет рассмотрен подробнее) Выявление и такой момент в процессе построения дерева, когда следует
использование формализованных закономерностей, или дистилляция прекратить дальнейшие ветвления. Варианты остановки:
шаблонов: логические методы; методы визуализации; методы "ранняя остановка" (prepruning) ограничение глубины
кросс-табуляции; методы, основанные на уравнениях. дерева задание минимального количества примеров.
10Методы Data Mining. Статистические методы. Дескриптивный 25Деревья решений. Сокращение дерева или отсечение ветвей.
анализ и описание исходных данных. Анализ связей (корреляционный Критерии: Точность распознавания Ошибка.
и регрессионный анализ, факторный анализ, дисперсионный анализ). 26Деревья решений. Алгоритмы. CART . CART (Classification and
Многомерный статистический анализ (компонентный анализ, Regression Tree) разработан в 1974-1984 годах четырьмя
дискриминантный анализ, многомерный регрессионный анализ, профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman
канонические корреляции и др.). Анализ временных рядов (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford)
(динамические модели и прогнозирование). CART предназначен для построения бинарного дерева решений.
11Методы Data Mining. Кибернетические методы. Искусственные Особенности: функция оценки качества разбиения; механизм
нейронные сети (распознавание, кластеризация, прогноз); отсечения дерева; алгоритм обработки пропущенных значений;
Эволюционное программирование (в т.ч. алгоритмы метода построение деревьев регрессии.
группового учета аргументов); Генетические алгоритмы 27Деревья решений. Алгоритмы. C4.5 . Строит дерево решений с
(оптимизация); Ассоциативная память (поиск аналогов, неограниченным количеством ветвей у узла Дискретные значения
прототипов); Нечеткая логика; Деревья решений; этот метод будет => только классификация Каждая запись набора данных
рассмотрен подробнее. Системы обработки экспертных знаний. ассоциирована с одним из предопределенных классов => один из
12Визуализация инструментов Data Mining. Для деревьев решений атрибутов набора данных должен являться меткой класса.
- визуализатор дерева решений, список правил, таблица Количество классов должно быть значительно меньше количества
сопряженности. Для нейронных сетей - в зависимости от записей в исследуемом наборе данных.
инструмента это может быть топология сети, график изменения 28Деревья решений. Перспективы метода и выводы. Разработка
величины ошибки, демонстрирующий процесс обучения. Для карт новых масштабируемых алгоритмов (Sprint, предложенный Джоном
Кохонена: карты входов, выходов, другие специфические карты. Для Шафером) Метод деревьев - иерархическое, гибкое средство
линейной регрессии - линия регрессии. Для кластеризации: предсказания принадлежности объектов к определенному классу или
дендрограммы, диаграммы рассеивания. прогнозирования значений числовых переменных. Качество работы
13Проблемы и вопросы. Data Mining не может заменить аналитика! зависит как от выбора алгоритма, так и от набора исследуемых
Сложность разработки и эксплуатации приложения Data Mining. данных. Чтобы построить качественную модель, необходимо понимать
Основные аспекты: Квалификация пользователя Сложность подготовки природу взаимосвязи между зависимыми и независимыми переменными
данных Большой процент ложных, недостоверных или бессмысленных и подготовить достаточный набор данных .
результатов Высокая стоимость Наличие достаточного количества 29Метод "ближайшего соседа" или системы рассуждений
репрезентативных данных. на основе аналогичных случаев. Прецедент - это описание ситуации
14Области применения Data mining. Database marketers - в сочетании с подробным указанием действий, предпринимаемых в
Рыночная сегментация, идентификация целевых групп, построение данной ситуации. Этапы: сбор подробной информации о поставленной
профиля клиента Банковское дело - Анализ кредитных рисков, задаче; сопоставление этой информации с деталями прецедентов,
привлечение и удержание клиентов, управление ресурсами Кредитные хранящихся в базе, для выявления аналогичных случаев; выбор
компании - Детекция подлогов, формирование "типичного прецедента, наиболее близкого к текущей проблеме, из базы
поведения" обладателя кредитки, анализ достоверности прецедентов; адаптация выбранного решения к текущей проблеме,
клиентских счетов , cross-selling программы Страховые компании - если это необходимо; проверка корректности каждого вновь
Привлечение и удержание клиентов, прогнозирование фингансовых полученного решения; занесение детальной информации о новом
показателей Розничная торговля - Анализ деятельности торговых прецеденте в базу прецедентов.
точек, построение профиля покупателя, управление ресурсами 30Метод "ближайшего соседа". Преимущества. Простота
Биржевые трейдеры - Выработка оптимальной торговой стратегии, использования полученных результатов. Решения не уникальны для
контроль рисков. конкретной ситуации, возможно их использование для других
15Области применения Data mining. Продолжение. случаев. Целью поиска является не гарантированно верное решение,
Телекоммуникация и энергетика - Привлечение клиентов, ценовая а лучшее из возможных.
политика, анализ отказов, предсказание пиковых нагрузок, 31Метод "ближайшего соседа". Недостатки. Данный
прогнозирование поступления средств Налоговые службы и аудиторы метод не создает каких-либо моделей или правил, обобщающих
- Детекция подлогов, прогнозирование поступлений в бюджет предыдущий опыт Cложность выбора меры "близости"
Фармацевтические компании - Предсказание результатов будущего (метрики). Высокая зависимость результатов классификации от
тестирования препаратов, программы испытания Медицина - выбранной метрики. Необходимость полного перебора обучающей
Диагностика, выбор лечебных воздействий, прогнозирование исхода выборки при распознавании, следствие этого - вычислительная
хирургического вмешательства Управление производством - Контроль трудоемкость. Типичные задачи данного метода - это задачи
качества, материально-техническое обеспечение, оптимизация небольшой размерности по количеству классов и переменных.
технологического процесса Ученые и инженеры - Построение 32Метод "ближайшего соседа". Решение задачи
эмпирических моделей, основанных на анализе данных, решение классификации новых объектов.
научно-технических задач. 33Метод "ближайшего соседа". Решение задачи
16Перспективы технологии Data Mining. Выделение типов прогнозирования.
предметных областей с соответствующими им эвристиками создание 34Метод "ближайшего соседа". Оценка параметра k
формальных языков и логических средств, с помощью которых будет методом кросс-проверки. Кросс-проверка - известный метод
формализованы рассуждения создание методов data mining, получения оценок неизвестных параметров модели. Основная идея -
способных не только извлекать из данных закономерности, но и разделение выборки данных на v "складок". V
формировать некие теории, опирающиеся на эмпирические данные; "складки" здесь суть случайным образом выделенные
преодоление существенного отставания возможностей изолированные подвыборки.
инструментальных средств data mining от теоретических достижений 35Метод "ближайшего соседа". Примеры использования и
в этой области. реализации. Использование - программное обеспечение центра
17Литература по Data Mining. "Wikipedia about Data технической поддержки компании Dell, разработанное компанией
Mining" (http://en.wikipedia.org/wiki/Data_mining) Inference. Реализация - CBR Express и Case Point (Inference
"Data Mining Tutorials" Corp.), Apriori (Answer Systems), DP Umbrella (VYCOR Corp.),
(http://www.eruditionhome.com/datamining/tut.html) KATE tools (Acknosoft, Франция), Pattern Recognition Workbench
"Thearling intro paper" (Unica, США), а также некоторые статистические пакеты, например,
(http://www.thearling.com/text/dmwhite/dmwhite.htm) "Что Statistica.
такое Data mining?“ 36? Вопросы??
(http://www.megaputer.ru/doc.php?classroom/whatis_dm/whatis_dm.h
«Data Mining» | Data Mining.ppt
http://900igr.net/kartinki/informatika/Data-Mining/Data-Mining.html
cсылка на страницу

Работа с базами данных

другие презентации о работе с базами данных

«Алгоритм с ветвлением» - Как помыть посуду. Алгоритм с повторением. Каша из топора. Блок-схема. Неполное ветвление. Алгоритм поиска Золушки. Приведите пример алгоритма, содержащего ветвление. Линейные алгоритмы Алгоритмы с ветвлениями Алгоритмы с повторениями. Нет. Полное ветвление. Отложенная монета – фальшивая. Конец. Примеры.

«Алгоритмы» - Дед бил-бил, не разбил. Результаты исследования Заключение. Есть мороженое? Продеть иглу через ткань (с из­наночной стороны) и через отверстие пуговицы. Сказка закончилась несчастливо. Колобок поет песенку два раза. «Налови рыбы». Встретился сказочный объект. Нет. Катится дальше. Линейный алгоритм. Графический.

«Типы алгоритмов» - Графическое описание алгоритмов. Домашнее задание: Каждая переменная имеет имя, значение и тип. В программе могут быть другие типы переменных, например, вещественные (дробные) и литерные (символьные). Основные типы алгоритмов. Сколько заплатили за всю покупку? Линейные алгоритмы. Какое расстояние прошел автомобиль? № 2. В магазине купили 2 кг яблок и 1,5 кг апельсинов.

«Линейный алгоритм» - И то в нас заложено. Линейный алгоритм в нашей жизни повсюду. От куда мы брали информацию. Не линейный алгоритм: 1.начало. 2.положить на тарелку 3.разбить яйцо над сковородкой. 4.снять готовое яйцо со сковородки. 5.ждать до готовности. 6.разогреть сковородку. 7.посолить 8.конец. Вывод: Линейный алгоритм-.

«Алгоритмы в информатике» - Действие1. Разветвляющийся алгоритм. Типы алгоритмов. Использование вспомогательных алгоритмов. Разветвляющийся алгоритм наблюдаем в поэме А.С. Пушкина «Руслан и Людмила». Как представляется алгоритм в информатике? Как выглядит блок проверки логического условия в блок-схемах? Действие 2. Приведите, пожалуйста, еще примеры разветвляющегося алгоритма.

«Data Mining» - Процесс конструирования. Для линейной регрессии - линия регрессии. Статистические методы. Для карт Кохонена: карты входов, выходов, другие специфические карты. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). Проблемы и вопросы. Кибернетические методы. Метод ближайшего соседа.

Урок

Информатика

126 тем
Картинки
Презентация: Data Mining | Тема: Работа с базами данных | Урок: Информатика | Вид: Картинки