Без темы
<<  Dam Break WarnGen Templates DATA-ONLY PWNING MICROSOFT WINDOWS KERNEL: EXPLOITATION OF KERNEL POOL OVERFLOWS ON MICROSOFT WINDOWS 8.1  >>
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Data mining в microsoft SQL server 2005
Три принципа в основе DM
Три принципа в основе DM
Три принципа в основе DM
Три принципа в основе DM
Три принципа в основе DM
Три принципа в основе DM
Sequence Clustering
Sequence Clustering
Как устроен нейрон
Как устроен нейрон
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Стандарты Data Mining
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация
Визуализация (замечание)
Визуализация (замечание)
Визуализация (Web)
Визуализация (Web)
Визуализация (Web)
Визуализация (Web)
Визуализация (Web)
Визуализация (Web)
Визуализация
Визуализация
Визуализация
Визуализация
Список литературы
Список литературы
Список литературы
Список литературы
Список литературы
Список литературы
Картинки из презентации «Data mining в microsoft SQL server 2005» к уроку английского языка на тему «Без темы»

Автор: Leshik. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока английского языка, скачайте бесплатно презентацию «Data mining в microsoft SQL server 2005.ppt» со всеми картинками в zip-архиве размером 10605 КБ.

Data mining в microsoft SQL server 2005

содержание презентации «Data mining в microsoft SQL server 2005.ppt»
Сл Текст Сл Текст
1Data mining в microsoft SQL server 23не перестанут перемещаться между
2005. Алексей Шуленин Consulting Services. кластерами (алгоритм сошелся) Или не
XI ежегодная техническая конференция придем к выводу, что модель больше не
«Корпоративные базы данных-2006». улучшится от дальнейших итераций.
2Почему мы сегодня говорим о технологии 24Кластеризация.
Data Mining? За последние два десятилетия 25Кластеризация. Два принципа в основе
реляционные БД на предприятиях накопили алгоритма К-среднее, или жесткая
грандиозные объемы данных в самых кластеризация Центры кластеров
различных областях и приложениях ERP, CRM, пересчитываются как среднее всех вошедших
Inventory, финансы, ... Просто журналы в него объектов Отсюда и название (К –
посещений, наконец Для чего реально обычное обозначение для числа кластеров)
использовались эти данные? Выпустили пару Пространство полагается с константной
раз отчетность на их основе, потом мерой Жесткая, потому что при таком
сагрегировали, заархивировали и забыли? подходе каждая точка принадлежит строго
Лежат мертвым грузом вместо того, чтобы одному кластеру, кластеры имеют четкие
работать и приносить прибыль Data Mining – границы Максимизация ожидания, или мягкая
средство их «оживить» и заставить кластеризация Вместо евклидова расстояния
работать. Имеет огромное теоретическое и используется мера вероятности с плотностью
практическое значение = Лично мне это гауссова распределения (по всей видимости)
представляется интересным «Инструкция для Границы кластеров нечетки, могут между
читателя научных статей» // «Физики собой пересекаться Вообще говоря,
шутят», М., Мир, 1968. кластеризация – достаточно дорогой
3Введение. Что такое Data Mining? В алгоритм В процессе конвергенции (т.е.
литературе переводится по-разному Добыча пока кластера устаканятся), требуются
данных (калька) Интеллектуальный анализ многочисленные итерации через модельные
данных (а бывает неинтеллектуальный) данные Которых может быть очень и очень
Искусственный интеллект (перевод в стиле много Проблемы масштабируемости решаются
школы времен АСУ) Поиск закономерностей путем Улучшения сходимости метода
... Независимо от перевода смысл одинаков Отбрасывания несущественных точек Которые
(в большинстве случаев): Это средство оцениваются как уже не могущие повлиять на
превратить данные в знания Мало прока от изменение кластеров ...
строки в таблице, говорящей, что в день A 26Sequence Clustering. Выше мы
клиент B приобрел товар C в магазине D на рассматривали группировку товаров в
сумму ... в кол-ве ... и т.д. Однако сгустки по степени похожести, но нас не
просмотрев миллионы подобных строк можно волновал порядок их приобретения
заметить, например: что товар С в магазине Существуют задачи, в которых порядок тоже
D расходится лучше, чем в других торговых важен Например, нас интересует не только
точках, что клиент B проявляет на какие страницы заходил посетитель
покупательскую активность в дни А что нашего сайта (т.е. какие кластеры страниц
товар C1 продается в основном с товаром С здесь вырисовываются), но и в какой
... Эти знания уже можно непосредственно последовательности он их обходил Т.н.
использовать в бизнесе. Хорошо известно, clickstream analysis Алгоритм Sequence
что... = Я не удосужился найти работу, в Clustering в составе Microsoft SQL Server
которой об этом было сказано впервые Там базируется на марковских цепях и теории
же. конечных автоматов А.А.Марков, 1856-1922,
4Введение. Данные и Знания Данные – ординарный член Санкт-Петербургской
реактивный характер, т.е. отчет о Академии Наук, известный русский
состоявшемся событии Знания – проактивный математик, автор более 70 работ по теории
характер, т.е. заглядывание в будущее чисел, теории приближения функций, теории
Дано: летит кирпич (мозг неявно оценивает дифференциальных уравнений, теории
его вес, скорость, направление, боковой вероятностей.
ветер и пр.) В это время некий аналоговый 27Sequence Clustering. За один момент
компьютер на основе этих данных и времени – один шаг перехода. Матрица
имеющихся моделей (сиречь опыта) вероятностей перехода состояний Низкие
рассчитывает: пролетит мимо или лучше вероятности более тусклые Обычно в модели
отойти В конечном счете знания помогают хранятся вероятности выше определенного
выживать Совершенно аналогично обстоит порога. P(xi = G | xi-1=A) = 0.15 P(xi = C
дело в бизнес-ситуациях Управление | xi-1=A) = 0.15 P(xi = T | xi-1=A) = 0.25
заказами и складскими запасами Сколько P(xi = A | xi-1=A) = 0.35 P(xi = End |
товара будет продано завтра в этом xi-1=A) = 0.10. A. G. 1. 0. C. T. A. G. C.
магазине? Управление рисками Выдавать ли T. A. 0.35. 0.15. 0.15. 0.25. G. 0.15.
кредит этому клиенту? Управление 0.35. 0.25. 0.15. C. 0.15. 0.25. 0.35.
клиентской базой Кто наши клиенты? Какие 0.15. T. 0.25. 0.15. 0.15. 0.35. 0.35.
группы товаров они предпочитают? Довольны 0.10. 0.15. 0.15. 0.25.
ли они обслуживанием, кто из них может 28Sequence Clustering. Цепь имеет n-й
свалить к конкуренту? Как правильно порядок, если ее матрица перехода
спланировать маркетинговую кампанию и состояний определяется историей состояний
оценить ее эффект? Выявление мошенничеств на n моментов времени назад Вероятность
Не является ли этот страховой случай последовательности последовательных
обманным? ... состояний длины L: Р(хL, xL-1, xL-2, …,
5Три принципа в основе DM. Иными x1) = Р(хL | xL-1, xL-2, …, x1) * Р(xL-1 |
словами, Data Mining – это анализ данных с xL-2, …, x1) * … * Р(x1) Обычные
целью отыскания в них типовых образцов или марковские цепи 1-го порядка Цепь n-го
стереотипных изменений, скрытых от нас по порядка из k состояний сводится к цепи
причине невозможности держать в голове 1-го порядка из kn состояний Например,
такое количество данных и анализировать цепь 2-го порядка на пред.слайде сводится
такое количество взаимосвязей между ними. к цепи 1-го порядка из состояний AA, AC,
Исследование данных. Отыскание образцов. AG, AT, CA, CC, CG,CT, GA, GC, GG, GT, TA,
Предсказание результатов. На этот счет TC, TG, TT = 42 = 16 Для марковской цепи
существует единодушное мнение = Я знаю еще 1-го порядка Р(хL, xL-1, xL-2, …, x1) =
пару ребят, которые придерживаются того же Р(хL | xL-1) * Р(xL-1 | xL-2) * ... * Р(х2
Там же. | x1) * Р(x1) (2) Скрытые марковские цепи
6Типовые задачи Data Mining. Последовательность состояний перехода
Классификация Разбить случаи на неизвестна Характеризуется 5-ю атрибутами:
предопределенные классы (напр., хорошо, набором состояний, выходным алфавитом,
плохо, ...) Бизнес-задачи: анализ вероятностями начальных состояний,
кредитных рисков, анализ клиентской базы, вероятностями перехода между состояниями и
целевая реклама Алгоритмы: деревья выходными вероятностями каждого
решений, нейронные сети, наивный конкретного состояния Применяются в куче
байесовский алгоритм Регрессия Сходна с мест от распознавания речи до расшифровки
задачей классификации, но предсказываемый генома.
атрибут здесь является непрерывной 29Sequence Clustering. В текущей версии
величиной Бизнес-задачи: предсказать SQL Server используются наблюдаемые
скорость ветра (курс доллара, ...) на марковские цепи Каждый кластер
основе температуры, давления, влажности, соответствует своей цепи со своей матрицей
... Алгоритмы: линейная регрессия, перехода Кластерный анализ для скалярных
логистическая регрессия, регрессионные атрибутов выполняется в соответствии с
деревья, нейронные сети. ЕМ-алгоритмом: Инициализировать параметры
7Типовые задачи Data Mining. модели Отнести испытание (case) к каждому
Кластеризация, или сегментирование из K кластеров с той или иной вероятностью
Определить естественные группы случаев, (шаг Е – expectation) Пересчитать
базируясь на множестве атрибутов. Случаи параметры модели, основываясь на
внутри группы имеют схожие значения взвешенной принадлежности каждого
атрибутов Бизнес-задачи: профилирование испытания (шаг М – максимизация) Если
клиентов Ассоциация Подобно кластеризации, наступило схождение, закончить, иначе
определяет наиболее популярные наборы вернуться к шагу 2 Последовательность
значений плюс устанавливает ассоциативные состояний перехода – векторный атрибут
правила: например, если клиент взял пепси Хранится как вложенная таблица Вероятность
и чипсы, то с вероятностью 80% он выберет вхождения последовательности в кластер Р(х
еще сок Бизнес-задачи: анализ рыночной | C) считается по марковскому закону (2),
корзины, кросс-селлинг. а предсказание кластера делается по
8Типовые задачи Data Mining. Прогноз формуле Байеса (1), где Р(С) – предельная
Имеется в виду во времени, т.е. Forecast, вероятность кластера С - также известна
а не абы какое Prediction Бизнес-задачи: (например, его вес).
какой будет курс доллара (акций Microsoft 30Нейронные сети. Как известно, ведут
температура, влажность, ...) на завтра свое происхождение c 1943 г. МакКаллоком и
(послезавтра, через неделю, ...) Питтсом (Warren McCulloch, Walter Pitts) в
Алгоритмы: анализ временного ряда Анализ рамках работ по изучению биологической
отклонений В известном смысле задача, нервной сети была построена модель
обратная вышеперечисленным – требуется линейного порогового нейрона Хебб (Donald
отыскать «незакономерность», т.е. Hebb) в 1949 г. в своей работе «The
отклонение от ранее наблюдавшегося Organization of Behavior» сформулировал
поведения Бизнес-задачи: выявление принцип обучаемости (hebbian
мошенничеств с кредитными карточками, re-inforcement learning systems) The
определение вторжения в сеть Алгоритмы: в weight between two neurons will increase
настоящее время не существует устоявшихся if the two neurons activate
методик, остается областью активных simultaneously; it is reduced if they
исследований. Основная проблема: как activate separately Иными словами,
отличить такие случаи от помех и не эффективность переменного синапса между
отфильтровать вместе с водой ребенка. двумя нейронами увеличивается в процессе
9Обучаемые и необучаемые задачи. повторяющейся активации одного нейрона
Обучаемым (контролируемым, supervised) другим через этот синапс В 1958 г.
называется алгоритм, перед нормальной Розенблатт (Frank Rosenblatt, «Principles
которого его требуется натренировать на of Neurodynamics») рассматривает
модельном множестве (с известными перцептрон, первую NN До этого были
исходами) К обучаемым относятся, например, введены линейный ассоциатор и адаптивная
задачи классификации, ассоциации К машина Марвина Мински (1951 г.) 1982 г. -
необучаемым относится, например, алгоритм разработка Хопфилдом (John Hopfield),
кластеризации Модель строится через Калифорнийский Технологический ин-т, ИНС с
последовательность итераций и считается полностью связанной структурой
завершенной, когда она начинает сходиться, (backpropagation) и оригинальным
т.е. границы кластеров стабилизируются. алгоритмом настройки весов.
10Жизненный цикл проекта Data Mining. 31Нейронные сети. Нейронная сеть состоит
Сбор данных Определение области, из узлов (нейронов) и соединяющих их ребер
представляющей интерес с точки зрения Data (синапсов) Узлы бывают входные, скрытые,
Mining, и выделение ее в корпоративном выходные Каждое ребро связывает узлы с
хранилище (или многомерной витрине) определенным весом Направление ребра
Является ли она достаточной или какие-то обозначает поток данных во время
данные необходимо дособрать Определение предсказания Входные узлы формируют первый
представительной выборки Как правило, не слой сети В большинстве сетей каждый
имеет смысла обучать модель, натравливая входящий узел представляет один
ее на весь набор данных, если на миллиарде какой-нибудь атрибут (возраст, пол, доход,
записей результаты будут такие же, как и ...) Первоначальные значения входных
на 50 тыс. Только лишнее время займет См. атрибутов нормируются к одному интервалу,
SELECT SalesOrderID, SalesOrderDetailID, напр., (-1; 1) Скрытые узлы образуют
OrderQty, ProductID FROM промежуточный слой В слое комбинируется
Sales.SalesOrderDetail TABLESAMPLE (1000 весь вход с весами соответствующих ребер,
ROWS) или PERCENT в T-SQL и Row Sampling производятся некоторые вычисления и
Transformation в SSIS Очистка и результат подается на следующий слой
трансформация Преобразование типов, Скрытый слой позволяет сети узнавать
например, bool в int Букетирование, нелинейные отношения Выходной слой Как
например, (непрерывный) доход в диапазоны правило, узел представляет предсказываемый
Группировка, например, ОКОНХ слишком атрибут После обработки в выходном слое
детальный, требуется укрупнить некоторые результат приводится к своей
отрасли в одну Агрегирование, например, первоначальной шкале Сеть Microsoft Neural
CDR регистрируется с точностью до секунды, Network является feedforward = прямого
для наших задач такая точность не распространения, нерекуррентная В других
требуется, можно объединить длительности сетях, следуя направлениям ребер, можно
звонков по одному абоненту по времени снова попасть на тот же узел.
суток, когда они совершались Обработка 32Как устроен нейрон. Нейрон – единица
пропущенных значений: отбрасываем, кидаем обработки ? – комбинация входов Возможны
на Unknown, заменяем средней температурой разные варианты: среднее, max, and, or SQL
по больнице, ... Server использует наиболее популярный
11Жизненный цикл проекта Data Mining. метод – взвешенная сумма Которая затем
Что делать с «выбивающимися» записями, передается ф-ции активации f – ф-ция
т.н. outliers? Отбросить – не будем иметь активации Обычно нелинейна, чувствительна
возможность анализа отклонений (напр., на средний диапазон входов Эта ее
выявление мошенничеств) Сохранить – особенность улучшает обучаемость сети В
получим перекос модели Как правило, SQL Server в кач-ве ф-ции активации
отбрасываются на стадии обучения, потом используется логистическая ф-ция, или
рассматриваются Построение модели Не столь сигмоид, 1/(1+e-ах) для выходного слоя и
дорогостоящий по ресурсам, как предыдущий, гиперболический тангенс (eах – e-ах) /
но имеющий принципиальное значение (eах + e-ах) для скрытого.
Отнесение к одной из вышеперечисленных 33Как работает нейронная сеть. После
категорий задач Собственно, что собираемся того, как топология сети определена,
предсказывать и на основе чего кол-во скрытых узлов задано, процесс
Категоризация сужает набор возможных обучения означает нахождение лучшего мн-ва
алгоритмов Выбор алгоритма Иногда помогают весов На начальном этапе веса
априорные знания Например, в задаче расставляются случайно из диапазона (-1;
классификации если связь между 1) Во время каждой обучающей итерации сеть
предсказываемым и входными атрибутами, в воспринимает вход, генерирует предсказания
основном, линейна, лучше использовать в выходном слое, вычисляет ошибку и
деревья В случае более сложной связи – корректирует веса, используя back-, или
нейронные сети Если их нет, остается retro-propagation (алгоритм обратного
пробовать разные алгоритмы SQL Server распространения) Функция ошибки Мера
позволяет использовать более одного расхождения между выходом с нейрона и
алгоритма на модель. истинным значением, известным в
12Жизненный цикл проекта Data Mining. тренировочных данных Напр., двоичная
Оценка модели Насколько адекватно она пороговая ф-ция: если модуль разницы <=
соответствует реальности Практика – 0.5, то 0, если больше, то 1 SQL Server
критерий истины Предсказываем с ее помощью использует следующие функции ошибок* Для
величину и сравниваем с действительностью выходного слоя Erri = Oi(1 - Oi)(Ti - Oi),
Очевидно, речь идет о «свежих» случаях; где Oi – выход с i-го нейрона выходного
нет смысла проверять модель на данных, слоя, Ti – истинное значение Для скрытого
которые уже есть в системе, потому что на слоя Erri = Oi(1 - Oi) ?j Errj wij, где Oi
них она натаскивалась Выбросить тавтологии – выход с i-го нейрона скрытого слоя, Errj
и очевидности Например, выявлена – ошибка j-го нейрона в выходном слое, wij
ассоциация, что если имя = «Петя», то пол – вес связи между i-м и j-м нейронами. * В
= «М» Закономерность может быть давно действительности они немного различаются
известна специалистам в данной предметной для дискретных и непрерывных значений.
области «Подкрутить» параметры настройки 34Корректировка ошибки (обучение). 1. 4.
модели Циклический процесс: обычно 6. 2. 5. 3. Рассмотрим ошибку как ф-цию от
требуется несколько итераций, чтобы весов Wij По сути, нам требуется найти
получить пригодную модель Отчетность глобальный минимум данной поверхности
Построение адекватной модели не есть ошибок Поверхность может иметь очень
самоцель; большинство инструментов Data сложную форму (с локальными минимумами и
Mining снабжены средствами текстовой или пр.) В качестве ф-ции корректировки весов
графической отчетности Отчетность по SQL Server использует метод градиентного
выявленным тенденциям Отчетность спуска* wij = wij + l * Errj * Oi, где l –
предсказательного и прогнозного характера. некая константа из (-1; 1) под названием
13Жизненный цикл проекта Data Mining. темп обучения (learning rate), которая
Интеграция в приложение Отчетность для имеет высокое значение на начальных
руководства может рассматриваться как вид итерациях для повышения скорости и
обратной связи, но ее скорость – это дрейф снижается к концу обучения для повышения
континентов Реакция должна быть точности. Возраст. W14(0.2). W46(-0.3).
мгновенной, чтобы блокировать украденную W15(0.1). Кредитный риск. W24(0.2). Пол.
карту, перекрыть «левого» абонента или W25(-0.4). W56(-0.1). W34(0.2). W35(-0.3).
предложить клиенту товар из списка Доход. * В [1] упоминается также метод
сопутствующих В идеале модуль Data Mining сопряженного градиента (conjugate
должен быть встроен в систему и автономно gradient), однако технических деталей
принимать решение о компенсирующем реализации в нынешнем алгоритме Microsoft
воздействии Цикл замыкается, точнее, Neural Network найти не удалось.
спираль уходит на новый виток 35Подключение собственного алгоритма.
Административно-программная поддержка В Должен имплементировать два основных
быстроменяющемся бизнесе смена образцов интерфейса IDMAlgorithmMetadata –
происходит довольно часто Например, на метаданные (фабрика) IDMAlgorithm –
Амазоне каждый день появляются сотни новых собственно, алгоритм (по экземпляру на
названий В идеале процесс перестройки объект) Есть еще масса вспомогательных
версий моделей и настройки их параметров IDMPersist, IDMPushCaseSet,
должен быть автоматизирован Политики IDMCaseProcessor, ... Принимает данные в
безопасности Несанкционированный доступ к виде потока пар «атрибут-значение» Таким
модели как правило имеет более неприятные образом абстрагируясь от источника Пример
последствия, чем хищение части данных на тему написания и подключения нового
Утечка DM модели к конкурентам DM-алгоритма См. MSDN.
демонстрирует вектор ваших интересов, 36Стандарты Data Mining. PMML. CRISP-DM.
подносит на блюдце готовые результаты OLE DB for DM. JDM. SQL/MM for DM. XMLA
исследований в этом направлении и может for DM. PL/SQL. CWM for DM. DMX.
привести к реверс-инжинирингу ваших 37Стандарты Data Mining. Ситуация
алгоритмов поиска закономерностей, каждый напоминает рынок СУБД четверть века назад
из которых сам по себе может представлять до официального принятия реляционной
немалую интеллектуальную ценность. парадигмы и SQL Единственными отраслевыми
14Математический аппарат Data Mining. стандартами являются PMML и CRISP-DM
Обычно у непосвященных Data Mining в Predictive Model Markup Language Определен
составе SQL Server вызывает ощущение Data Mining Group (dmg.org): SAS, SPSS,
«черного ящика», который неизвестно как IBM, Microsoft, Oracle, ... Представляет
работает, непонятно что предсказывает, и собой XML-формат хранения модели для
вообще сомнительно, с какой стати верить наиболее распространенных алгоритмов Не
его прогнозам Чтобы развеять эти сомнения, есть программный интерфейс для Data
предпримем небольшой технический экскурс и Mining, фокусируется на описании
посмотрим, как это выглядит в теории и как содержания модели: словарь данных, схема
реализовано в SQL Server Мы увидим, что добычи, трансформация полей, статистика,
никакого шаманства здесь нет, есть ... Crisp-DM Продукт усилий SPSS (тогда
стандартные алгоритмы математики и ISL), NCR и DaimlerChrysler Фактически это
статистики, открытые в разное время и методология Описывает жизненный цикл
отшлифовывавшиеся человечеством начиная с проекта Data Mining (последовательность
середины XVII в. и до наших дней Наивный фаз, составные задачи, что на входе и
Байес Деревья решений ВременнЫе ряды выходе каждой), не опускаясь до частных
Ассоциативные правила Последовательности и методик добычи.
кластеризация Нейронные сети Нечеткий 38Стандарты Data Mining. Наибольшее
поиск текста В конце концов мы же не распространение получили стандарты
сомневаемся в способности СУБД «большой тройки» производителей СУБД
обеспечивать транзакционность, строить Microsoft, Oracle, IBM Что не удивительно,
индексы и пр. если принимать в расчет объемы данных,
15Наивный Байесовский метод. В основе инсталляции и существенные инвестирования
лежит известная со школы формула Байеса в Data Mining Естественно, “стандарты”
вычисления условной вероятности Если есть каждого отличаются от других, хотя в
гипотеза H и свидетельство справедливости большинстве обслуживают одни и те же нужды
этой гипотезы E, то P(Н|Е) = P(Н)P(Е|Н) / ISO SQL/Multimedia (SQL MM) – потоковые
P(Е) (1) Пример Известно, что в конгрессе многофрагментные расширения SQL на область
США ответы демократов и республиканцев по полнотекста, геопространства, мультимедиа
основным политическим вопросам и пр. См. доклад Сергея Кузнецова
распределились как 0.2 = 41 / (41 + 166); «Предвестники новых манифестов управления
0.8 = 166 / (41 + 166) 0.49 = 211 / (211 + данными» Секция по Data Mining была
223). Death Tax. Death Tax. Homeland введена в этот стандарт по настоянию IBM
Security. Homeland Security. Help America Концепция и синтаксис очень близки к DMX
Vote. Help America Vote. Child Abduction. Java Data Mining API (JSR-73) –
Child Abduction. Всего в конгрессе. Всего Java-пакет, позволяющий Java-приложениям
в конгрессе. Д. Р. Д. Р. Д. Р. Д. Р. Д. Р. взаимодействовать с Data Mining-движком
Да. 41. 214. 87. 211. 184. 172. 178. 210. Вдохновлялся и лоббировался Oracle
211. 211. 223. 223. Нет. 166. 4. 114. 6. Программная модель до неприличия
11. 36. 23. 1. Да. 0.20. 0.98. 0.43. 0.97. напоминает C# и AMO OLE DB for Data Mining
0.94. 0.83. 0.89. 0.995. 0.49. 0.49. 0.51. и XML/A Стандарты, разрабатываемые и
0.51. Нет. 0.80. 0.02. 0.57. 0.03. 0.06. продвигаемые Microsoft при поддержке
0.17. 0.11. 0.005. Hyperion, SAS, Angoss, KXEN, Megaputer.
16Наивный Байесовский метод. И пусть 39Расширение интерфейсов OLE DB на
известно, что некий товарищ проголосовал область Data Mining. 24 мая 1999 г.
как P(Д) = 0.2 * 0.57 * 0.94 * 0.89 * 0.49 Пресс-релиз «Microsoft Announces Vendor
= 0.0467, Р(Р) = 0.98* 0.03 * 0.83 * 0.995 Initiative To Create Open Data Mining
* 0.51 = 0.0124 Окончательно нормируя по Specification» Microsoft Corp. today
формуле Байеса имеем Р(Д) = 0.0467 / announced a new initiative to extend OLE
(0.0467 + 0.0124) = 0.79, Р(Р) = 0.0124 / DB data access interfaces, providing
(0.0467 + 0.0124) = 0.21 Наивность состоит software vendors and application
в том, что все атрибуты (мнения по developers with an open interface to more
вопросам) считаются независимыми Это efficiently integrate data mining tools
спорное утверждение, т.к. сами вопросы по and applications. A joint effort between
своей формулировке могут коррелировать, the Microsoft® SQL Server™ development
однако данное предположение позволяет нам group and Microsoft Research, OLE DB for
перемножить вероятности Где еще грабли? data mining exemplifies Microsoft's
Предположим, в выборке не встретилось commitment to delivering leading-edge
демократов, проголосовавших «Да» по technology to the developer community
первому вопросу Тогда Р(Д) = 0 * ... = 0, http://www.microsoft.com/presspass/press/1
и товарищ никогда не будет отнесен к 99/May99/Dataminingpr.mspx.
демократам Чтобы этого избежать, в таблице 40Визуализация. .NET WinForm Controls в
везде должны быть ненулевые значения Либо составе клиентской части SQL Server – Data
расширять выборку, либо вводить априорные Viewers Позволяют просматривать модель, ее
вероятности в нулевых ячейках. Death Tax. характеристики, профили, дискриминацию,
Homeland Security. Help America Vote. lift chart для оценки точности и пр. Можно
Child Abduction. Кто он? Да. Нет. Да. Да. расширить этот набор, создав собственные
??? элементы управления Реализовав интерфейс
17Деревья решений. Краткая эволюция IMiningModelViewerControl Св-ва
метода Бинарные и кустистые деревья MiningModel и ConnectionString, метод
Контроль роста, обрезание при наступлении LoadViewerData По такому же принципу
условия, динамический рост и сокращение построены штатные DataViewers Примеры
при просмотре Алгоритм ID3, предложил в также имеются в документации Можно создать
1986 г. Росс Куинлан (Quinlan), Сиднейский управляющие элементы с нуля Вытащив все,
ун-т Впоследствии переработан в С4.5, к-й что требуется, с сервера при помощи OLE DB
способен обрабатывать численные атрибуты, for DM и отрисовав это под свой вкус и
пропущенные значения, отфильтровывать шум цвет Аналогичная ситуация с элементами
Некоторые деревья позволяют решать управления для Web.
регрессионные задачи Classification and 41Визуализация.
Regression Tree (CART), предложил в 1984 42Визуализация (замечание). Несмотря на
г. проф. Лео Бриман (Brieman), каф. то, что среди после установки клиента SQL
статистики ун-та Беркли (Калифорния) В SQL Server среди компонент .NET Framework
Server 2005 исп-ся гибридный алгоритм появляются MiningModel, MiningStructure и
деревьев, позволяющий решать задачи пр., они не предназначены для визуализации
классификации, регрессии и ассоциации Используются в АМО для клиентского
Разработка Microsoft Research. создания и управления моделями. Sub
18Деревья решений. Пример: опрос CreateModels(ByVal ms As MiningStructure)
выпускников Например, всего в опросе Dim ClusterModel As MiningModel Dim
имелось 400 выпускников с высоким IQ; 300 TreeModel As MiningModel Dim mmc As
из них планируют продолжать образование, MiningModelColumn ClusterModel =
100 – нет И т.д. по каждому столбцу Чтобы ms.CreateMiningModel(True, _ "Premium
построить дерево решений, требуется для Generation Clusters")
начала понять, какой из этих признаков ClusterModel.Columns.Clear()
является самым значимым. IQ. IQ. IQ. ClusterModel.Algorithm =
Влияние родителей. Влияние родителей. "Microsoft_Clusters"
Доход семьи. Доход семьи. Пол. Пол. ClusterModel.AlgorithmParameters.Add("
Продолжить образование. Продолжить CLUSTER_COUNT", 0) mmc =
образование. Высокий. Средний. Низкий. Да. ClusterModel.Columns.Add("UserID"
Нет. Высокий. Низкий. М. Ж. 300. 500. 200. ) mmc.SourceColumnID = "UserID"
700. 300. 400. 600. 500. 500. Да. 100. mmc.Usage = "Key"
1000. 900. 400. 1600. 400. 1600. 1100. 43Визуализация (Web). Примеры построения
900. Нет. клиентских приложений.
19Деревья решений. На каждом графике 44Визуализация. Кроме того, месяц назад
сравниваем столбцы одного цвета Например, вышел Community Pack for SQL Server 2005
пол – это малозначимый критерий: М он или http://www.microsoft.com/downloads/details
Ж, продолжать образование собирается aspx?FamilyID=AE94BB12-C839-4B4F-A71B-412F
одинаковое кол-во народа. 3A0500E&displaylang=en Набор
20Деревья решений. Примерно так же редистрибутируемых компонент.
поступает SQL Server Только вместо 45Визуализация. В его составе.
сравнения столбиков по высоте, он считает 46Применимость Data Mining. Как и любой
энтропию E(p1,...,pn) = ?-pilog2pi инструмент, требует навыков в своем
Минимальной энтропией, как мы видим, применении Факт попадания молотком по
обладает атрибут «Влияние родителей», пальцам не обязательно означает, что
значит, по нему будет первое ветвление и молоток плохой Между входными параметрами
т.д. За рамками доклада остаются атрибуты модели и предсказаниями должна быть (пусть
со многими исходами (почтовый индекс, неявная) связь Нельзя предсказать погоду
IP-адрес, ...), борьба с овертренингом на завтра, зная свой размер обуви Поиск
дерева, регрессия и вообще практически закономерностей предполагает
все. закономерности. Бессмысленно их искать в
21Анализ временного ряда. Есть функция равномерном распределении Нельзя
от времени, требуется спрогнозировать ее предсказать результат лотереи, если она
значение на следующем интервале проводится честно Прогноз должен делаться
Используется алгоритм, основанный на в тех же условиях, для которых проводилось
авторегрессии и деревьях решений ART – построение и обучение модели Модель не
AutoRegression Tree Авторегрессия работает должна вносить помехи в исследуемые данные
с дискретным временем и ставит задачу Едва ли удастся достоверно предсказать
прогнозирования Xt = f(Xt-1, …, Xt-n) + ситуацию на фондовом рынке, потому что не
?(t), где ? – шум, n – порядок регрессии вы один используете для этого DM В отличие
Так выглядит процесс преобразования. ID. от погоды здесь поведение участников
ID. Молоко. Молоко. Молоко. Хлеб. Хлеб. оказывает непосредственное влияние на
Хлеб. Месяц. Молоко. Хлеб. t-2. t-1. t. тренд.
t-2. t-1. t. 11.2005. 5000. 4500. 12.2005. 47Список полезных ресурсов. MSDN и
5200. 4600. 1. 5000. 5200. 5240. 4500. документация
4600. 5130. 2. 5200. 5240. 6390. 4600. http://msdn2.microsoft.com/en-us/library/m
5130. 6280. 01.2006. 5240. 5130. 3. 5240. 174949(SQL.90).aspx Technet
6390. 6750. 5130. 6280. 6160. 02.2006. http://www.microsoft.com/technet/prodtechn
6390. 6280. 4. 6390. 6750. 6280. 6280. l/sql/2005/intro2dm.mspx SQL Server Data
6160. 6560. 03.2006. 6750. 6160. ... ... … Mining Technical Community
… … … ... 04.2006. 6280. 6560. ... ... ... http://www.sqlserverdatamining.com/DMCommu
22Анализ временного ряда. В случае ity/ Оптимизация и настройка SQL Server
линейной авторегрессии уравнение http://www.sql-server-performance.com/ec_d
приобретает вид X(t) = a1X(t-1) + a2X(t-2) ta_mining.asp Отечественные ресурсы
+ ... + anX(t-n) + ?(t) Для нахождения http://www.citforum.ru/ http://www.osp.ru/
коэффициентов авторегрессии используется http://olap.ru http://www.gotdotnet.ru/
метод Юля – Уолкера (Yule – Walker, 1927 http://www.rsdn.ru/.
г.) минимизации среднеквадратичного 48Список литературы. «Data Mining with
отклонения между модельным и наблюдаемым SQL Server 2005» ZhaoHui Tang, Jamie
временным рядом Алгоритм был MacLennan Wiley Publishing, Oct 2005,
усовершенствован и распространен на ISBN: 0471462616 Building Data Mining
область деревьев решений в 2001 г. Solutions with OLE DB for DM and XML for
сотрудниками Microsoft Research Chris Analysis Zhaohui Tang, Jamie Maclennan,
Meek, David Maxwell Chickering, David Peter Pyungchul Kim
Heckerman и др. См., напр., http://www.sigmod.org/sigmod/record/issues
ftp://ftp.research.microsoft.com/pub/tr/TR 0506/p80-column-seligman.pdf Unearth the
2004-86.pdf. Корень. Хлеб (t-2) > 5000. New Data Mining Features of Analysis
Хлеб (t-2) <= 5000. Молоко (t-1) > Services 2005 Jamie MacLennan
6000. Молоко (t-1) <= 6000. Молоко = http://msdn.microsoft.com/msdnmag/issues/0
3.02 + 0.72*Хлеб(t-1) + 0.31*Молоко(t-1). /09/AnalysisServices2005/default.aspx
23Кластеризация. Нахождение «центров Detect Anomalies in Excel Spreadsheets.
конденсации» внутри данных Можно еще Use SQL Server 2005 Data Mining inside
определить как отыскание или введение Excel. Bogdan Crivat, Jamie MacLennan
переменной, классифицирующей данные http://msaccess.advisorguide.com/doc/14413
Например, в аэропорту мы видим сгустки SQL Server 2005 Data Mining. Create a Web
пассажиров: одни одеты в майки, шорты и Cross-sell Application Raman Iyer and
бейсболки (Кластер 1), другие – в валенки, Jesper Lind
шубы и ушанки (Кластер 2) Случай «валенки http://www.aspnetpro.com/newsletterarticle
+ шорты», равно как и «майка + ушанка» и 2004/10/asp200410ri_l/asp200410ri_l.asp
пр., является нетипичным и встречается The Microsoft Data Warehouse Toolkit :
редко Такой переменной будет, что одни With SQL Server 2005 and the Microsoft
прилетели с севера, другие – с юга Business Intelligence Toolset Joy Mundy,
Алгоритм работы кластерного алгоритма Warren Thornthwaite, Ralph Kimball Wiley
удобно представлять себе на примере Publishing, Feb 2006, ISBN: 0471267155
n-мерного пространства, в которое насыпаны «Applied Microsoft Analysis Services 2005
точки Оси – это атрибуты, точки – это and Microsoft Business Intelligence» Teo
случаи Исходим из того, что в начальный Lachev Prologika Press, Nov 2005, ISBN:
момент уже есть какие-то кластеры Вопрос о 0976635305. Автор благодарит Джона Смита
том, сколько их и как назначаются их за участие в экспериментах и Джона Брауна
центры, выходит за рамки Достаточно за ценное обсуждение = Смит получил все
чувствительный и сложный вопрос, потому результаты, а Браун объяснил, что они
что от него зависит сходимость модели значат «Инструкция для читателя научных
Каждая точка, очевидно, будет относиться к статей» // «Физики шутят», М., Мир, 1968.
какому-нибудь кластеру После этого 49Спасибо за внимание. Вопросы? Эти
пересчитываем центры кластеров как среднее результаты будут опубликованы позднее =
всех точек, которые в него попали Либо будут, либо нет Там же.
Повторяем переприсвоение точек, пока они
Data mining в microsoft SQL server 2005.ppt
http://900igr.net/kartinka/anglijskij-jazyk/data-mining-v-microsoft-sql-server-2005-146958.html
cсылка на страницу

Data mining в microsoft SQL server 2005

другие презентации на тему «Data mining в microsoft SQL server 2005»

«Приложения Microsoft» - Моделирование угроз. Damage potential: Какова величина ущерба при использовании уязвимости? Новые средства безопасности в Visual Studio 2005. Cryptography: криптографические функции. Code access security .NET Framework. Категории возможных проблем с кодом. Расширенное тестирование. Input Validation: Безопасные строковые функции.

«Office sharepoint server 2007» - Пользователь – «Проект документа(Отчет о проделанной работе)». Удаленный офис.(Ричмонд(США)) Пользователи (Microsoft Internet Explorer7). Интернет. Windows Workflow Foundation. Microsoft Office SharePoint Server 2007. Настройка оповещений. Ускорение внутренних и внешних совместных бизнес-процессов. Новые возможности Microsoft Office SharePoint Server 2007.

«Microsoft программы» - Microsoft outlook express (окно программы). Microsoft power point 2007 (окно программы). Основное назначение табличного процессора – автоматизация расчетов. Главное меню. Microsoft outlook express (электронная почта). Microsoft word (программа по обработке текстов). Microsoft access 2003 (окно программы).

«Программа Microsoft Office 2007» - Microsoft Access. Microsoft Office 2007. Microsoft Access —приложение для управления базами данных. Microsoft Word Microsoft Excel Microsoft PowerPoint Microsoft Access. Microsoft Word. Microsoft Excel. Структура офисного приложения. Microsoft PowerPoint.

«Data Mining» - Продолжение. Примеры использования и реализации. Перспективы технологии Data Mining. Процесс конструирования. Перспективы метода и выводы. Дескриптивный анализ и описание исходных данных. Кросс-проверка - известный метод получения оценок неизвестных параметров модели. Для карт Кохонена: карты входов, выходов, другие специфические карты.

«Формулы в Microsoft Word» - Что называется текстовым редактором? Каково назначение редактора формул? Задание. Раздаточный материал. Вопросы. Запуск редактора формул (Microsoft Equation). Редактор формул в Microsoft Word. Развитие познавательных интересов, навыков работы на компьютере. Панель инструментов "Формула". Воспитание информационной культуры учащихся, внимательности.

Без темы

661 презентация
Урок

Английский язык

29 тем
Картинки