BIG DATA Новый вызов |
Работа с базами данных | ||
<< Spss data entry как делать | Resource Management in Virtualization-based Data Centers >> |
Автор: VBudzko. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока информатики, скачайте бесплатно презентацию «BIG DATA Новый вызов.ppt» со всеми картинками в zip-архиве размером 11905 КБ.
Сл | Текст | Сл | Текст |
1 | BIG DATA Новый вызов. Будзко В.И. | 11 | Применять передовую аналитику к информации |
заместитель директора по научной работе | в ее исходной форме Визуализировать все | ||
Института проблем информатики РАН, д.т.н., | доступные данные для специального анализа | ||
член-корреспондент Академии криптографии | Среда проектирования для создания новых | ||
РФ. “В ближайшие 5 лет все компании на | аналитических приложений Оптимизация | ||
рынке разделятся на победителей и | рабочей нагрузки и планирование | ||
побежденных в зависимости от качества их | Безопасность и управление. BI / Reporting. | ||
аналитики” Вирджиния Рометти - IBM CEO 2 | 12 | Более умная аналитика!!! Analytic | |
марта 2012 года. | Accelerators Designed for Variety. Простые | ||
2 | Рост цифровых данных и доступной | и сложные тексты. Акустика. Ускоренный | |
памяти. | data mining. Прогнозы. Статистика. | ||
3 | Прогноз роста данных до 2015 года. | Изображения и видео. Геоаналитика. | |
4 | Обвал данных. Каждый день в мире | Продвинутые математические модели. Text | |
производится 2,5 квинтильона (1018) байтов | (listen, verb), (radio, noun). | ||
данных. 90% данных созданы за последние | 13 | ||
два года. Каждый час Wal-Mart совершает 1 | 14 | ||
миллион сделок, пополняя базу данных на | 15 | Watson – взгляд изнутри. Cores x 20 + | |
2,5 петабайта (1015)- в 170 раз больше | 1 = 57600 + 2880 = 60480 On Oncology Task. | ||
объема данных Библиотеки Конгресса США. | Технологии IBM. Системные спецификации. | ||
Объем отправлений, доставляемых | 2880 Processing Cores. Content Analytics. | ||
американской Почтовой службой за один год, | Интеллектуальность. 90 IBM P750 Servers. | ||
равен 5 петабайтам, а Google обрабатывает | Business Analytics. 16 Terabytes Memory | ||
такой же объем данных всего за один час. | (RAM) – 20TB Disk. Big Data. 80 Teraflops | ||
Суммарный объем всей существующей на земле | (80 trillion operations per second). | ||
информации составляет несколько больше | Информируемость. Databases / Data | ||
одного зеттабайта (1021). | Warehouses. Workload Optimized Systems. | ||
5 | Новый взгляд – старые принципы. В | 16 | 2002. 1. Любые виды источников. IBM |
какой степени доступные данные отражают | получает заказ на разработку технологии: | ||
реальное состояние моделируемой предметной | 2. Любая скорость потока данных от | ||
области? Полнота. Насколько правильно | источника. 3. Принятие решения – в потоке | ||
данные описывают предметную область? | (миллисекунды). | ||
Точность. Система высокой доступности | 17 | Эффективно с точки зрения затрат | |
данных: доступные данные достаточной | управлять и анализировать все доступные | ||
полноты и точности обработаны и вовремя | данные, в их первозданном виде – | ||
получен аналитический продукт. | структурированные, неструктурированные, | ||
(Своевременный отбор данных и | потоковые. Большие данные – горячая тема, | ||
своевременное получение аналитического | потому что технологии сделали возможным | ||
продукта). Выявление (discovery), отбор | анализ ВСЕХ доступных данных. Social | ||
(discrimination), переработка | Media. Website. Billing. 17. Network | ||
(distillation), доведение в нужном | Switches. ERP. CRM. RFID. | ||
представлении (delivery/dissemination). | 18 | Общая схема компонентов платформы Big | |
6 | В информационно-аналитической АИС | Data Всего около 900 «кирпичей». SPSS | |
получение аналитического информационного | (Декларативный язык PMML). Streams. NZ. | ||
продукта возможно только при использовании | DE. Big Ins. Декларативные языки. Готовые | ||
структурированных данных. Если для решения | средства разработки. Инструменты. | ||
аналитической задачи требуется привлечь | Коннекторы. Cognos BI. Языки | ||
неструктурированные или слабо | программирования 3-го поколения: Java, | ||
структурированные данные, то требуется | C/C++, Python, Perl. | ||
разработать средство их преобразования в | 19 | Современная схема принятия решений: | |
структуру. После преобразования речи в | Что делают люди? Big Data. Цифровая | ||
текст по тексту определяется смысловое | реальность. Подтверждение решения. Область | ||
содержание сказанного и преобразовывается | интересов. Принятие решения. Задания | ||
в некоторый структурированный формат. | интегральной инфо потребности. Детализация | ||
7 | Словосочетание Большие Данные | области интересов. Обсуждение области | |
появилось в конце 1990-ых среди ученых, у | интересов. Поиск в области интересов. | ||
которых отсутствовала возможность | Креативная команда. Обучение в области | ||
сохранить или проанализировать огромные и | интересов. | ||
возрастающие данные, произведенные все | 20 | Угрозы и проблемы. Отставание: кадры, | |
более и более сложными цифровыми | подготовка кадров, технологическая | ||
технологическими средствами, применяемыми | платформа, постановка задач, и пр. Только | ||
при решении задач физики элементарных | МО США ежегодно выделяет на исследования в | ||
частиц, экономики, климатологии, | области Больших данных 300 млн. долларов. | ||
астрофизики. | Big Data –национальная программа США. | ||
8 | К середине 2000-ых проводились | 21 | Угрозы и проблемы. Доступность наших |
интенсивные исследования Больших Данных в | источников: Интернет, социальные сети | ||
таких компаниях как Google, Yahoo, Amazon | (Twitter, Faceook, Одноклассники и пр). | ||
и Netflix, в которые поступали | Основатель социальной сети Facebook Марк | ||
возрастающие объемы данных из Web. Google | Цукерберг – 15 млрд. долларов мобильные | ||
разработал в 2004 году структуры | телефоны, планшеты, смартфоны и пр. | ||
MapReduce. В 2008 году в результате | облачные вычисления и хранилища, | ||
исполнения проекта Apache была реализована | технологические достижения в открытой | ||
система Hadoop (как общедоступное изделие) | публикации или по эл почте, и пр. | ||
для параллельной обработки больших файлов | 22 | Угрозы и проблемы. Отсутствие | |
в одном пакете. Hadoop, использует | наработок по информационнойбезопасности | ||
структуру MapReduce и файловую систему, | Больших данных. Огромный объем | ||
чтобы действовать как хранилище данных. | «неведанного» ПО, даже в открытых кодах, | ||
9 | Файл-ориентированного подхода Hadoop | затрудняет выполнение соответствующих | |
оказалось недостаточно, требовалась | исследований. | ||
функция базы данных. NoSQL решения | 23 | Сокращение отставания СССР в области | |
BigTable Google в 2006 и разработка Amazon | информатизации. 1968 год. Письмо | ||
Dynamo – в 2007 стали первыми реализациями | Дородницина в ЦК. Решение по ЕС ЭВМ. | ||
в этом направлении. Общедоступные продукты | Инициатива М.Р. Шура-Бура и В.К. Левина о | ||
- Amazon SimpleDB, Cassandra, MongoDB и | построении ЕС ЭВМ, программно совместимой | ||
Terrastore. Маркетологи вендоров | с IBM/360. 1972 год. Решение Ю.В. | ||
аппаратного и программного обеспечения | Андропова 1973-1975 годы. Работа | ||
начали перемаркировывать многие продукты и | коллектива специалистов (КГБ, МО, НИЦЭВТ, | ||
решения на Большие Данные. Реляционные и | НИИ "Восход", НИИАА под вывеской | ||
другие традиционные подходы обработки | МНИИПИ АСУ ГХ) по освоению продуктов IBM | ||
бросались в "общий котел". | на площадке ОКБА Минхимпром. | ||
10 | Традиционные данные составляют меньше | 24 | Отечественные аналоги. Продукт IBM |
чем 10% цифровой информации, которой | (прототип). Отечественный аналог. | ||
управляет бизнес. | Исполнитель. IMS/360. Ока. Ницэвт. CICS. | ||
11 | Стратегия IBM Big Data : приблизить | Кама. Ницэвт. OS/360. Ос/ес. Ницэвт. GIS. | |
аналитику к данным. IBM Big Data Platform. | Унис. Центр Программ Систем. Позднее НИИ | ||
Новые аналитические приложения выдвигают | «Восход» выпустил аналог ADABAS – ДИСОД | ||
требования к платформе big data: | НИИАА выпустил аналог IDMS - СЕТЬ | ||
Объединять и управлять всем разнообразием | Катализатор повышения профессионализма. | ||
(Variety), скоростью (Velocity) и объемом | Собственные разработки. | ||
(Volume), достоверностью (Veracity) и | 25 | Что делать? Учиться, учиться, учиться… | |
обоснованностью (Validity) данных | Спасибо за внимание. | ||
BIG DATA Новый вызов.ppt |
«Data Mining» - Визуализация инструментов Data Mining. Александра Симонова, Мат-Мех, 5 курс. Кросс-проверка - известный метод получения оценок неизвестных параметров модели. СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ. Оценка параметра k методом кросс-проверки. Статистические методы.
«Демографический вызов» - Компоненты прироста населения России, 1927-2003 годы, тысяч человек. Пять главных вызовов. Вызов депопуляции. Вызов высокой смертности. Инерционные сценарии. Сокращение ожидаемой продолжительности жизни женщин и женщин. Россия перед демографическими вызовами XXI века. Младенческая смертность в России, странах ЕС, США и Японии.
«Data Mining» - Data Mining. Решение задачи прогнозирования. Для линейной регрессии - линия регрессии. История Data Mining. Кибернетические методы. Понятие Data Mining. Метод "ближайшего соседа". Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев. Преимущества. СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ.
«Язык запросов SQL» - Базы данных. Агрегирующие функции. Бинарные односхемные операции РА. Общий алгоритм выполнения операции SELECT. Форматирование результатов. Пересечение отношений. Группировка по нескольким полям. Разносхемные операции РА. Применение операции соединения. Группировка данных: предложение GROUP BY. Примеры использования GROUP BY.
«Практические работы по базам данных» - Сохранить запросы. Типы данных. Цель работы: обучение приемам построения связей между таблицами. Цель работы: обучение самостоятельной разработке многотабличной БД. Сохранить запрос. Практическая работа №6 Создание отчетов. Открыть закладку «запросы»; выполнить команду Создать, выбрать «Конструктор».
«Триггеры баз данных» - Представления, которые содержат соединения. Модифицируемые и немодифицируемые представления. Привилегии для создания триггера. Замещающий триггер. Создание замещающих триггеров. Создание замещающих триггеров баз данных. Триггер замещения. Обновим группу. Типы триггеров. Имя отдела. Пример замещающего триггера.