Кредит
<<  Бухгалтерский учёт и документальное оформление кассовых операций в кредитных организациях Ввод данных о фактически изготовленных блюдах на основании «Плана меню»  >>
СПО для Больших Данных – Большой Риск или Большая Выгода
СПО для Больших Данных – Большой Риск или Большая Выгода
В этом десятилетии цифровая вселенная вырастет в 50 раз от 0.9 до 44
В этом десятилетии цифровая вселенная вырастет в 50 раз от 0.9 до 44
90% цифровой вселенной неструктурировано
90% цифровой вселенной неструктурировано
Происхождение Больших Данных
Происхождение Больших Данных
Большие данные
Большие данные
Феномен Больших Данных
Феномен Больших Данных
Традиционные платформы для аналитики
Традиционные платформы для аналитики
Что если Аналитика будет подобна Google
Что если Аналитика будет подобна Google
Новая Платформа для Аналитики Больших Данных
Новая Платформа для Аналитики Больших Данных
Зачем Вам параллельные вычисления
Зачем Вам параллельные вычисления
СУБД EMC greenplum
СУБД EMC greenplum
Open Source решения для Больших Данных
Open Source решения для Больших Данных
Open Source решения для Больших Данных
Open Source решения для Больших Данных
Hadoop – open source среда для Больших Данных
Hadoop – open source среда для Больших Данных
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Hadoop – проблемы масштабирования
Архитектура Hadoop
Архитектура Hadoop
Hadoop на EMC greenplum
Hadoop на EMC greenplum
Greenplum – это гибкость и выбор
Greenplum – это гибкость и выбор
Старые процессы бизнес-аналитики
Старые процессы бизнес-аналитики
Что если коллаборация аналитиков станет подобна Facebook
Что если коллаборация аналитиков станет подобна Facebook
Новые процессы аналитики
Новые процессы аналитики
Greenplum Chorus
Greenplum Chorus
Организации должны измениться
Организации должны измениться
Превратившись в команду
Превратившись в команду
MADlib – еще одна возможность для СПО сообщества
MADlib – еще одна возможность для СПО сообщества
MADlib - возможность для СПО сообщества
MADlib - возможность для СПО сообщества
MADlib - возможность для СПО сообщества
MADlib - возможность для СПО сообщества
Гибкая аналитика это …
Гибкая аналитика это …
На основе ПО EMC Greenplum
На основе ПО EMC Greenplum
Итоги
Итоги
СПО для Больших Данных – Большой Риск или Большая Выгода
СПО для Больших Данных – Большой Риск или Большая Выгода

Презентация: «СПО для Больших Данных – Большой Риск или Большая Выгода». Автор: EMC. Файл: «СПО для Больших Данных – Большой Риск или Большая Выгода.pptx». Размер zip-архива: 2298 КБ.

СПО для Больших Данных – Большой Риск или Большая Выгода

содержание презентации «СПО для Больших Данных – Большой Риск или Большая Выгода.pptx»
СлайдТекст
1 СПО для Больших Данных – Большой Риск или Большая Выгода

СПО для Больших Данных – Большой Риск или Большая Выгода

Денис Серов

12 апреля 2012

2 В этом десятилетии цифровая вселенная вырастет в 50 раз от 0.9 до 44

В этом десятилетии цифровая вселенная вырастет в 50 раз от 0.9 до 44

зетабайт

Source: 2011 IDC Digital Universe Study

3 90% цифровой вселенной неструктурировано

90% цифровой вселенной неструктурировано

Source: 2011 IDC Digital Universe Study

4 Происхождение Больших Данных

Происхождение Больших Данных

Electronic Payments

Video Rendering

Video Surveillance

Social Media

Mobile Sensors

Medical Imaging

Gene Sequencing

Geophysical Exploration

Smart Grids

5 Большие данные

Большие данные

Меняют бизнес

6 Феномен Больших Данных

Феномен Больших Данных

На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно масштабируемый кластер распределенная файловая система

Большие Данные - это сколько?

7 Традиционные платформы для аналитики

Традиционные платформы для аналитики

Только структурированные данные

Анализ Тбайтов старых данных

Вертикальное масштабирование

8 Что если Аналитика будет подобна Google

Что если Аналитика будет подобна Google

1,000,000,000 запросов в день

900мс среднее время обработки запроса

9 Новая Платформа для Аналитики Больших Данных

Новая Платформа для Аналитики Больших Данных

Структурированные и неструктурированные данные

Анализ Петабайт текущих данных

Горизонтальное масштабирование

10 Зачем Вам параллельные вычисления

Зачем Вам параллельные вычисления

Даже сотни и тысячи ядер в одном сервере не способны обработать Большие Данные Наращивание производительности и емкости сложно Все решается при переходе к параллельным вычислениям

Потому что закон Мура не помогает решить проблему!

11 СУБД EMC greenplum

СУБД EMC greenplum

Экстремальная масштабируемость Автоматическая параллелизация Онлайн-расширение http://greenplum.org

Массивно параллельная обработка данных - MPP

Interconnect

Data Loading

Data Loading

Interconnect

12 Open Source решения для Больших Данных

Open Source решения для Больших Данных

Условно бесплатный доступ к коду Возможность модификации под свои нужды Больше возможностей разработки Экспертиза сообщества СПО Быстрая отладка кода

Хочется попробовать, бесплатно и прямо сейчас

13 Open Source решения для Больших Данных

Open Source решения для Больших Данных

Проект может затянуться Неверный расчет ресурсов/людей/денег Срыв проекта под одного заказчика Резкая смена конъюнктуры рынка Невозможность внедрения в корпоративной среде

Бесплатный сыр бывает только в мышеловке?

14 Hadoop – open source среда для Больших Данных

Hadoop – open source среда для Больших Данных

15 Hadoop – проблемы масштабирования

Hadoop – проблемы масштабирования

В среде с одним сервером нет проблем обработки аппаратного отказа ? Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов P1/n=1-(1-P1)^N=N*P1

Параллельная обработка данных повышает риск сбоев

16 Hadoop – проблемы масштабирования

Hadoop – проблемы масштабирования

Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд

Сбои при параллельной обработке – обычное дело

17 Hadoop – проблемы масштабирования

Hadoop – проблемы масштабирования

В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев

Требование №1

18 Hadoop – проблемы масштабирования

Hadoop – проблемы масштабирования

Успешная распределенная система должна эффективно управлять ресурсами разных узлов: Процессорной мощностью Оперативной памятью Местом на жестких дисках Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям.

Требование №2

19 Hadoop – проблемы масштабирования

Hadoop – проблемы масштабирования

Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом

Требование №3

20 Архитектура Hadoop

Архитектура Hadoop

Технология и ее преимущества

• HDFS - hadoop distributed file system • hive – язык запросов к данным в распределенном хранилище данных на базе HDFS • pig – язык параллельной обработки данных в среде mapreduce • hbase – база данных hadoop с линейной и распределенной масштабируемостью • zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий

21 Hadoop на EMC greenplum

Hadoop на EMC greenplum

Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными http://greenplum.org

Платформа для параллельной обработки Больших Данных

22 Greenplum – это гибкость и выбор

Greenplum – это гибкость и выбор

Программно аппаратный комплекс Greenplum Наращивается инкрементами по ? шкафа Готовые функциональные модули Быстрое развертывание

Программные версии Greenplum Greenplum Database, Hadoop и Chorus на Вашем оборудовании x86 архитектуры Не лицензируется на тестовые окружения Возможность приобретения лицензии или подписки

23 Старые процессы бизнес-аналитики

Старые процессы бизнес-аналитики

Административные преграды

Реактивный стиль работы

Без коллаборации

24 Что если коллаборация аналитиков станет подобна Facebook

Что если коллаборация аналитиков станет подобна Facebook

800,000,000 активных пользователей

900,000,000 меняющихся объектов

250,000,000 новых снимков в день

25 Новые процессы аналитики

Новые процессы аналитики

Гибкость и изменяемость

Прозрачная коллаборация

26 Greenplum Chorus

Greenplum Chorus

Среда для коллаборации аналитиков Больших Данных http://openchorus.org

27 Организации должны измениться

Организации должны измениться

Бизнес-пользователь

Бизнес-аналитик

Бизнес

ИТ департамент

Администратор СУБД

28 Превратившись в команду

Превратившись в команду

Бизнес-пользователь

Бизнес-аналитик

Исследователи данных

Администратор платформы

29 MADlib – еще одна возможность для СПО сообщества

MADlib – еще одна возможность для СПО сообщества

Создана академиком аналитиком консультантом по СУБД … и двумя hard-core разработчиками СУБД Magnetic, Agile, Deep http://madlib.net

Библиотека встраиваемых функций для аналитики Greenplum

30 MADlib - возможность для СПО сообщества

MADlib - возможность для СПО сообщества

MADlib открытая библиотека для масштабируемой встроенной аналитики. Параллельная математическая, статистическая обработка Машинное обучение Структурированные и неструктурированные данные Миссия MADlib: развитие массовых навыков параллельной масштабируемой аналитики Больших Данных

Библиотека встраиваемых функций для аналитики

31 MADlib - возможность для СПО сообщества

MADlib - возможность для СПО сообщества

Библиотека встраиваемых функций для аналитики

32 Гибкая аналитика это …

Гибкая аналитика это …

Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени

Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость

Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных

33 На основе ПО EMC Greenplum

На основе ПО EMC Greenplum

С

Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных http://madlib.net

34 Итоги

Итоги

Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу Архитектурная надежность Параллельная обработка Масштабируемость Возможность поддержки корпоративного класса Возможность предварительно протестировать EMC предлагает Open Source сообществу: Greenplum – СУБД и платформа для Больших Данных Hadoop – платформу для неструктурированных Данных Chorus – платформа для коллаборации аналитиков MADLib - набор встроенных аналитических функций

35 СПО для Больших Данных – Большой Риск или Большая Выгода
«СПО для Больших Данных – Большой Риск или Большая Выгода»
http://900igr.net/prezentacija/ekonomika/spo-dlja-bolshikh-dannykh-bolshoj-risk-ili-bolshaja-vygoda-116650.html
cсылка на страницу

Кредит

10 презентаций о кредите
Урок

Экономика

125 тем
Слайды
900igr.net > Презентации по экономике > Кредит > СПО для Больших Данных – Большой Риск или Большая Выгода