Технология
<<  Обработка данных лазерного сканирования (LIDAR) для создания модели автомобильной дороги Лекция 9: Начальная обработка деталей брюк Особенности технологической обработки карманов брюк  >>
Обработка больших данных (Big Data) в R
Обработка больших данных (Big Data) в R
Содержание
Содержание
Что такое R
Что такое R
Что такое R
Что такое R
Big data и R
Big data и R
Big data и R
Big data и R
Хранение данных
Хранение данных
Хранение данных
Хранение данных
Хранение данных
Хранение данных
Хранение данных
Хранение данных
Параллелизм
Параллелизм
Параллелизм
Параллелизм
Параллелизм
Параллелизм
Облачные вычисления
Облачные вычисления
Облачные вычисления
Облачные вычисления
Заключение
Заключение
Спасибо за внимание
Спасибо за внимание

Презентация: «Apple 4 октября». Автор: OLE-HP. Файл: «Apple 4 октября.pptx». Размер zip-архива: 1966 КБ.

Apple 4 октября

содержание презентации «Apple 4 октября.pptx»
СлайдТекст
1 Обработка больших данных (Big Data) в R

Обработка больших данных (Big Data) в R

Олег Мубаракшин, к.э.н. Лаборатория количественных финансов

3-4 октября 2013, г. Дубна, Московская область

IV Всероссийская научно-практическая конференция «Принципы и механизмы формирования национальной инновационной системы в Российской Федерации» (включая мероприятия VIII ежегодной конференции «ОЭЗ «Дубна»)

2 Содержание

Содержание

Что такое R? Big Data и R Хранение данных Параллелизм Облачные вычисления

11/28/2015

quant-lab.com

2

3 Что такое R

Что такое R

Язык программирования и среда разработки для статистических вычислений и графики GNU, Open Source проект Многообразие статистических и графических методов (линейного и нелинейного моделирование, стат. анализ, анализ временных рядов, кластерный анализ, ...) Функционал значительно расширяется с помощью packages Работает под UNIX, Windows, MacOS http://www.r-project.org/

11/28/2015

quant-lab.com

3

4 Что такое R

Что такое R

11/28/2015

quant-lab.com

4

5 Big data и R

Big data и R

R имеет два основных ограничения: Используется только одно ядро CPU Данные считываются в RAM (возникает ошибка при превышении 2Гб)

11/28/2015

quant-lab.com

5

6 Big data и R

Big data и R

R имеет два основных ограничения:

Задача: Обработать ордер-лог CME* (txt, ~4Гб) * ордер-лог CME – список всех торговых заявок, отправленных на биржу Chicago Mercantile Exchange. Используется для бэк-тестинга торговых стратегий.

11/28/2015

quant-lab.com

6

7 Хранение данных

Хранение данных

Основные способы хранения маркет-даты: База данных CSV-файл HDF5-файл

11/28/2015

quant-lab.com

7

8 Хранение данных

Хранение данных

Что такое и почему HDF5? HDF5 (Hierarchical Data Format) – это уникальный набор технологий, позволяющих управлять чрезвычайно большими и сложными структурами данных. Универсальная модель данных, которая может представлять очень сложные объекты данных, а также широкий спектр метаданных Полностью портативный формат файлов без ограничения на количество или размер объектов данных в коллекции Библиотеки работают на различных вычислительных мощностях: от ноутбуков до систем с массовым параллелизмом; и платформах: C/C++, Java, R, Python Богатый набор встроенных настроек производительности, позволяющих оптимизировать размер данных и время доступа к ним Наличие инструментов и приложений для управления, манипулирования, просмотра и анализа данных в коллекции

11/28/2015

quant-lab.com

8

9 Хранение данных

Хранение данных

Структура HDF5-файла

11/28/2015

quant-lab.com

9

10 Хранение данных

Хранение данных

Структура HDF5-файла с рыночными данными по опционам

Groups1

Groups2

Datasets

11/28/2015

quant-lab.com

10

11 Параллелизм

Параллелизм

Параллелизм означает запуск нескольких вычислений одновременно с использованием нескольких ядер одного процессора или нескольких отдельных процессоров. Основные пакеты R, предназначенные для параллельных вычислений: Rmpi Snowfall Foreach Multicore

11/28/2015

quant-lab.com

11

12 Параллелизм

Параллелизм

Пример кода для реализации параллельного цикла в R (Windows) library(doSNOW) library(foreach) cl = makeCluster(4) #number of CPU cores registerDoSNOW(cl) foreach(i = 1:10) %dopar% { #loop contents } stopCluster(cl)

11/28/2015

quant-lab.com

12

13 Параллелизм

Параллелизм

Задача: Рассчитать оптимальную величину шага дельта-хеджа купленного стрэддла на фьючерс индекса РТС Данные: Time frame – 1 сек., 27 торговых дней (31500 сек * 27 = 850 500), 2 опционные серии Время, затраченное на вычисления: 1. Без паралл. вычислений – 31 час 2. С исп. кода пред. слайда – 8 часов

11/28/2015

quant-lab.com

13

14 Облачные вычисления

Облачные вычисления

Amazon Elastic Compute Cloud Amazon EC2 – это веб-сервис, предоставляющий вычислительные мощности изменяемого размера в облаке. Преимущества запуска R на Amazon EC2: Эластичный размер памяти и количество процессоров для вычислений Доступный Micro Instances для небольших наборов данных (750 часов/месяц бесплатно в теч. 1 года) Легкий в использовании интерфейс консоли для управления наборами данных, а также процессами

11/28/2015

quant-lab.com

14

15 Облачные вычисления

Облачные вычисления

Запуск R на Amazon EC2 под Windows имеет дополнительные преимущества: Удаленный рабочий стол R 64 Bit Возможность использовать Revolution R Enterprise (бесплатно для ученых)

11/28/2015

quant-lab.com

15

16 Заключение

Заключение

Вы можете использовать все преимущества R при обработке больших данных (Big Data) с помощью специализированных пакетов

11/28/2015

quant-lab.com

16

17 Спасибо за внимание

Спасибо за внимание

Олег Мубаракшин, к.э.н. Лаборатория количественных финансов om@quant-lab.com quant-lab.com

11/28/2015

quant-lab.com

17

«Apple 4 октября»
http://900igr.net/prezentacija/tekhnologija/apple-4-oktjabrja-229953.html
cсылка на страницу

Технология

32 презентации о технологии
Урок

Технология

35 тем
Слайды