Сети
<<  Х5 Retail Group и Саморегулирующие организации Федеральная сеть «Пятерочка» Путь к сотрудничеству Бизнес-план развития сети шоколадных бутиков French Kiss  >>
Модель искусственного нейрона
Модель искусственного нейрона
Модель искусственного нейрона
Модель искусственного нейрона
Модель искусственного нейрона
Модель искусственного нейрона
Виды нейронных сетей
Виды нейронных сетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Применение нейросетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Пример: РЕАЛИЗАЦИЯ АЛГОРИТМА ОБУЧЕНИЯ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА
Пример: РЕАЛИЗАЦИЯ АЛГОРИТМА ОБУЧЕНИЯ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Карты Кохонена
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Возможности применения GPU для нейронных сетей
Пример: ОБУЧЕНИЕ ТРЕХСЛОЙНОГО ПЕРЦЕПТРОНА
Пример: ОБУЧЕНИЕ ТРЕХСЛОЙНОГО ПЕРЦЕПТРОНА
Пример: ОБУЧЕНИЕ ТРЕХСЛОЙНОГО ПЕРЦЕПТРОНА
Пример: ОБУЧЕНИЕ ТРЕХСЛОЙНОГО ПЕРЦЕПТРОНА
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
Трехслойный перцептрон
1) 2)
1) 2)
1) 2)
1) 2)
Пример: ЗАДАЧА ДИАГНОСТИКИ ПАЦИЕНТА,КАК ЗАДАЧА РАСПОЗНАВАНИЯ ОБРАЗА
Пример: ЗАДАЧА ДИАГНОСТИКИ ПАЦИЕНТА,КАК ЗАДАЧА РАСПОЗНАВАНИЯ ОБРАЗА
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Многослойный перцептрон
Пример: ЗАДАЧА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЯ
Пример: ЗАДАЧА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЯ
Трехслойный персептрон
Трехслойный персептрон
Результаты: уменьшение задержек доступа к памяти для чтения входных
Результаты: уменьшение задержек доступа к памяти для чтения входных
Пример: РАСПОЗНАВАНИЕ РУКОПИСНЫХ ЦИФР
Пример: РАСПОЗНАВАНИЕ РУКОПИСНЫХ ЦИФР
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Результаты: Ошибки распознавания: 1.6% на GPU 1.3% на CPU
Пример: Обратная задача магнитотеллурического зондирования
Пример: Обратная задача магнитотеллурического зондирования
Результаты: CPU: AMD Athlon64 x2 Dual 6000+ 3.0 GHz
Результаты: CPU: AMD Athlon64 x2 Dual 6000+ 3.0 GHz
Особенности CPU Intel Core I-7
Особенности CPU Intel Core I-7
GPU Streaming Multiprocessor (SM)
GPU Streaming Multiprocessor (SM)
GPC
GPC
Чип в максимальной конфигурации
Чип в максимальной конфигурации
Отличия GPU от CPU
Отличия GPU от CPU
Теоретическая пропускная способность и производительность GPU vs СPU
Теоретическая пропускная способность и производительность GPU vs СPU
Теоретическая пропускная способность и производительность GPU vs СPU
Теоретическая пропускная способность и производительность GPU vs СPU
CUDA в классификации Флинна
CUDA в классификации Флинна
Картинки из презентации «Возможности применения GPU для нейронных сетей» к уроку информатики на тему «Сети»

Автор: Lenovo. Чтобы познакомиться с картинкой полного размера, нажмите на её эскиз. Чтобы можно было использовать все картинки для урока информатики, скачайте бесплатно презентацию «Возможности применения GPU для нейронных сетей.pptx» со всеми картинками в zip-архиве размером 2332 КБ.

Возможности применения GPU для нейронных сетей

содержание презентации «Возможности применения GPU для нейронных сетей.pptx»
Сл Текст Сл Текст
1Возможности применения GPU для 44Небольшое число мощных независимых ядер
нейронных сетей. Путенкова В.Ю. Научный •2,4,6,8 ядер, 2,66—3,6ГГц каждое •Каждое
руководитель: Буряк Д.Ю. физическое ядро определяется системой как
2 2 логических и может параллельно выполнять
3Нейронные сети в биологических два потока (Hyper-Threading) 3 уровня
системах. кешей, большой кеш L3 •На каждое ядро
4Модель искусственного нейрона. L1=32KB (data) + 32KB ( Instructions),
5Виды нейронных сетей. L2=256KB •Разделяемый L3 до 20 mb
6Применение нейросетей. Классификация Обращения в память обрабатываются отдельно
Кластеризация Аппроксимация функций для каждого процесса\нити. Core i7-3960x,
Оптимизация Прогнозирование 6 ядер, 15MB L3.
Автоассоциативная память Управление 45GPU Streaming Multiprocessor (SM).
Визуализация многомерных данных. Потоковый мультипроцессор «Единица»
7 построения устройства (как ядро в CPU):
8 •32 скалярных ядра CUDA Core, ~1.5ГГц •2
9Т.о. существует принципиальная Warp Scheduler-а •Файл регистров, 128KB •3
возможность распараллеливания Реализация Кэша – текстурный, глобальный (L1),
конкретных алгоритмов сильно зависит от константный(uniform) •PolyMorphEngine –
используемых архитектур вычислительных графический конвейер •Текстурные юниты
систем. •Special Function Unit (SFU) –
10Возможные способы параллелизации. Фазы интерполяция и трансцендентная математика
обучения обучающей выборки на уровне слоя одинарной точности •16 x Load/Store unit.
на уровне нейрона на уровне весов. 46GPC. 4 Потоковых мультипроцессора
11Проблемы: Распределение вычислений по объединяются в GPC - Graphics Processing
процессорам Затраты на обмен Cluster , минимальный блок видеокарты.
данными(особенности алгоритмов, пропускная 47Чип в максимальной конфигурации. •16
способность, латентность) Вычислительная SM •512 ядер CUDA Core •Кеш L2 758KB
сложность(специализированные процессоры, •GigaThreadEngine •Контроллеры памяти DDR5
ограничения на используемые операции). •Интерфейс PCI.
12Используемые архитектуры. Кластеры 48Отличия GPU от CPU. Сотни упрощённых
Многопроцессорные системы Одно- и вычислительных ядер, работающих на
многоядерные CPU GPU Нейрочипы. небольшой тактовой частоте ~1.5ГГц (вместо
13Примеры реализаций нейросетевых 2-8 на CPU) Небольшие кеши •32 ядра
алгоритмов на различных аппаратных разделяют L1, с двумя режимами: 16KB или
архитектурах. 48KB •L2 общий для всех ядер, 768 KB, L3
14Пример: РЕАЛИЗАЦИЯ АЛГОРИТМА ОБУЧЕНИЯ отсутствует Оперативная память с высокой
САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА. Задачи пропускной способностью и высокой
кластеризации массивов данных и построения латентностью • Оптимизирована для
контекстных карт признаков. коллективного доступа Поддержка миллионов
15Карты Кохонена. Инициализация виртуальных нитей, быстрое переключение
Подвыборка Поиск максимального подобия контекста для групп нитей.
Коррекция Продолжение (шаг 2). 49Латентность памяти. Цель: эффективно
16Карты Кохонена. Задача: 64 входа, загружать Ядра Проблема: латентность
карта 25 нейронов, 2790 примеров, 30 памяти Решение: •CPU: Сложная иерархия
циклов обучения Платформы: неоднородный кешей •GPU: Много нитей, покрывать
кластер (Ethernet); однородный кластер (32 обращения одних нитей в память
Dual-Pentium, оптоволокно); вычислениями в других за счёт быстрого
мультипроцессорная система (64 переключения контекста За счёт наличия
процессора). сотен ядер и поддержки миллионов нитей
17 (потребителей) на GPU легче заполнить всю
18Пример:Карты Кохонена. Задача: 100 полосу пропускания.
входов карты, 25х25, 50х50 и 100х100 50Теоретическая пропускная способность и
нейронов, 60000 примеров, 50 циклов производительность GPU vs СPU.
обучения Платформа: Intel Core i7 920 (4 * 51GPU - Graphics Processing Unit. GPGPU
2.67GHz), Windows 7 64-bit. NVIDIA GeForce - General-Purpose computing on GPU,
GTX 680. Microsoft VS 2010, для вычисления общего вида на GPU Первые GPU
параллельной версии использовалась от NVIDIA с поддержкой GPGPU – GeForce
надстройка NVIDIA Parallel Nsight v.2.1 и восьмого поколения, G80 (2006 г) CUDA -
программный пакет NVIDIA CUDA Toolkit Compute Unified Device Architecture
v4.2. (унифицированная архитектура
19 вычислительного устройства)
20 Программно-аппаратная архитектура от
21 Nvidia, позволяющая производить вычисления
22Средний прирост скорости обучения с использованием графических процессоров.
относительно последовательной версии 52CUDA в классификации Флинна. У Nvidia
алгоритма для карты размера 25х25 нейронов собственная модель исполнения, имеющая
составил 12,39 раз, для карты размера черты как SIMD, так и MIMD: Nvidia SIMT:
50х50 нейронов 24,27 раз, а для карты Single Instruction – Multiple Thread- все
размера 100х100 нейронов время работы нити из одного варпа одновременно
параллельного алгоритма превышает время выполняют одну инструкцию, варпы
работы последовательного уже в 55,78 раз. выполняются независимо.
23Пример: ОБУЧЕНИЕ ТРЕХСЛОЙНОГО 53SIMT: виртуальные нити, блоки.
ПЕРЦЕПТРОНА. m,n,k – нейронов в Виртуально все нити: •выполняются
входном,скрытом и выходном слоях параллельно (MIMD) •Имеют одинаковые права
активационная функция сигмоида Алгоритм на доступ к памяти (MIMD :SMP) Нити
обучения: обратного распространения разделены на группы одинакового размера
ошибки. (блоки): •В общем случае, глобальная
24Трехслойный перцептрон. 1.Прямое синхронизация всех нитей невозможна, нити
распространение сигнала 2.Входной вектор из разных блоков выполняются полностью
3.Выходной желаемый вектор 4.Ошибка на независимо и не могут управляемо
р-ом примере. взаимодействовать •Есть локальная
25Трехслойный перцептрон. 5.Подстройка синхронизация внутри блока, нити из одного
весов(минимизация ошибки методом блока могут взаимодействовать через
градиентного спуска). специальную память Нити не мигрируют между
26Трехслойный перцептрон. Особенности блоками. Каждая нить находится в своём
решения: Для уменьшения числа обменов с блоке с начала выполнения и до конца.
глобальной памятью GPU-> массивы данных 54SIMT: аппаратное выполнение. Все нити
в двумерные массивы и разбить их на блоки; из одного блока выполняются на одном
Загруженность процессорных элементов, мультипроцессоре (SM) Максимальное число
способная скрыть задержку при доступе к ГП нитей в блоке – 1024 Блоки не мигрируют
GPU-> блоки нужного размера; Cнизить между SM Распределение блоков по
частоту обменов между CPU и GPU-> мультироцесссорам непредсказуемо Каждый SM
пакетная обработка обучающей работает независимо от других Блоки нитей
выборки(перемножение матриц). по фиксированному правилу разделяются на
27Трехслойный перцептрон. Результаты: группы по 32 нити, называемые варпами
Аппаратная платформа: CPU: Intel Core 2 (warp) Все нити варпа одновременно
Duo 3.00 GHz RAM: 3.25 Gb GPU: GeForce выполняют одну общую инструкцию (в
8800 GT, 256 RAM Задача: нейронов входного точности SIMD-выполнение) Warp Scheduler
и выходного слоёв: 1)512; 2)256. нейронов на каждом цикле работы выбирает варп, все
скрытого слоя: ось абсцисс графиков. нити которого готовы к выполнению
281) 2). следующей инструкции и запускает весь варп
29Пример: ЗАДАЧА ДИАГНОСТИКИ Все нити варпа одновременно выполняют одну
ПАЦИЕНТА,КАК ЗАДАЧА РАСПОЗНАВАНИЯ ОБРАЗА. и ту же инструкцию.
Многослойный перцептрон. 55Несколько блоков на одном SM. SM может
30Многослойный перцептрон. Матрица работать с варпами нескольких блоков
входных элементов Вектор выходных одновременно •Максимальное число
элементов НС выполняет преобразование W – резидентных блоков на одном
вектор весовых коэффициентов Найти такие мультипроцессоре – 8 •Максимальное число
W*, которые ошибку. резидентных варпов – 48 = 1536 нитей Чем
31Многослойный перцептрон. Задача: больше нитей активно на мультипроцессоре,
нейронов во входном/скрытом/выходном слое тем эффективнее используется оборудование
– 16/64/2 87 пациентов(описывались 16ю Блоки по 1024 нити – 1 блок на SM, 1024
показателями) функция активации сигмоида нити, 66% от максимума Блоки по 100 нитей
Платформа: Intel Pentium E5200 NVIDIA – 8 блоков на SM, 800 нитей, 52% Блоки по
GeForce GTX550TI (ОП 4 ГБ) Результаты: 512 нитей – 3 блока на SM, 1536 нитей,
T[c] обучения/тестирования алгоритмом, 100%.
реализованным для центрального процессора 56Вычисления с использованием GPU.
– 712/26 с, с применением CUDA – 88/4 с Программа, использующая GPU, состоит из:
Ускорение вычислений в 8/6,5 раз. •Кода для GPU, описывающего необходимые
32Пример: ЗАДАЧА РАСПОЗНАВАНИЯ вычисления и работу с памятью устройства
ИЗОБРАЖЕНИЯ. Задача: •Кода для CPU, в котором осуществляется
Входной/скрытый/выходной 64/9/6(вых 26 Управление памятью GPU – выделение /
букв+10 цифр в двоичной кодировке) освобождение Обмен данными между GPU/CPU
Обучение: метод Лавнеберга- Марквардта Запуск кода для GPU Обработка результатов
Платформа: и прочий последовательный код.
33Трехслойный персептрон. Результаты: 57GPU рассматривается как периферийное
34Пример:ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА ПОТОКА устройство, управляемое центральным
ДАННЫХ. Задача: Трехслойный персептрон процессором • GPU «пассивно», т.е. не
Нейронов во входном=скрытом=выходном может само загрузить себя работой Код для
Входные данные разбиты на окна, GPU можно запускать из любого места
объединенные в блоки Платформа: IntelCore программы как обычную функцию.
2 Duo GeForce 8800GT. 58Код для GPU (device-code). Код для GPU
35Результаты: уменьшение задержек пишется на C++ с некоторыми надстройками:
доступа к памяти для чтения входных весов •Атрибуты функций, переменных и структур
нейронов. •Встроенные функции Математика,
36Пример: РАСПОЗНАВАНИЕ РУКОПИСНЫХ ЦИФР. реализованная на GPU Синхронизации,
Задача: Обучение-обратное распространение коллективные операции •Векторные типы
ошибки Тренировочный набор: 60000 раз по данных •Встроенные переменные threadIdx,
одному вектору из 500 Тестовый набор: по blockIdx, gridDim, blockDim •Шаблоны для
одному из 10000 образцов. работы с текстурами •… Компилируется
37Сеть свертки. Платформа: CPU Intel специальным компилятором cicc.
Pentium D 925 (3000 МГц), 2 ГБ DDR2 59Код для CPU (host-code). Код для CPU
(PC2-5300), видеокарта на основе NVIDIA дополняется вызовами специальных функций
9600GT; Microsoft Windows XP Service Pack для работы с устройством Код для CPU
3; NVIDIA Forceware191.07 (дата выпуска компилируется обычным компилятором •Кроме
05.10.2009); NVIDIA CUDA2.3 (Toolkit + конструкции запуска ядра
SDK); Microsoft C/C++ compiler 14.0 <<<...>>>
(Microsoft Visual Studio 2005 Service Pack 60Библиотеки в составе CUDA Toolkit.
1). Настройки оптимизации: Maximize Speed Thrust – STL-подобная параллельная
(/O2), Inline Function Expansion (/Ob1), обработка данных CUBLAS – функции линейной
Enable Intrinsic Functions(/Oi), Favor алгебры CUSPARSE – операции с разреженными
Fast Code (/Ot). матрицами/векторами CURAND – генерация
38Результаты: Ошибки распознавания: 1.6% псевдослучайных чисел CUFFT – быстрое
на GPU 1.3% на CPU. дискретное преобразование Фурье NPP –
39Пример: Обратная задача обработка сигналов, изображений и видео
магнитотеллурического зондирования. NVCUVID/NVCUVENC –
Обратная задача: восстановление кодирование/декодирование видео Thrust –
реальныххарактеристик пород по наблюдаемым Библиотека шаблонов C++ Параллельные
эл-маг. полям. алгоритмы и структуры данных.
40Многослойный персептрон. Задача: 61Основные приемы ускорения для
Градиентный спуск(обратное распространение нейронных сетей: Правильная постановка
ошибки) 1628/8/1 нейронов во задачи«Мусор» на входе -> «мусор» на
входном/скрытом/выходном слоях 4 комплекта выходе Раскрытие циклов Использование
по 1680 персептронов Обучающая выборка shared memory видеокарты для хранения
30000 примеров, 20 эпох. часто используемых значений Организация
41Результаты: CPU: AMD Athlon64 x2 Dual обменов с памятью Легковесные нити
6000+ 3.0 GHz. Использование пакетного режима
42Итог: CUDA 2580эпох обучения (на 1 Выравнивание данных Использование
сеть за 1 минуту) 13 часов на все специализированных библиотек (CUBLASS,
вычисления на GTX 285 CPU 35эпох обучения CUFFR и др.) Запускать как можно больше
(на 1 сеть за 1 минуту на 1 ядро) Примерно нитей.
2 месяцана 11 ядрах класса AMD 64 x2 62Направления развития. Направление GPU:
3.0ГГц. Kepler, Maxwell, SDK CUDA-x86 Направление
43Почему CUDA? ARM Направление реконфигурируемых чипов
44Особенности CPU Intel Core I-7. Создание пакета программ «Neuron-GPU».
Возможности применения GPU для нейронных сетей.pptx
http://900igr.net/kartinka/informatika/vozmozhnosti-primenenija-gpu-dlja-nejronnykh-setej-221378.html
cсылка на страницу

Возможности применения GPU для нейронных сетей

другие презентации на тему «Возможности применения GPU для нейронных сетей»

«Беспроводные сети» - Теоретически зона покрытия составляет 60 километров на практике около 10 км. Беспроводные сети. Кратко о средствах безопасности беспроводных сетей. GPRS сети. Основана на стандарте IEEE 802.16, который также называют Wireless. Для организации WI-FI сетей необходимо следующее : Виды беспроводных сетей:

«Компьютер и сети» - Url-адрес. Передача файла через данное соединение заняла 16 секунд. Домен третьего уровня. Simple Mail Transfer Protocol – простой протокол передачи почты). В таблице приведены запросы к поисковому серверу. Локальные сети. Технология WiFi (Wireless Fidelity). Как называется схема соединения компьютеров в проводной локальной сети?

«Глобальная сеть» - Пользователи Internet получают информацию в виде гипертекста, являющегося основным способом представления данных. Передача данных в сети организована на основе протокола Internet - IP. В частности, сокращение http происходит от HyperText Transmission Protocol - протокол передачи гипертекстовых документов.

«История создания сети» - Через параллельные или последовательные порты, и при помощи специальных программ. На конечном пункте в компьютере все пакеты собираются в один файл. 2. Файл, который требуется передать по сети, разбивается на несколько частей – пакетов. Джозеф Карл Робнетт Ликлайдер. Укажите фамилию автора идеи. Спутниковые линии связи работают в 9 - 11 диапазонах частот и, в перспективе, в оптических диапазонах.

«Локально-компьютерные сети» - Однако существуют сети, использующие иные протоколы (например, FidoNet). Списки старших доменов приводятся в справочниках по Интернет. Рассмотрим различные способы подключения в порядке убывания стоимости. Компьютерные сети - основные понятия Основные принципы организации сетей. Темы для обсуждения.

«Назначение компьютерных сетей» - Компьютерные сети. Развитие умений самостоятельной работы с информацией. Развитие познавательного интереса, творческой активности, воспитание информационной культуры. Крупные локальные сети объединяются в глобальные сети. Региональные сети — действуют в пределах города, региона. Назначение компьютерных сетей.

Сети

21 презентация о сетях
Урок

Информатика

130 тем
Картинки
900igr.net > Презентации по информатике > Сети > Возможности применения GPU для нейронных сетей