Сети
<<  Сетевое взаимодействие: основа инновационного развития Сетевая безопасность  >>
Сети глубокого обучения
Сети глубокого обучения
Локальное и нелокальное в пространстве признаков обучение
Локальное и нелокальное в пространстве признаков обучение
Ситуация переобучения
Ситуация переобучения
Ситуация переобучения
Ситуация переобучения
Больцмановский подход
Больцмановский подход
Все-таки нейронные сети
Все-таки нейронные сети
Обучение двухслойной нейронной сети
Обучение двухслойной нейронной сети
Алгоритм обучения нейронной сети
Алгоритм обучения нейронной сети
Как это работает
Как это работает
Обучение с учителем
Обучение с учителем

Презентация на тему: «Сети глубокого обучения». Автор: ZwiD. Файл: «Сети глубокого обучения.ppt». Размер zip-архива: 502 КБ.

Сети глубокого обучения

содержание презентации «Сети глубокого обучения.ppt»
СлайдТекст
1 Сети глубокого обучения

Сети глубокого обучения

2 Локальное и нелокальное в пространстве признаков обучение

Локальное и нелокальное в пространстве признаков обучение

Прототипом всякого локально-обучающего алгоритма является построение: где i – пробегает всю выборку, x – предлагаемый для классификации вектор, K – функция ядра. Это линейная комбинация степеней близости ко всем векторам выборки – интерполяция принадлежности к тому или иному классу для x, попавшего между векторами выборки. K – локально, т. е. обычно вводится как “метрика”: условие K(x,y)>? верно только для некоторой односвязной области вокруг y. Например, гауссово ядро:

Точно так же работает однослойная нейронная сеть. K(x,y) определяется во входном слое, a – матриц связей (вектор для одного нейрона), b – “сдвиг” выходного нейрона.

3 Ситуация переобучения

Ситуация переобучения

Преобразование пространства признаков

Обычно контролируется только правильность сопоставления пар векторов обучающей выборки x и y. Обучающая выборка характеризуется функцией плотности ?(x) во входном пространстве X (мы ее можем не знать). Если равномерно заполнить пространство признаков Y, то какую функцию плотности мы получим в X? Иначе говоря, вектора выборки x с точки зрения нашей классификации могут оказаться маловероятными.

4 Ситуация переобучения

Ситуация переобучения

Преобразование пространства признаков

Ошибку можно скорректировать за счет введения функции плотности (отличной от константы) в пространстве признаков H. Такой, что:

И далее подвергнуть ?(h) той же самой процедуре. Т. е. осуществить переход в равномерное пространство признаков через многократное применений функции ядра.

В идеальном случае ?(h)=1. Т. е. наше преобразование должно из 1 получать функцию плотности во входном пространстве. Это и есть “глубокая” “нейронная сеть”.

5 Больцмановский подход

Больцмановский подход

Сформулируем задачу еще раз: дана плотность ?(v). В соответствии с гиббсовским распределением вероятности:

Дополним наблюдаемый вектор v скрытой составляющей h. Требуется разомкнуть корреляции внутри вектора v на вектор h.

В общем случае функцию энергии можно представить так:

Нам необходимо исключить корреляции внутри v, поэтому:

6 Все-таки нейронные сети

Все-таки нейронные сети

Элементы v – нейроны входного слоя, элементы h – нейроны выходного слоя, W – матрица связи. А то, что все это стоит под экспонентой дает нелинейные активационные функции. Важно: нейронная сеть формирует вектор вероятностей, а не сами значения.

Кроме того, для отсутствия корреляций внутри v (и h) верно:

Если нейрон бинарный {0,1}, то p(vi) – т. е. активационная функция на i-м нейроне оказывается сигмоидой!

7 Обучение двухслойной нейронной сети

Обучение двухслойной нейронной сети

Базовое правило: настроить матрицу связей так, чтобы максимизировать вероятность образцов обучающей выборки:

Негативную фазу вычислять сложно. Обычно используют т. н. гиббсовские итерации.

8 Алгоритм обучения нейронной сети

Алгоритм обучения нейронной сети

9 Как это работает

Как это работает

Идеальное ядро это сумма дельта функций с особенностями в точках vi. Можно показать, что алгоритмы обучения нейронной сети не только максимизирую вероятность для наличных векторов выборки, но и минимизируют для отсутствующих.

Решим уравнение :

Разложив ядро в ф. ряд, например в Фурье:

Тогда коэффициенты Фурье функции ?(h) :

Столбцы обратной матрицы ? – коэффициенты Ф. обратного ядра. Можно показать, что в обратном операторе коэффициенты при больших частотах убывают с ростом таковых в ?. Многократное применение интегрального оператора подавляет высокочастотные коэффициенты fm , следовательно и сглаживает ?(h).

10 Обучение с учителем

Обучение с учителем

Равномерное распределение по h не означает равномерное распределения для классов. Т. е. 1 = ?(h)= ?I(h)+?II(h)+.. ?n(h). Эти слагаемые любые, м. б. сложные.

Нам нужно менять функцию ?(h|v) (уже для многослойной системы), так, чтобы исключать ВЧ составляющие в ?i(h). При этом мы не хотим менять ни ?(v), ни ? i(v). Т. е.

Если в ?(h) нет ВЧ составляющих, это выполняется автоматически.

«Сети глубокого обучения»
http://900igr.net/prezentacija/informatika/seti-glubokogo-obuchenija-142382.html
cсылка на страницу
Урок

Информатика

130 тем
Слайды
900igr.net > Презентации по информатике > Сети > Сети глубокого обучения