Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемailab.ru
1 Сети глубокого обучения
2 Локальное и нелокальное в пространстве признаков обучение Прототипом всякого локально-обучающего алгоритма является построение: где i – пробегает всю выборку, x – предлагаемый для классификации вектор, K – функция ядра. Это линейная комбинация степеней близости ко всем векторам выборки – интерполяция принадлежности к тому или иному классу для x, попавшего между векторами выборки. K – локально, т. е. обычно вводится как метрика: условие K(x,y)> верно только для некоторой односвязной области вокруг y. Например, гауссово ядро: Точно так же работает однослойная нейронная сеть. K(x,y) определяется во входном слое, a – матриц связей (вектор для одного нейрона), b – сдвиг выходного нейрона.
3 Ситуация переобучения. Преобразование пространства признаков Обычно контролируется только правильность сопоставления пар векторов обучающей выборки x и y. Обучающая выборка характеризуется функцией плотности ρ(x) во входном пространстве X (мы ее можем не знать). Если равномерно заполнить пространство признаков Y, то какую функцию плотности мы получим в X? Иначе говоря, вектора выборки x с точки зрения нашей классификации могут оказаться маловероятными.
4 Ситуация переобучения. Преобразование пространства признаков Ошибку можно скорректировать за счет введения функции плотности (отличной от константы) в пространстве признаков H. Такой, что: И далее подвергнуть ρ(h) той же самой процедуре. Т. е. осуществить переход в равномерное пространство признаков через многократное применений функции ядра. В идеальном случае ρ(h)=1. Т. е. наше преобразование должно из 1 получать функцию плотности во входном пространстве. Это и естьглубокая нейронная сеть.
5 Больцмановский подход Сформулируем задачу еще раз: дана плотность ρ(v). В соответствии с гиббсовским распределением вероятности: Дополним наблюдаемый вектор v скрытой составляющей h. Требуется разомкнуть корреляции внутри вектора v на вектор h. В общем случае функцию энергии можно представить так: Нам необходимо исключить корреляции внутри v, поэтому:
6 Все-таки нейронные сети Элементы v – нейроны входного слоя, элементы h – нейроны выходного слоя, W – матрица связи. А то, что все это стоит под экспонентой дает нелинейные активационные функции. Важно: нейронная сеть формирует вектор вероятностей, а не сами значения. Кроме того, для отсутствия корреляций внутри v (и h) верно: Если нейрон бинарный {0,1}, то p(v i ) – т. е. активационная функция на i-м нейроне оказывается сигмоидой!
7 Обучение двухслойной нейронной сети Базовое правило: настроить матрицу связей так, чтобы максимизировать вероятность образцов обучающей выборки: Негативную фазу вычислять сложно. Обычно используют т. н. гиббсовские итерации.
8 Алгоритм обучения нейронной сети
9 Как это работает? Идеальное ядро это сумма дельта функций с особенностями в точках v i. Можно показать, что алгоритмы обучения нейронной сети не только максимизирую вероятность для наличных векторов выборки, но и минимизируют для отсутствующих. Решим уравнение : Разложив ядро в ф. ряд, например в Фурье: Тогда коэффициенты Фурье функции ρ(h) : Столбцы обратной матрицы λ – коэффициенты Ф. обратного ядра. Можно показать, что в обратном операторе коэффициенты при больших частотах убывают с ростом таковых в λ. Многократное применение интегрального оператора подавляет высокочастотные коэффициенты f m, следовательно и сглаживает ρ(h).
10 Обучение с учителем Равномерное распределение по h не означает равномерное распределения для классов. Т. е. 1 = ρ(h)= ρ I (h)+ρ II (h)+.. ρ n (h). Эти слагаемые любые, м. б. сложные. Нам нужно менять функцию ρ(h|v) (уже для многослойной системы), так, чтобы исключать ВЧ составляющие в ρ i (h). При этом мы не хотим менять ни ρ(v), ни ρ i (v). Т. е. Если в ρ(h) нет ВЧ составляющих, это выполняется автоматически.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.