Тема 10. Архитектура и алгоритмы обучения НС Основные парадигмы нейронных сетей обучения с учителем Однослойный перцептрон f f f х1
Алгоритм обучения однослойного перцептрона Шаг 1. ИІнициализация синаптического веса и смещения: Значение синаптического веса w ij (0) (1 i n) и смещения нейрона b устанавливаются равными некоторым малым случайным числам. Обозначение: w j (t) вес связи от j-го элемента входного сигнала к нейрону в момент времени t. Шаг 2. Подача к сети нового входного и желательно выходного сигналов: Входной сигнал x=(x 1,x 2...x n ) подается к нейрону вместе с желательным выходным сигналом d. Шаг 3. Вычисление выходного сигнала нейрона:.
Шаг 4. Адаптация (настройка) значений веса:, Где r шаг обучения (меньше, чем 1), d(t) – желательный выходной сигнал. Шаг 5. Переход к шагу 2.
Проблема линейной неразделимости однослойного перцептрона х Y w1w1 w2w2 F Out F- пороговая функция (если сумма NET меньше 0.5 – выход 0) NET = xw 1 + yw 2 Таблица истинности для функции ИСКЛЮЧАЮЩЕЕ ИЛИ ТочкиЗначения хЗначения у Требуемый выход A0A0 000 B0B0 101 B1B1 011 A1A1 110
Рис. Проблема ИСКЛЮЧАЮЩЕЕ ИЛИ
Пример решения задачи однослойным перцептроном х1х2y x1 x2 порог F(net) F(net) = f (w 1 x 1 +w 2 x 2 +w 3 x 3 ), где f(x)=sign(x) Если f(x)=+1, то х принадлежит одному классу, если f(x)= -1 – другому. F(x) – кусочно-линейная биполярная пороговая функция х f(net)=0
Инициализируем веса w случайным образом – [0.75, 0.5, -0.6] Расчет выход первого образа F(net) 1 =f( )=f(0.65)=1 Т.к. значение F(net) 1 корректно настройка весовых коэффициентов не нужна. Значит W 2 =W 1. Для второго примера F(net )2 =f( )=f(9.65)=1 На выходе ожидалось – 1, следовательно необходимо подстроить веса сети. Примем r = 0.2. W 3 =W (-1-1) x 2 = Вычисляем выход сети для третьего примера с учетом новых весов F(net) 3 = f( ) = f (-12.84)= -1 Снова подстраиваем веса сети W 4 =W (-1-(-1)) x 3 =
Многослойная полносвязная НС или многослойный перцептрон (МП) слой X 1 X 2 X n... Скрытый Входы W nj W jm Выходной слой Выходы Y 1 Y 2 Y m смещение S jl Y jl S jl Y jl S jl Y jl
Работа многослойного перцептрона: S jl = w ijl x ijl, Y jl = F (S ji – b jl ), X ij(l+1) = Y il, где i – номер входа, j – номер нейрона в слое, l – номер слоя, x ijl – i-й входной сигнал j-го нейрона в слое l, w ijl – весовой коэффициент i-го входа нейрона номер j в слое l, S jl – сигнал S j – го нейрона в слое l, Y jl – выходной сигнал нейрона, b jl – пороговый уровень нейрона j в слое l. Введем обозначения w ijl – вектор-столбец веса для всех входов нейрона j в слое l, W l – матрица веса всех нейронов слоя l.
Ошибка сети Суммарная квадратичная ошибкаСредняя относительная ошибка. Алгоритм обучения МП - обратное распространение ошибки Определение. Алгоритм обратного распространения ошибки - это итерационный градиентный алгоритм, который используется с целью минимизации среднеквадратичного отклонения текущего выхода многослойного перцептрона и желаемого выхода.
Шаг 1. Инициализация веса и смещений. Веса w ij (k) и смещения w i0 (k) во всех слоях задаются случайным образом как малые величины, например, в интервале от -1 до +1. Шаг 2. Подача нового входного вектора X и соответствующего желаемого выходного вектора D. Шаг 3. Прямой проход – расчет фактического выхода. Вычисление выхода Y i (k) для i-го узла в k-м скрытом слое, k=1,…,K и Y i в выходном слое: где Y j (0) =X j
(w 1,w 2 ) (w 1 + w 1,w 2 + w 2 )
Шаг 4. Обратный проход – адаптация веса и порогов. Использование рекурсивного алгоритма, который начинает работать на выходных узлах и возвращается к первому скрытому слою: w ij (k) (t+1) = w ij (k) (t) + i (k) Y j (k-1) ( k=1,…,K+1). Для K=K+1 член i (k), который описывает ошибку, известен: i (K+1) = (D i -Y i ) Y i (1-Y i ) и его можно рекурсивно рассчитать для всех других случаев: i (k) = Y i (k) j j (k+1) w ij (k+1), (k=1,…,K). Отметим. Y i (k) (1-Y i (k) ) – производная функции активации Параметр обучения обычно выбирается в интервале от 0 до +1. Шаг 5. Возврат к шагу 2.
Производные других видов активационных функций Биполярная сигмоидная Y=1/2 (1-y 2 ) Гиперболический тангенс Y=th(S) Y=(1-y 2 ) Логарифмическая y= ln (S+[s 2 +1] 1/2 ) Y=1/ (S 2 +1) 1/2 В общем виде алгоритм обучения МП по методу обратного распространения ошибки: 1.Инициализация весов случайными значениями 2.Последовательно или случайно берется образ из обучающей выборки, для которого сначала производится прямой ход вычисления выходных значений, а затем обратный ход коррекции весов 3.Вычисляется текущая ошибка Е и сравнивается с требуемой E min, если E
Пример – одна из возможных реализаций функцииисключающее ИЛИ Z 1 1, f 1 Z 2 1,f 1 Z 2,f 2 y2y2 x1x1 x2x y21y21 y11y11 Где z i j – взвешенная сумма входов i-го нейрона j-го слоя; Y i j – выходной сигнал i-го нейрона j-го слоя x1x1x1x1 x2x2x2x2 y11y11y11y11 y21y21y21y21 y2y2y2y =0 (-1) 0+(-1) 0+1.5= = =1 (-1) 0+(-1) 0+1.5= = =1 (-1) 1+(-1) 0+1.5)= = =1 (-1) 1+(-1) 1+1.5= =0 -1.5
Возможности персептронов различной структуры Структура персептрона Область решения Исключающее ИЛИ Произвольно расположенные области Области наиболее общей формы Однослойна я Полуплос кость, ограничен ная гиперплос костью Двухслойная Выпуклые открытые или закрытые области Трехслойная Произвол ьной сложност и А А В В А АВ В А В ВА А В А В А В
Дельта правило обучения многослойного перцептрона. Дельта правило используется только с непрерывными, дифференцируемыми функциями в режиме обучения с учителем". Начальный вес любой. Коррекция выполняется пропорционально величине производной с данной координаты. Производная берется от функции активации. Подстройка веса j для нейрона i по формуле: w ij = [d i – f (net i ) ] f`( net i ) x j, где j = 1,2,…,n; >0 – коэффициент обучения подбирается эвристично для данной предметной области. Ошибка при обучении на шаге k: E k = 1/2 [d i – f (net i ) ] 2, где d i – ожидаемый выход. Общая ошибка при обучении: E=1/2p [d i – f (net i )] 2, где p число примеров в обучаемой выборке.