Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемportal.tpu.ru
1 Лекция 6 по дисциплине «Искусственный интеллект и нейросетевое управление» тема: «Обучение нейронных сетей» Мамонова Татьяна Егоровна гр. 8291
2 1
3 Обучение нейронных сетей Рис. 1. Иллюстрация процесса обучения 2
4 Математическое описание процесса обучения В процессе функционирования нейронная сеть формирует выходной сигнал Y в соответствии с входным сигналом X, реализуя некоторую функцию Y=G(X). Если архитектура сети задана, то вид функции G определяется значениями синаптических весов и смещений сети. 3
5 Пусть решением некоторой задачи является функция Y=F(X), заданная парами входных-выходных данных (X1, Y1), (X2, Y2), …, (XN, YN), для которых Yk=F(Xk) (k=1,2,…, N). Обучение состоит в поиске (синтезе) функций G, близкой к F в смысле некоторой функции ошибки E (см. рис. 1). 4
6 Если выбраны множества обучающих примеров – пар (Xk, Yk), где (k=1,2,…, N) и способ вычисления функции ошибки E, то обучение нейронной сети превращается в задачу многомерной оптимизации, имеющую очень большую размерность, при этом, поскольку функция E может иметь произвольный вид, обучение в общем случае – многоэкстремальная невыпуклая задача оптимизации. 5
7 Под обучением ИНС понимается процесс настройки весовых коэффициентов w ij её базовых процессорных элементов, результатом чего является выполнение сетью конкретных задач – распознавания, оптимизации, аппроксимации, управления. Достижение подобных целей формализуется критерием качества Q, минимальное значение min w Q = Q* которого соответствует наилучшему решению поставленной задачи. 6
8 Многообразие алгоритмов обучения определяется функциональным назначение сети, её архитектурой и избранной стратегией обучения. Различают три основных стратегии обучения: «с учителем», «без учителя», т. е. с самообучением, смешанную. 7
9 Обучение «с учителем» – обучение ИНС, при котором нейросеть настраивается по заданной обучающей выборке в соответствии с принятым правилом или алгоритмом. При обучении «без учителя» заранее не требуется знать правильный результат обучения и в процессе настройки весовых коэффициентов образуется внутренняя структура активизированных базовых элементов, соответствующая предъявленному вектору входа сети. При смешанной стратегии обучения часть весовых коэффициентов w ij настраивается по заданной обучающей выборке, а друга – в соответствии с правилами обучения «без учителя». 8
10 Одно- и многослойные сети обучаются по первой стратегии ( «с учителем») для решения задач классификации, аппроксимации и управления. Самообучение используется в сетях Хопфилда, самоорганизующихся картах (сетях) Кохонена, сетях ART (adaptive resonance theory, адаптивная теория резонанса); Смешанная стратегия обучения применяется в RBF-сетях (с радиально-базисными функциями активации). 9
11 Общим для всех модификаций алгоритмов является их рекуррентный характер, а сами алгоритмы обучения представляют собой линейные или чаще нелинейные дифференциальные (или разностные) уравнения первого порядка, составленные по определенному правилу. Эти правила имеют эвристический характер, не всегда вытекающие из принципов функционирования бионейронов и нервной сети живого организма. Наибольшее распространение получили следующие правила обучения ИН: правило Хебба; δ-правило; обучение с «конкуренцией» или методом сравнения; ART-правило (обучение «без учителя»); «больцманово» обучение. 10
12 Правило Хебба Правило Хебба – первая предложенная концепция обучения нейросети «без учителя». В соответствии с ней весовые коэффициенты w ij синаптических связей увеличиваются, если активированы (возбуждены) оба базовых элемента – источник возбуждения и приемник сигнала возбуждения. Тем самым регулярно используемые входы и синаптические связи активируются за счет увеличения «своих» весовых коэффициентов в большей степени, чем остальные нейронные сети. 11
13 Модель обучения Хебба дает объяснение способности нейросети к привыканию и обучению этой способности через повторение. Правило или алгоритм Хебба записывается следующим образом: где w ij (k) – значение весового коэффициента, изменяющегося от нейрона i к нейрону j до настройки; w ij (k+1) – то же, но после настройки; qi, q j – выходы нейронов i, j соответственно; γ>0 – коэффициент «усиления» алгоритма; k=0, 1, 2, …. 12
14 Важной особенностью правила Хебба является то, что изменения синаптических весов wij(k) зависят только от активности базовых элементов, связанных между собой данным синапсом. Правило Хебба может быть применено для обучения простых сетей типа мадалины, рекуррентных сетей Хопфилда. Оно положило начало процессу «конструирования» множества подобных правил обучения нейросетей «без учителя» и, в частности, на этом пути был получен удачный алгоритм обучения «с конкуренцией» 13
15 Обучение «конкуренцией» Обучение «конкуренцией» в отличие от правила Хебба, по которому может возбуждаться одновременно множество базовых элементов выходного слоя, предусматривает «соревнование» этих элементов за право активации. Такая стратегия получила название «победитель берет все». После активации в процессе настройки изменяются лишь «победившие» элементы. Известно, что такая же стратегия обучения присуща биологическим нейронным сетям в отличие от обучения по δ-правилу. Обучение «с конкуренцией» используется в ART-сетях, сетях Кохонена для решения задач классификации зрительных, звуковых образов, сжатия данных, кластеризации и котегоризации внутри класса. 14
16 δ-правило δ-правило реализует стратегию обучения «с учителем» или супервизорное обучения. «Учитель» – это целевой, желаемый выход базового элемента типа перцептрона u* а q – реальный выход. Для настройки весовых коэффициентов базовых элементов используется ошибка обучения δ=u*-q в алгоритме градиентного спуска: где r i – вход i-й синаптической связи базового элемента. Обобщение δ-правила на многослойные нейросети приводит к методу обратного распределения ошибки – методу обратного распространения ошибки ВР. 15
17 Алгоритмы обучения ИНС алгоритмы локальной оптимизации с вычислением частных производных первого порядка: градиентный алгоритм (метод скорейшего спуска), методы с однородной и двумерной оптимизацией целевой функции в направлении антиградиента, методы сопряженных градиентов, методы, учитывающие направление антиградиента на нескольких шагах алгоритма; 16
18 алгоритмы локальной оптимизации с вычислением частных производных первого и второго порядка: метод Ньютона, методы оптимизации с разреженными матрицами Гессе, квазиньютоновские методы, метод Гаусса-Ньютона, метод Левенберга-Марквардта и др.; 17
19 стохастические алгоритмы оптимизации: поиск в случайном направлении, имитация отжига, методы Монте-Карло (численный метод статистических испытаний); алгоритмы глобальной оптимизации (задачи глобальной оптимизации решаются с помощью перебора значений переменных, от которых зависит целевая функция). 18
20 Алгоритм обратного распространения Является самым распространённым алгоритмом обучения ИНС. Это итеративный градиентный алгоритм обучения, который используется с целью минимизации среднеквадратического отклонения текущего выхода от желаемого выхода в многослойных нейронных сетях. Алгоритм действует циклически (итеративно), и его циклы принято называть эпохами. 19
21 На каждой эпохе на вход сети поочередно подаются все обучающие наблюдения, выходные значения сети сравниваются с целевыми значениями и вычисляется ошибка. Значение ошибки, а также градиента поверхности ошибок используется для корректировки весов, после чего все действия повторяются. Начальная конфигурация сети выбирается случайным образом, и процесс обучения прекращается либо когда пройдено определенное количество эпох, либо когда ошибка достигнет некоторого определенного уровня малости, либо когда ошибка перестанет уменьшаться (пользователь может сам выбрать нужное условие остановки). 20
22 Пошаговое описание алгоритма обратного распространения Шаг 1. Весам сети присваиваются небольшие начальные значения. Шаг 2. Выбирается очередная обучающая пара (X, Y) из обучающего множества; вектор X подаётся на вход сети. Шаг 3. Вычисляется выход сети. Шаг 4. Вычисляется разность между требуемым (целевым, Y) и реальным (вычисленным) выходом сети. 21
23 Шаг 6. Шаги со 2-го по 5-й повторяются для каждой пары обучающего множества до тех пор, пока ошибка на всем множестве не достигнет приемлемой величины. Шаги 2 и 3 подобны тем, которые выполняются в уже обученной сети. Вычисления в сети выполняются послойно. На шаге 3 каждый из выходов сети вычитается из соответствующего компонента целевого вектора с целью получения ошибки. Эта ошибка используется на шаге 5 для коррекции весов сети. 22
24 Недостатки алгоритма обратного распределения 1) невысокая скорость сходимости (большое число итераций), 2) возможность сходимости не к глобальному, а к локальному решению, 3) возможен паралич сети, при котором большинство нейронов функционирует при очень больших значениях аргумента функции активации, то есть на ее пологом участке. Для устранения этих недостатков были предложены многочисленные модификации алгоритма обратного распространения, которые связаны с использованием различных функций ошибки, различных процедур определения направления и величины шага и т. п. 23
25 Спасибо за внимание
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.