Лекция 4. Системы распознавания образов (идентификации) Перцептроны. Нейронные сети. История исследований, модель с обратным распространением ошибки.

Презентация:



Advertisements
Похожие презентации
Лекция 6. Нейронные сети Хопфилда и Хэмминга Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых.
Advertisements

Тема 10. Архитектура и алгоритмы обучения НС Основные парадигмы нейронных сетей обучения с учителем Однослойный перцептрон f f f х1.
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
Нейросетевые технологии в обработке и защите данных Обработка данных искусственными нейронными сетями (ИНС). Лекция 5. Алгоритмы обучения искусственных.
Лекция 5. Нейронные сети: обучение без учителя Главная черта, делающая обучение без учителя привлекательным, – это его "самостоятельность". Процесс обучения,
Ассоциативная память. Ассоциативная сеть прямого распространения. 1 X 1 Y 1 X 2 Y 2 X i Y i X n Y n 2 i n... Y j = i=1 N w ij x i, j=1,M (*)
Лекция 7: Метод потенциальных функций Предположим, что требуется разделить два непересекающихся образа V1 и V2. Это значит, что в пространстве изображений.
Сеть поиска максимума (MAXNET) Сеть поиска максимума с прямыми связями – слогослойная нейронная сеть определяющая, какой из входных сигналов имеет.
Кафедра фотоники и оптоинформатики Санкт-Петербургский государственный университет информационных технологий, механики и оптики А.В.Павлов Оптические Технологии.
© ElVisti Лекция 10 Основные сведения о нейронных сетях Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
10. 3 Повносвязные нейронные сети со смешанным обучением Нейронная сеть Хопфилда ( Hopfield Net)
Система управления РТК Основная задача системы управления роботом – автоматизация деятельности человека-оператора. Составные части: Система технического.
Автор: студент группы С-83 Потапенко Владимир Москва 2012 г.
10.2 Основные парадигмы нейронных сетей обучения без учителя Самоорганизующиеся карты признаков Кохонена (Self-organized map) Кохонена... Выходные.
10.2 Основные парадигмы нейронных сетей обучения без учителя Самоорганизующиеся карты признаков Кохонена (Self-organized map) Кохонена... Выходные.
Основы нейронных сетей Рязанов М.А.. Построение обученной нейросети.
Теория вычислительных процессов 4 курс, 8 семестр Преподаватель: Веретельникова Евгения Леонидовна 1.
Сети глубокого обучения. Локальное и нелокальное в пространстве признаков обучение Прототипом всякого локально-обучающего алгоритма является построение:
Моделирование и исследование мехатронных систем Курс лекций.
Лекция 9: Метод предельных упрощений (МПУ) По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО.
Транксрипт:

Лекция 4. Системы распознавания образов (идентификации) Перцептроны. Нейронные сети. История исследований, модель с обратним распространением ошибки.

Перцептроны Одним из методов решения задач обучения распознаванию образов основан на моделировании гипотетического механизма человеческого мозга. Структура модели заранее постулируется. При таком подходе уровень биологических знаний или гипотез о биологических механизмах является исходной предпосылкой, на которой базируются модели этих механизмов. Рис. 1

Перцептроны А-элементы соединены с реагирующими элементами R-элементами связями, коэффициенты усиления v которых переменны и изменяются в процессе обучения. Взвешенные комбинации выходов R-элементов составляют реакцию системы, которая указывает на принадлежность распознаваемого объекта определенному образу. совокупности сенсорных элементов S-элементов S-элементы случайним образом связаны с совокупностью ассоциативных элементов А- элементов, выход которых отличается от нуля только тогда, когда возбуждено достаточно большое число S-элементов.

Перцептроны Если распознаются только два образа, то в персептроне устанавливается только один R-элемент, который обладает двумя реакциями положительной и отрицательной. Если образов больше двух, то для каждого образа устанавливают свой R-элемент, а выход каждого такого элемента представляет линейную комбинацию выходов A-элементов: - реакция j-го R-элемента; - реакция i-го A-элемента; - вес связи от i-го A-элемента к j-му R-элементу; - порог j-го R-элемента. Аналогично записывается уравнение i-го A-элемента: (1) (2) Сигнал yk может быть непрерывним, но чаще всего он принимает только два значения: 0 или 1. Сигналы от S-элементов подаются на входы А-элементов с постоянними весами равними 1, но каждый А-элемент связан только с группой случайно выбранных S-элементов.

Перцептроны Предположим, что требуется обучить персептрон различать два образа V1 и V2. Будем считать, что в персептроне существует два R-элемента, один из которых предназначен образу V1, а другой образу V2. Перцептрон будет обучен правильно, если выход R1 превышает R2, когда распознаваемый объект принадлежит образу V1, и наоборот. Разделение объектов на два образа можно провести и с помощью только одного R-элемента. Тогда объекту образа V1 должна соответствовать положительная реакция R-элемента, а объектам образа V2 отрицательная.

Перцептрон обучается путем предъявления обучающей последовательности изображений объектов, принадлежащих образам V1 и V2. В процессе обучения изменяются веса vi А-элементов. В частности, если применяется система подкрепления с коррекцией ошибок, прежде всего учитывается правильность решения, принимаемого персептроном. Если решение правильно, то веса связей всех сработавших А-элементов, ведущих к R-элементу, выдавшему правильное решение, увеличиваются, а веса несработавших А-элементов остаются неизменними. Можно оставлять неизменними веса сработавших А-элементов, но уменьшать веса несработавших. В некоторых случаях веса сработавших связей увеличивают, а несработавших уменьшают. После процесса обучения персептрон сам, без учителя, начинает классифицировать новые объекты. Перцептроны

Если в персептроне допускаются лишь связи, идущие от бинарных S- элементов к A-элементам и от A-элементов к единственному R-элементу, то такой персептрон принято называть элементарним альфа-персептроном. Обычно классификация C(W) задается учителем. Перцептрон должен выработать в процессе обучения классификацию, задуманную учителем. Рис. 2. Элементарный -персептрон

Перцептроны. Теоремы О персептронах было сформулировано и доказано несколько основополагающих теорем, две из которых, определяющие основные свойства персептрона, приведены ниже. Теорема 1. Класс элементарных альфа-персептронов, для которых существует решение для любой задуманной классификации, не является пустим. Эта теорема утверждает, что для любой классификации обучающей последовательности можно подобрать такой набор (из бесконечного набора) А- элементов, в котором будет осуществлено задуманное разделение обучающей последовательности при помощи линейного решающего правила ).

Перцептроны. Теоремы Теорема 2. Если для некоторой классификации C(W) решение существует, то в процессе обучения a -персептрона с коррекцией ошибок, начинающегося с произвольного исходного состояния, это решение будет достигнуто в течение конечного промежутка времени. Смысл этой теоремы состоит в том, что если относительно задуманной классификации можно найти набор А-элементов, в котором существует решение, то в рамках этого набора оно будет достигнуто в конечный промежуток времени.

Перцептроны. Теоремы Обычно обсуждают свойства бесконечного персептрона, т. е. персептрона с бесконечним числом А-элементов со всевозможними связями с S-элементами (полный набор A-элементов). В таких персептронах решение всегда существует, а раз оно существует, то оно и достижимо в альфа-персептронах с коррекцией ошибок. Очень интересную область исследований представляют собой многослойные персептроны и персептроны с перекрестними связями, но теория этих систем практически еще не разработана.

Нейронные сети История исследований в области нейронных сетей Модель нейронной сети с обратним распространением ошибки (back propagation)

Нейронные сети. История исследований. Способность нейронной сети к обучению впервые исследована Дж. Маккалоком и У. Питтом. В 1943 году вышла их работа "Логическое исчисление идей, относящихся к нервной деятельности", в которой была построена модель нейрона, и сформулированы принципы построения искусственных нейронных сетей. Крупный толчок развитию нейрокибернетики дал американский нейрофизиолог Фрэнк Розенблатт, предложивший в 1962 году свою модель нейронной сети персептрон. В 1982 году американский биофизик Дж. Хопфилд предложил оригинальную модель нейронной сети, названную его именем. В последующие несколько лет было найдено множество эффективных алгоритмов: сеть встречного потока, двунаправленная ассоциативная память и др. В киевском институте кибернетики с 70-х годов ведутся работы над стохастическими нейронними сетями.

Модель нейронной сети с обратним распространением ошибки (back propagation) В 1986 году Дж. Хинтон и его коллеги опубликовали статью с описанием модели нейронной сети и алгоритмом ее обучения, что дало новый толчок исследованиям в области искусственных нейронных сетей. Нейронная сеть состоит из множества одинаковых элементов нейронов, поэтому начнем с них рассмотрение работы искусственной нейронной сети. Биологический нейрон моделируется как устройство, имеющее несколько входов (дендриты), и один выход (аксон). Каждому входу ставится в соответствие некоторый весовой коэффициент w, характеризующий пропускную способность канала и оценивающий степень влияния сигнала с этого входа на сигнал на выходе.

Модель нейронной сети с обратним распространением ошибки (back propagation) В зависимости от конкретной реализации, обрабатываемые нейроном сигналы могут быть аналоговими или цифровими (1 или 0). В теле нейрона происходит взвешенное суммирование входных возбуждений, и далее это значение является аргументом активационной функции нейрона, один из возможных вариантов которой представлен на Рис. 3.

Модель нейронной сети с обратним распространением ошибки (back propagation) Рис. 3. Искусственный нейрон Будучи соединенними определенним образом, нейроны образуют нейронную сеть. Работа сети разделяется на обучение и адаптацию. Под обучением понимается процесс адаптации сети к предъявляемим эталонним образцам путем модификации (в соответствии с тем или иним алгоритмом) весовых коэффициентов связей между нейронами. Заметим, что этот процесс является результатом алгоритма функционирования сети, а не предварительно заложенных в нее знаний человека, как это часто бывает в системах искусственного интеллекта.

Модель нейронной сети с обратним распространением ошибки (back propagation) Среди различных структур нейронных сетей (НС) одной из наиболее известных является многослойная структура, в которой каждый нейрон произвольного слоя связан со всеми аксонами нейронов предыдущего слоя или, в случае первого слоя, со всеми входами НС. Такие НС называются полносвязними. Когда в сети только один слой, алгоритм ее обучения с учителем довольно очевиден, так как правильные выходные состояния нейронов единственного слоя заведомо известны, и подстройка синаптических связей идет в направлении, минимизирующем ошибку на выходе сети. По этому принципу строится, например, алгоритм обучения однослойного персептрона.

В многослойных же сетях оптимальные выходные значения нейронов всех слоев, кроме последнего, как правило, не известны, и двух- или более сложный персептрон уже невозможно обучить, руководствуясь только величинами ошибок на выходах НС. Приемлемый вариант решения – распространение сигналов ошибки от выходов НС к ее входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Этот алгоритм обучения НС получил название процедуры обратного распространения. Именно он будет рассмотрен в дальнейшем. Модель нейронной сети с обратним распространением ошибки (back propagation)

Согласно методу наименьших квадратов, минимизируемой целевой функцией ошибки НС является величина: (3) где – реальное выходное состояние нейрона j выходного слоя N нейронной сети при подаче на ее входы p-го образа;– идеальное (желаемое) выходное состояние этого нейрона. Суммирование ведется по всем нейронам выходного слоя и по всем обрабатываемим сетью образам. Минимизация ведется методом градиентного спуска, что означает подстройку весовых коэффициентов следующим образом: (4) здесь– весовой коэффициент синаптической связи, соединяющей i-ый нейрон слоя n-1 с j-им нейроном слоя n; – коэффициент скорости обучения, 0 < < 1.

Модель нейронной сети с обратним распространением ошибки (back propagation) Как показано в [ Розенблатт Ф. Принципы нейродинамики (персептрон и теория механизмов мозга). ] Здесь под, как и раньше, подразумевается выход нейрона j, а под – взвешенная сумма его входных сигналов, то есть аргумент активационной функции. Так как множитель является производной этой функции по ее аргументу, из этого следует, что производная активационной функции должна быть определена на всей оси абсцисс. (5)

В связи с этим функция единичного скачка и прочие активационные функции с неоднородностями не подходят для рассматриваемых НС. В них применяются такие гладкие функции, как гиперболический тангенс или классический сигмоид с экспонентой. В случае гиперболического тангенса Третий множительочевидно, равен выходу нейрона предыдущего слоя (6) Модель нейронной сети с обратним распространением ошибки (back propagation)

Что касается первого множителя в (5), он легко раскладывается следующим образом: (7) Здесь суммирование по k выполняется среди нейронов слоя n+1. Введя новую переменную: (8) мы получим рекурсивную формулу для расчетов величинслоя n из величин более старшего слоя n+1. (9) Для выходного же слоя: (10)

Модель нейронной сети с обратним распространением ошибки (back propagation) Теперь мы можем записать (4) в раскрытом виде: (11) Иногда для придания процессу коррекции весов некоторой инерционности, сглаживающей резкие скачки при перемещении по поверхности целевой функции, (11) дополняется значением изменения веса на предыдущей итерации (12) где – коэффициент инерционности, t – номер текущей итерации.

Модель нейронной сети с обратним распространением ошибки (back propagation) Таким образом, полный алгоритм обучения НС с помощью процедуры обратного распространения ошибки строится так: 1. Подать на входы сети один из возможных образов и в режиме обычного функционирования НС, когда сигналы распространяются от входов к выходам, рассчитать значения последних. Напомним, что (13) где M – число нейронов в слое n-1 с учетом нейрона с постоянним выходним состоянием +1, задающего смещение; – i - ый вход нейрона j слоя n. где f() – сигмоид (14) (15) где – q-ая компонента вектора входного образа.

Модель нейронной сети с обратним распространением ошибки (back propagation) 2. Рассчитать для выходного слоя по формуле (10). Рассчитать по формуле (11) или (12) изменения весов слоя N. 3. Рассчитать по формулам (9) и (11) (или (9) и (12)) соответственно и для всех остальных слоев, n = N-1,..., Скорректировать все веса в НС (16) 5. Если ошибка сети существенна, перейти на шаг 1. В противном случае – конец.

Модель нейронной сети с обратним распространением ошибки (back propagation) Рис. 4

Модель нейронной сети с обратним распространением ошибки (back propagation) Сети на шаге 1 попеременно в случайном порядке предъявляются все тренировочные образы, чтобы сеть, образно говоря, не забывала одни по мере запоминания других. Алгоритм иллюстрируется Рис. 4 Из выражения (11) следует, что когда выходное значение yi(n-1) стремится к нулю, эффективность обучения заметно снижается. При двоичных входных векторах в среднем половина весовых коэффициентов не будет корректироваться[3], поэтому область возможных значений выходов нейронов [0,1] желательно сдвинуть в пределы [-0.5,+0.5], что достигается простими модификациями логистических функций. Например, сигмоид с экспонентой преобразуется к виду: (17)

Модель нейронной сети с обратним распространением ошибки (back propagation) Теперь коснемся вопроса ёмкости НС, то есть числа образов, предъявляемых на ее входы, которые она способна научиться распознавать. Для сетей с числом слоев больше двух, он остается открытим. Как показано в [4], для НС с двумя слоями, то есть выходним и одним скрытим слоем, детерминистская емкость сети Cd оценивается так: (18) где Nw – число подстраиваемых весов, Ny – число нейронов в выходном слое. Следует отметить, что данное выражение получено с учетом некоторых ограничений. Во-первых, число входов Nx и нейронов в скрытом слое Nh должно удовлетворять неравенству Nx+Nh>Ny. Во-вторых, Nw/Ny > Однако вышеприведенная оценка выполнялась для сетей с активационними функциями нейронов в виде порога, а емкость сетей с гладкими активационними функциями, например – (17), обычно больше.