Искусственные нейронные сети
1. Формальный нейрон Большинство моделей основывается на схеме формального нейрона У.С. Мак-Каллока и У.Питтса (1943 гол), согласно которой нейрон представляет собой пороговый элемент (Рис.1). На входах нейрона имеются возбуждающие и тормозящие синапсы, в нейроне определяется взвешенная сумма (с учетом весов синапсов) входных сигналов, при превышении этой суммой порога нейрона вырабатывается выходной сигнал. Рис. 1. Схема формального нейрона. X i - входные сигналы, Y - выходной сигнал нейрона.
Работа формального нейрона (Рис.1) может быть описана уравнениями: Y j =F(net j -K j ), (1) net j =Σ i w ji X i, (2) где j – номер нейрона в сети, X i – входные сигналы, Y j - выходной сигнал нейрона, w ji – веса синапсов, net j – с уммарно е входное воздействие на нейрон, K j – порог нейрона, F(.) – активационная функция. Активаниониая функция характеризует реакцию нейрона на входное воздействие net j, она может быть пороговой: F(а)= 0, при а0, (3) или некоторой непрерывной, например, линейной: F(a) = ka (3a) или логической: F(a) = 1 / [1+exp(-a)] (3b)
В зависимости от реализуемого алгоритма на допустимые значения входов и выходов нейрона накладываются определенные ограничения: значения X i и Y j могут бинарными (т.е. равными 0 или 1), бинарными биполярными (+1 или -1), принадлежащими интервалу (0,1), неотрицательными или действительными. Аналогичные ограничения накладываются на веса синапсов нейронов w ji.
2. Перцептон Перцептон состоит из элементов 3-х типов: S - элементов, А - элементов и R - элемента (Рис.2). S - элементы это - слой рецепторов. Эти рецепторы соединены с, А - элементами с помощью тормозных или возбуждающих связей. Каждый рецептор может находиться в одном из двух состояний - покоя или возбуждения. А - элементы представляют собой сумматоры с порогом (т.е. формальные нейроны). Это означаем, что А - элемент возбуждается, если алгебраическая сумма возбуждений, приходящих к нему от рецепторов, превышает определенную величину - его порог. При этом сигнал от рецептора, приходящий по возбуждающей связи, считается положительным, а приходящий по тормозной связи отрицательным. Сигналы от возбудившихся А - элементов передаются в сумматор R, причем сигнал от i-го ассоциативного элемента передастся с коэффициентом k i.
Система связей между рецепторами S и А - элементами, так же как и пороги A - элементов выбираются некоторым случайным, но фиксированным образом, а обучение состоит лишь в изменении коэффициентов k i. Считаем, что мы хотим научить перцептрон разделять два класса объектов, и потребуем, чтобы при предъявлении объектов первого класса выход перцептрона был положителен, а при предъявлении объектов второго класса отрицательным. Начальные коэффициенты k i полагаем рапными нулю. Далее предъявляем обучающую выборку: объекты (например, круги либо квадраты) с указанием класса, к которым они принадлежат. Показываем перцетрону объект первого класса. При этом некоторые А - элементы возбудятся. Коэффициенты k i, соответствующие этим возбужденным элементам, увеличиваем на 1. Затем предъявляем объект второго класса и коэффициенты k i тех А - элементов, которые возбудятся при этом показе, уменьшаем на 1. Этот процесс продолжим Для всей обучающей выборки. В результате обучения сформируются значения весов связей k i.
После обучения перцептрон готов работать в режиме распознавания. В этом режиме перцетрону предъявляются "не знакомые" перцентрону объекты, и перцептрои должен установить, к какому классу они принадлежат. Работа перцептроиа состоит в следующем: при предъявлении объекта возбудившиеся А - элементы передают сигнал R - элементу, равный сумме соответствующих коэффициентов ki. Если эта сумма положительна, то принимается решение, что данный объект принадлежит к первому классу, а если она отрицательна - то второму. Исследования перцептронов показали, что перце троны способны обучаться, хотя способности их обучения довольно ограничены. Справедлива теорема о сходимости перуептрона, согласно которой независимо от начальных значений коэффициентов и порядки показа образцов при обучении перцептрон за конечное число шагов научится различать два класса объектов, если только существуют такие значения. Подчеркнем, что теорема ничего не говорит о том, какие классы могут быть разделены. Исследования также показали, что слабые стороны перцентрона (в частности большое время обучения) в значительной степени связаны со случайностью святей между его элементами. Однако эта конструктивная особенность обеспечивает перцентрону и положительное качество надежность: выход из строя заметного числа элементов перце трона слабо сказывается на качестве его работы (Рис.3).
Рис.3. Повеление перцептрона при выходе из строя ассоциативных элементов. По оси ординат - процент правильных ответов, по оси абсцисс - доля выключенных ассоциативных элементов. Схематично.
3. Ассоциативная память Различают автоассоциативную и гетероассоцнативную память. В обоих случаях имеется режим записи и режим воспроизведения. В случае автоассоциапитной памяти при записи происходит запоминание набора эталонных образов, задаваемых векторами Х k, k=1,2,...,n; а при воспроизведении по искаженному образу X j + δХ (X j - один из эталонов, δХ - вектор, характеризующий искажение) восстанавливается эталон Х j. В случае гетероассоциативиой памяти нейронная сеть при записи запоминает отображение Х k -->Y k между векторами Х k и Y k, k=1,2,..,n; при воспроизведении предъявляется один из эталонных векторов X j (возможно несколько искаженный), и с помощью нейронной сети восстанавливается парный ему вектор Y j.
4. Сеть Хопфилда Допустим, что имеется некоторая физическая система, имеющая множество устойчивых особых точек: Х 1, Х 2,... Эти точки могут рассматриваться как память устройства, реализуемого физической системой. Начиная с некоторой точки X j + δХ (X j -один из эталонов, δХ - вектор, характеризующий искажение), при малом δХ мм придем к X j. Это вариант автоассоциативной памяти, в которой запомненный образ восстанавливается по искаженному образу. Удобно построить физическую систему, имеющую локальные минимумы энергии, соответствующие устойчивым особым точкам. Для того чтобы систему можно было бы рассматривать как намять, нужно иметь большое число локальных минимумов. Пример физической системы с большим числом локальных минимумов энергии спиновые стекла, т.е. система спинов, матрица обменных взаимодействий между которыми стохастичиа. В |7] Хопфилд строит модель нейроподобной ассоциативной памяти, допускающую проведение явных аналогий со спиновыми стеклами. Опишем в общих чертах эту модель
4.1. Схема нейросети Схема нейроссти по Хопфилду показана на Рис.4. Сеть состоит из N нейронов, все нейроны связаны со всеми, каждая связь характеризуется своим весом w ji, матрица весов предполагается симметричной : w ji= w ij. Считаем, что N>>1.
Рис.4. Схема нейронной сети по Хофилду. - нейроны, - синапсы Состояние нейронной сети характеризуется вектором X = Х 1, Х 2,...,X N, Каждый нейрон может находиться в двух состояниях Xi=0 - покой, Xi=1 - возбужденное состояние, i - номер нейрона.
4.2. Режим записи и режим воспроизведения В режиме записи формируется матрица связей между нейронами w ij, равная w ij= Σ k (2X ki -1)(2X kj -1), k=1,2,…, (4) при i j, w ij=0 - запоминаемые бинарные векторы, n - число запоминаемых паттернов. Эталоны предполагаются случайными, компоненты векторов X ki компоненты выбираются равными 0 либо 1 с равной вероятностью : р{ X ki =0 } = р{ X ki = 0}=0,5. Отметим, что ( 2X ki -1 )= +1 либо -1.
В процессе воспроизведения нейронная сеть функционирует в дискретном времени. Работа нейронной сети происходит в так называемом ассинхоронном режиме, т. е. в один такт времени только один нейрон может изменить свое состояние. Нейрон, которому разрешено менять состояние, выбирается стохастически. При этом нейроны работают как нейроны Мак-Каллока и Питтса с пороговой активационной функцией. А именно, полагаем: X j (t+1)=1 при net j >0 и X j (t+1)=0 при net j
Работу нейронной сети в режиме воспроизведения можно рассматривать как динамическую систему. Покажем, что если число эталонов не слишком высоко, то эталоны соответствуют устойчивым состояниям (особым точкам) рассматриваемой динамической системы. Оценим величину net sj= Σ i w ji X si (t), (7) где X si (t)- компоненты какого-либо эталонного вектора. С учетом (4) имеем: net sj = Σ k ( 2X ki -1)[ Σ i ( 2X kj -1) X si (t)]. (8) В силу случайности эталонов среднее значение величины в квадратных скобках равно 0 при sk и равно N/2 при s=k. Следовательно, в силу такой псевдоортогональности имеем: net sj ( 2 X s j -1 )N/2(9) Итак, имеем: net sj > 0 при X s j =1 и net sj < 0 при X s j = 0. Следовательно, в пренебрежении шумом, возникающим от случайных флуктуации, запомненные эталоны устойчивы.
4.3 Минимизация энергии нейронной сети Определим "энергию" нейронной сети как E= - 0,5 Σ ij w ji X i X j, i j (10) Так как w ji= w ij, то изменение энергии, обусловленное текущим изменением состояния нейрона, равно E= - X j Σ ij w ji X i = - X j net j, i j (11) В силу (5) E0. Таким образом, алгоритм изменения состояний нейронов приводит к монотонному уменьшению энергии. Состояния изменяются до тех пор. пока не будет достигнут локальный минимум энергии. Энергия играет роль функции Ляпунова для рассматриваемой динамической системы. Из (9), (11) следует, что эталоны соответствуют минимумам энергии Е.
5. Метод обратного распространения ошибок Предполагается, что нейронная сеть имеет многослойную структуру (Рис.5). Нейроны сети представляют собой формальные нейроны с логической активационной функцией (см. формулу (Зb)). Сеть не имеет обратных связей: при вычислении выхода нейронной сети по ее входу сигналы нейронов передаются от слоя к слою, слева направо. Схема такой сети напоминает перцептрон (Рнс.2). Иногда се так и называют "обобщенный перцептрон".
Рис.5. Схема нейронной сети, используемой в методе обратного распространения ошибок. Стрелками показано направление движения сигналов в процессе расчета выхода нейронной сети. При коррекции весов синапсов сигналы перемешаются в обратом направлении.
Нейронная сеть фактически реализует функцию гетероассоциативиой памяти. Имеется режим обучения и режим воспроизведения. В режиме обучения нейронная сеть запоминает отображение Хk-->Yk между векторами Х k и Y k, k=1,2,..,n; при воспроизведении предъявляется один из эталонных векторов Xj (возможно несколько искаженный), и с помощью нейронной сети восстанавливается парный ему вектор Yj. Режим воспроизведения фактически тривиален: на вход нейронной сети поступают входные векторы X и в процессе функционирования формальных нейронов вычисляется выходной вектор Y Обучение многослойной нейронной сети осуществляется путем оптимизации весов синапсов методом градиентного спуска. Это обучение может быть представлено как последовательность следующих операций: 1. Выбрать очередную пару векторов Хк и Yk из обучающей выборки. 2. Вычислить выход сети Y. 3. Вычислить разность между выходом сети Y и требуемым выходным вектором Yk (целевым вектором обучающей пары). Т.е. определить ошибку нейронной сети.
4. Подкорректировать веса сети w ji так, что бы минимизировать ошибку. 5. Повторять шаги с 1 по 4 для каждой пары обучающей выборки до тех пор, пока ошибка не достигнет приемлемого уровня. Все вычисления производятся послойно: в процессе расчета выхода нейронной сети по входу расчет идет слева направо, при корректировке весов рассчитываются всех нейронов и по этим ошибкам корректируются веса нейронов, при этом ошибки как бы "распространяются" в обратном направлении - справа налево. Процедура коррекции весов описана в многочисленной литературе. Здесь мы не будем воспроизводить ее, отметим только, что фактически коррекция весов означает минимизацию ошибки нейронной сети, а поиск минимума ошибки производится методом градиентного спуска.
Таким образом, в настоящее время активно продолжаются исследования нейронных сетей. Отметим, что, несмотря на все экономические трудности, работы по нейронным сетям в нашей стране активно продолжаются. В Москве уже более 20 лет под руководством В.Л. Дунина-Барковского ежемесячно проводится семинар по нейронным сетям. На базе этого семинара сформирована Российская ассоциация нейроинформатикн, объединяющая энтузиастов- нейросетевиков. Ассоциащчя имеет широкие международные связи, под эгидой ассоциации проведен ряд конференций, симпозиумов, выставок, совещаний. Необходимо подчеркнуть, что современные исследования нейронных сетей характеризуются внедрением в нейроинформатику высокоэффективных математических методов, заимствованных из статистической физики, синергетики, теории вероятностей, дифференциальной геометрии.
Необходимо максимально полно понимать работу биологических систем обработки информации и свойств организмов, обеспечиваемых этими системами. Одним из важных направлений исследований, способствующих такому пониманию, может быть анализ того, как в процессе биологической эволюции возникали "интеллектуальные" свойства биологических организмов. По- видимому, наиболее интересные исследования, направленные на изучение интеллектуальных свойств биологических организмов, ведутся сейчас в направлениях исследований "Искусственная жизнь" и "Адаптивное поведение"