Нейросетевые технологии в обработке и защите данных Лекция 4. Обработка данных искусственными нейронными сетями (ИНС). Формальный нейрон. Функции активации 1
Нейронные искусственные сети, успешно применяемые для решения задач классификации, прогнозирования и управления, обеспечивают предельное распараллеливание алгоритмов, соответствующих нейросетевой технологии обработки данных. 2
Нейрокомпьютеры как новый класс устройств вычислительной техники являются модельным отображением особенностей, присущих процессам переработки информации в живых организмах, таким как самоорганизация, обучение, адаптация. Возможности нейронных сетей, недоступные для традиционной математики, позволяют создавать системы для решения задач управления, распознавания образов, диагностики заболеваний, автоматического анализа документов и многих других приложений. 3
Создание первых ИНС Первые шаги в области искусственных нейронных сетей были сделаны В. Мак-Калахом и В. Питсом, которые показали в 1943 г., что с помощью пороговых нейронных элементов можно реализовать исчисление логических функций для распознавания образов. В 1949 г. Дональдом Хеббом было предложено правило обучения, ставшее основой для обучения ряда сетей, а в начале шестидесятых годов Ф. Розенблатт исследовал модель нейронной сети, названной им персептроном. 4
Исследование ИНС Анализ однослойных персептронов, проведенный М. Минским и С. Пайпертом в 1969 г., показал присущие им ограничения, связанные с невозможностью представления «исключающего или» такими сетями, что сыграло негативную роль для дальнейшего развития исследований в области нейронных сетей. 5
Возрождение ИНС В восьмидесятые годы возрождается интерес к искусственным нейронным сетям в связи с разработкой методов обучения многослойных сетей. Джон Хопфилд исследовал устойчивость сетей с обратными связями и в 1982 г. предложил их использовать для решения задач оптимизации. В это же время Тео Кохонен предложил и исследовал самоорганизующиеся сети, а метод обратного распространения ошибки стал мощным средством обучения нейронных сетей. 6
Нейромодули Основой реализации искусственных нейронных сетей служат вычислительные архитектуры с высокой степенью параллелизма, состоящие из большого числа процессорных элементов, связанных между собой и отличающихся возможностью адаптации к внешней среде. Примером физической реализации цифровых нейрочипов является одна из последних разработок российских специалистов НТЦ «Модуль» – нейронный модуль NM6404 7
Neural Network Toolbox (NNT) В качестве инструмента для расчета и проектирования нейронных сетей при решении задач лабораторного практикума выбран пакет прикладных программ фирмы MathWorks Neural Network Toolbox (NNT), функционирующий под управлением ядра системы MATLAB. Пакет NNT отличается возможностью демонстрации, создания и использования многослойных персептронов, линейных и радиальных базисных сетей, самоорганизующихся и рекуррентных сетей, а также проектирования систем управления динамическими процессами. 8
ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ Основным элементом искусственной нейронной сети является нейронный элемент или формальный нейрон, осуществляющий операцию нелинейного преобразования суммы произведений входных сигналов на весовые коэффициенты. 9
НЕЙРОННЫЙ ЭЛЕМЕНТ Связи, по которым выходные сигналы одних нейронов поступают на входы других, часто называют синапсами по аналогии со связями между биологическими нейронами. Каждая связь характеризуется своим весом. Связи с положительным весом называются возбуждающими, а с отрицательным тормозящими. Нейрон имеет один выход, часто называемый аксоном по аналогии с биологическим прототипом. С единственного выхода нейрона сигнал может поступать на произвольное число входов других нейронов. Схема искусственного нейрона приведена далее. 10
Схема искусственного нейрона 11
Элементы искусственного нейрона 1- нейроны, выходные сигналы которых поступают на вход (x i ), w i веса входных сигналов 2- сумматор входных сигналов, умноженных на их весовые коэффициенты; 3- вычислитель передаточной функции (функции активации); 4- нейроны, на входы которых подается выходной сигнал данного нейрона. Нейрон имеет один выход, часто называемый аксоном по аналогии с биологическим прототипом. С единственного выхода нейрона сигнал может поступать на произвольное число входов других нейронов. 12
Уровень возбуждения нейронного элемента равен или в векторном виде S=X W. Взвешенная сумма S представляет собой скалярное произведение вектора весов на входной вектор:, где |w|, |x| – длины векторов W и X соответственно, а α – угол между этими векторами. В большинстве случаев функции активации является монотонно возрастающей и имеет область значений [1, 1] или [0, 1], однако существуют исключения. Искусственный нейрон полностью характеризуется своей передаточной функцией. Использование различных передаточных функций позволяет вносить нелинейность в работу нейрона и в целом нейронной сети. 13
ФУНКЦИИ АКТИВАЦИИ НЕЙРОННЫХ ЭЛЕМЕНТОВ Наиболее распространенными функциями активации, нелинейными усилительными характеристиками нейронного элемента или передаточными функциями являются следующие: пороговая, сигнум, логистическая, гиперболический тангенс, линейная, радиальная базисная и др. 14
Пороговая бинарная функция Для пороговой бинарной функции нейронный элемент остается неактивным до достижения входом порогового значения S 0. 15
Сигнум Если S 0 =0, то бинарная пороговая функция называется единичной функцией активации с жестким ограничением (hardlim(S)). Сигнум, или модифицированная пороговая функция, для которой значение S 0 =0 задается уравнением 16
Сигнум 17
Сигмоидная логистическая функция Сигмоидная логистическая функция (S-образная, имеющая две горизонтальные асимптоты и одну точку перегиба) является возрастающей сжимающей функцией, значения которой принадлежат интервалу (0; 1) где с > 0 – коэффициент, характеризующий крутизну логистической функции, усиливающей слабые сигналы (logsig(S)). 18
Сигмоидная логистическая функция 19
Биполярная логистическая функция Биполярная логистическая функция уравнение которой принимает значения в диапазоне (-1; 1). 20
Биполярная логистическая функция 21
Гиперболический тангенс аналогичен биполярной логистической функции без смещения и является симметричной функцией (tansig(S)): 22
Гиперболический тангенс 23
Линейная функция Линейная функция активации, уравнение которой Y(s) = k s, где k – угловой коэффициент наклона прямой, представлена далее (purelin(S)). 24
Линейная функция 25
Радиально-базисная функция Радиально-базисная функция активации (radbas(S)) характеризуется функцией Гаусса для нормального закона распределения, в соответствии с которой: где – cреднеквадратичное отклонение, характеризующее крутизну радиально-базисной функции. Величина s определяется в соответствии с евклидовым расстоянием между входным и весовым векторами: 26
Радиально-базисная функция 27
Многомерные радиальные распределения позволяют производить многомерный анализ путем сведения его к анализу одномерных симметричных распределений, таких как многомерное нормальное распределение или равномерное в шаре с центром в начале координат 28