Нейросетевые технологии в обработке и защите данных Обработка данных искусственными нейронными сетями (ИНС). Лекция 8. РАДИАЛЬНЫЕ БАЗИСНЫЕ СЕТИ 1
ОСОБЕННОСТИ ПРИМЕНЕНИЯ МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЕЙ Для распознавания объектов изображений по форме применяют, как правило, многослойные персептроны, обучающиеся на основе метода обратного распространения ошибки с импульсом и адаптивным шагом обучения, по параметрам – радиальные базисные сети. Теоретическим обоснованием возможности использования многослойной нейронной сети прямого распространения сигнала для распознавания образов изображений служит теорема Хехт–Нильсена, доказывающая представимость функции многих переменных общего вида с помощью такой сети с ограниченными сигмоидными функциями активации. 2
РАДИАЛЬНЫЕ БАЗИСНЫЕ СЕТИ Особое семейство нейронных сетей образуют сети с радиальной базисной функцией (РБФ-сети), в которых скрытые нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра с и принимающие ненулевые значения только в окрестности этого центра. Подобные функции, определяемые в виде называются радиальными базисными функциями 3
РАДИАЛЬНЫЕ БАЗИСНЫЕ СЕТИ В таких сетях роль скрытого нейрона заключается в отображении радиального пространства вокруг одиночной заданной точки либо вокруг группы таких точек, образующих кластер. Суперпозиция сигналов, поступающих от всех скрытых нейронов, которая выполняется выходным нейроном, позволяет получить отображение всего многомерного пространства. Сети радиального типа представляют собой естественное дополнение сигмоидальных сетей. 4
РАДИАЛЬНЫЕ БАЗИСНЫЕ СЕТИ Структура типичной радиальной сети включает входной слой, на который подаются сигналы, описываемые входным вектором x, скрытый слой с нейронами радиального типа и выходной слой, состоящий, как правило, из одного или нескольких линейных нейронов. Функция выходного нейрона сводится исключительно к взвешенному суммированию сигналов, генерируемых скрытыми нейронами. 5
Использование в разложении p базисных функций, где p – это количество обучающих выборок, недопустимо с практической точки зрения, поскольку количество этих выборок может быть велико, и в результате вычислительная сложность обучающего алгоритма может стать чрезмерной. Поэтому ищется субоптимальное решение в пространстве меньшей размерности, которое с достаточной точностью аппроксимирует точное решение. 6
Если ограничится K базисными функциями, то аппроксимирующее решение можно представить в виде (*), где K < p, а c i (i = 1, 2, …, K) – множество центров, которые необходимо определить. В особом случае, если принять K = p, то можно получить точное решение c i = x i. 7
Задача аппроксимации радиальной базисной сетью состоит в подборе соответствующего количества радиальных функций и их параметров, а также в таком подборе весов (i = 1, 2, …, K), чтобы решение уравнения (*) было наиболее близким к точному. 8
Проблему подбора параметров радиальных функций и значений весов сети можно свести к минимизации целевой функции, которую можно записать в такой форме:. В этом уравнении K представляет количество радиальных нейронов, а p – количество обучающих пар (x, t), где x – это входной вектор, а t – соответствующая ему ожидаемая величина. 9
Радиальная базисная функция Чаще всего в качестве радиальной функции применяется функция Гаусса. При размещении ее центра в точке с i она может быть определена как. В этом выражении i – параметр, от значения которого зависит ширина размаха функции. Архитектура радиальных сетей имеет структуру, аналогичную многослойной структуре сигмоидальных сетей с одним скрытым слоем 10
Архитектура радиальных сетей 11
Радиальная сеть имеет фиксированную структуру с одним скрытым слоем и линейными выходными нейронами, тогда как сигмоидальная сеть может содержать различное количество слоев, а выходные нейроны бывают как линейными, так и нелинейными. Одним из простейших, хотя и не самым эффективным, способом определения параметров базисных функций считается случайный выбор. В этом случае центры с i базисных функций выбираются случайным образом на основе равномерного распределения. Такой подход допустим применительно к классическим радиальным сетям при условии, что равномерное распределение обучающих данных хорошо соответствует специфике задачи. 12
Нейронные сети с радиальными базисными функциями находят применение как при решении задач классификации или аппроксимации функции многих переменных, так и при прогнозировании, то есть в тех прикладных областях, в которых сигмоидальные сети используются в течение многих лет. Они выполняют те же функции, что и сигмоидальные сети, однако реализуют иные методы обработки данных, связанные с локальными отображениями. Благодаря этой особенности обеспечивается значительное упрощение и, следовательно, ускорение процесса обучения. 13
Величина влияния или протяжения (spread) радиальной базисной функции определяет ширину «колпаков» гауссовых функций с центром в каждом обучающем наблюдении. Малая величина протяжения приводит к функции с резкими пиками и малой ошибкой аппроксимации, но такая сеть не способна к обобщению и может плохо аппроксимировать наблюдения контрольного множества. Процесс обучения радиальных базисных сетей включает две стадии: процесс настройки центров базисных функций и обучение нейронов в скрытом слое, поэтому РБФ-сети обучаются достаточно быстро. 14
АППРОКСИМАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ РБФ-СЕТИ Для создания сетей, используемых при аппроксимации экспериментальных данных, в пакете NNT системы MatLab имеются функции: net=newrbe(P,T,SPREAD) – для радиальной базисной сети с нулевой ошибкой, число нейронов радиального слоя которой совпадает с числом образов входа. Входными аргументами являются массивы входных векторов P и целей T, а также параметр влияния SPREAD, значение которого устанавливается тем большее, чем больший диапазон входных значений должен быть принят во внимание; 15
АППРОКСИМАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ РБФ-СЕТИ net=newrb(P,T,GOAL,SPREAD) – для радиальной базисной сети с аналогичными входными аргументами и параметром GOAL, допустимой среднеквадратичной ошибкой сети; net=newgrnn(P,T) – для обобщенно- регрессионной сети. 16
Обобщенно-регрессионные сети также имеют радиальные базисные слои с числом нейронов, равным числу элементов или менее обучающего множества, но в отличие от обычной РБФ-сети включают еще соответственно линейный и конкурирующий слои. Для обобщенно-регрессионной сети в качестве начального приближения матрицы весов второго линейного слоя выбирается целевой массив, на выходе формируется вектор, соответствующий среднему нескольких целевых векторов, связанных с входными векторами, близкими к данному вектору входа. 17
Величина влияния или протяжения (spread) или коэффициент сглаживания радиальной базисной функции определяет ширину «колпаков» гауссовых функций с центром в каждом обучающем наблюдении. Малая величина протяжения приводит к функции с резкими пиками и малой ошибкой аппроксимации, но такая сеть не способна к обобщению и может плохо аппроксимировать наблюдения контрольного множества. 18
АППРОКСИМАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ РБФ-СЕТИ Количество нейронов скрытого слоя после задания входных аргументов можно вывести на экран, если использовать операторы: net=newrb(P,T,GOAL,SPREAD); disp(net.layers{1}.size) Число входов нейронной сети определяется числом независимых переменных. Выходом сети, как правило, является скалярная величина – значение функции. В общем случае входные и выходные величины могут быть векторными. Если мерой отклонения служит средне- квадратичная ошибка, то полученная аналитическая зависимость называется линией регрессии. 19
Нейросетевое сглаживание геофизических данных В статье Васильева В. И. и Нугаева И. Ф. рассмотрена задача повышения точности измерений геофизических данных, используемых для формирования траектории ствола бурящейся нефтегазовой скважины, приведен пример сглаживания геонавигационных данных на основе синтезированной RBF-сети. В.И. Васильев - д.т.н., профессор, зав. кафедрой вычислительной техники и защиты информации, Уфимский государственный авиационный технический университет (УГАТУ) И.Ф. Нугаев - к.т.н., доцент кафедры «Промышленная электроника», УГАТУ 20
Одной из важнейших задач, решаемых при строительстве нефтегазовых скважин, является непрерывный контроль состояния забоя скважины. Для решения данной задачи выполняется непрерывное измерение ряда геофизических параметров, таких как азимутальный и зенитный углы касательной к траектории ствола скважины в точке забоя, уровень естественного радиационного фона, удельное электрическое сопротивление разбуриваемой породы и др. Особенностью измерения указанных параметров является наличие искажений и шумов измерений, вызываемых интенсивными ударно-вибрационными нагрузками, которые испытывают глубинные измерительные преобразователи в процессе бурения. 21
Постановка задачи Важнейшей задачей является оценка реальных геофизических параметров по данным, полученным в результате замеров. Способ оценки геофизических параметров основан на принципе сглаживания измеренных данных. 22
Проводится анализ ряда измерений, произведенных последовательно по длине траектории скважины: х изм (l i ), i =1,…, n, где х изм - измеренное значение параметра; l - длина траектории; i - номер замера. Задача сглаживания по отдельному параметру х имеет следующую постановку. Дано: ряд измерений х изм (l i ), содержащих в себе информацию о параметре х(l i ) и искажениях и шумах ɛ (t i ), вносимых при измерениях: х изм (l i ) = х(l i ) + ɛ (l i ), i =1,…, n. 23
Требуется: на основе измеренной последовательности х изм (l i ) реконструировать закон изменения оцениваемого параметра х(l) в форме непрерывной сглаживающей модели х сглаж (l). В результате, в качестве оцененных используются значения параметров, рассчитанные на основе сглаживающей модели: х сглаж (l i ) х(l i ), i =1,…, n. 24
Эффективным подходом к построению сглаживающей модели является использование обобщающих свойств нейронных сетей, таких как многослойный персептрон (Multi Layer Perceptron ) или радиально-базисная сеть (RBF-сеть) При этом одной из основных трудностей является неоднозначность решения, вызванная наличием в исходных данных неопределенной составляющей ɛ (t), что относит данную задачу к классу некорректных. Классическим подходом к преодолению данной проблемы является использование принципа регуляризации, заключающегося в учете некоторых априорных предположений о характере искомого решения 25
Принцип регуляризации Применительно к нейронным сетям принцип регуляризации сводится к ее обучению путем оптимизации критерия, представляющего собой взвешенную сумму двух критериев : J = J П + l J Р (х сглаж (l)), где J П - критерий правдоподобия (стандартная ошибка), представляющий собой сумму квадратов отклонений сглаженных данных х(l i ) от исходных х изм (l i ) : 26
Принцип регуляризации (х сглаж (l)) - регуляризирующий функционал, характеризующий степень отклонения модели от априорной гипотезы, в качестве которой, как правило, применяется гипотеза о максимальной гладкости модели х сглаж (l), значение функционала уменьшается по мере улучшения свойств гладкости модели. В простейшем случае критерий может представлять собой сумму квадратов весов синаптических связей сети; λ - параметр регуляризации, определяющий степень значимости составляющих J П и J Р критерия. 27
Принцип регуляризации Решением задачи регуляризации является линейная суперпозиция п функций Грина G(l, l i ), частным случаем которых является радиально-базисная функция : х сглаж (l) =, где G(l, l i ) - функция Грина (РБФ); w i - весовые коэффициенты. Очевидна естественность реализации решения на основе RBF-сети, традиционный подход к обучению которой связан с определением значений весов w i при априорно заданных функциях G(l, l i ) и параметре λ. 28 х сглаж (l) =,
Недостатки: 1) процедура регуляризации не предполагает выбора типа и параметров функций Грина (РБФ), чем существенно ограничивает обобщающую способность сети, другими словами, выбор сглаживающей модели ограничивается регуляризацией параметров модели априорно заданного класса, не используя возможности выбора самого класса моделей; 2)высокая чувствительность решения к значениям параметра регуляризации λ и связанная с этим необходимость привлечения критериев более высокого уровня, оценивающих относительную значимость критериев J П и J Р ; подходом к решению данной задачи является, например, байесовский, основанный на задании априорной плотности распределения весов связей нейросети или метод прогностической перекрестной оценки 29
Обобщенный алгоритм синтеза сглаживающей нейронной сети на основе многоуровневой регуляризации С целью более полного использования обобщающих способностей нейронной сети предлагается иерархическая процедура ее синтеза. Исходной информацией для синтеза является: множество сглаживаемых данных D и априорная (регуляризирующая) гипотеза h о характере искомой модели. Предлагаемая процедура синтеза включает в себя следующие этапы последовательного сужения множества моделей, которые могут быть реализованы на базе данного типа нейронной сети и выбора: множества классов моделей {M}; класса моделей М {M}; конкретной модели х сглаж (l) {M}; контроля адекватности модели х сглаж (l). 30
Обобщенный алгоритм синтеза сглаживающей нейронной сети на основе многоуровневой регуляризации Для реализации указанной процедуры введем кортеж Р иерархически ранжируемых параметров нейронной сети: Р = (Р 1, Р 2, Р 3 ), где Р 1 - параметры, задающие множество классов моделей {M} Р1, реализуемых данной нейронной сетью; Р 2 - параметры, задающие класс моделей M Р2 {M} Р1, реализуемых данной нейронной сетью при заданных значениях параметров Р 2 ; Р 3 - параметры, задающие модель х сглаж (l) {M} Р2, реализуемую данной нейронной сетью при заданных значениях параметров Р 1 и Р 2. 31
Структура сглаживающей RBF-сети Особенностью RBF-сети является наличие промежуточного слоя из радиально-базисных элементов (нейронов), каждый из которых воспроизводит гауссову поверхность отклика на основе радиально-базисной функции активации (РБФ). Поскольку РБФ нелинейны, то для моделирования сглаживающей функции произвольного вида достаточно одного промежуточного слоя сети. Выход RBF-сети формируется как линейная комбинация выходов нейронов скрытого слоя, т.е. выходной слой состоит из нейронов с линейными функциями активации. 32
Данная структура обеспечивает вычисление отклонения входа l i от центра t j, умножение полученной величины на параметр наклона РБФ b j и вычисление выходного значения РБФ по формуле: 33