Моделирование когнитивной эволюции – перспективное направление исследований на стыке биологии и математики Центр оптико-нейронных технологий НИИ системных исследований РАН Редько Владимир Георгиевич
План доклада 1. Задача моделирования когнитивной эволюции 2. Модели адаптивного поведения – задел исследований когнитивной эволюции 3. Примеры моделей адаптивного поведения 3.1. Модели мозга и поведения в Институте нейронаук, руководимом Дж. Эдельманом 3.2. Модель поискового поведения 4. Начальные шаги моделирования когнитивной эволюции 5.Перспективы
Задача моделирования когнитивной эволюции Когнитивная эволюция – эволюция познавательных способностей биологических организмов Как моделировать когнитивную эволюцию? Как это моделирование связано с теорией познания, с основаниями науки, с основаниями математики? Каков задел исследований когнитивной эволюции? Каковы перспективы моделирования когнитивной эволюции?
Гносеологическая проблема Почему логический вывод, сделанный человеком, применим к реальному объекту в природе? Математики доказывают теоремы. Почему результаты, полученные формальным логическим путем, применимы к физическим объектам в природе?
Кто думал над такими вопросами Иммануил Кант – провел исследование познавательных процессов в приближении фиксированного мышления взрослого человека («Критика чистого разума», 1781 г.) Конрад Лоренц – от кантовской доктрины априорного к эволюционной теории познания (1941 г.)
Может ли человек познавать законы природы? « … хотя вначале это звучит странно, но, тем не менее, верно, если я скажу: рассудок не черпает свои законы (a priori) из природы, а предписывает их ей» И. Кант. Пролегомены ко всякой будущей метафизике, могущей появиться как наука, 1783 г. «Не были бы законы разума, необходимые для априорного мышления, иными, если бы они сформировались иным историческим способом и если бы мы, следовательно, были оснащены иным типом нервной системы? И вообще, возможно ли, чтобы законы нашего когнитивного аппарата не были связаны с законами реального внешнего мира?» К. Лоренц. Кантовская доктрина априорного в свете современной биологии, 1941 г.
Иммануил Кант Конрад Лоренц
Конрад Лоренц и его гусята
Подход к исследованию гносеологической проблемы Исследовать происхождение логического мышления путем построения математических и компьютерных моделей когнитивной эволюции. Проследить весь путь биологической эволюции от простейших до человека, анализируя c помощью моделей, как на этом пути возникали свойства познания закономерностей природы в результате развития систем управления адаптивным поведением организмов. Разумно использовать задел направлений исследований «Адаптивное поведение»
Проблема происхождения мышления
Аналогия Математик (при доказательстве теорем): правило modus ponens: «если имеет место А, и из А следует В, то имеет место В», или {А, A --> B} => B Собака (после выработки условного рефлекса): {УС, УС --> БС} => БС УС – условный стимул, БС – безусловный стимул
Правила логического вывода достаточно хорошо формализованы Математическая теория логического вывода (под ред. А.В. Идельсона и Г.Е. Минца). М.: Наука, В основе этих правил – элементарные правила, такие как modus ponens Пример исследования: Генцен Г. Исследования логических выводов. Непротиворечивость чистой теории чисел // Математическая теория логического вывода. М.: Наука, С. 9-76,
Попытка пересмотра оснований математики Анализ возможности построения предиктивных логических процессов в контексте теории множеств и кибернетического подхода к обоснованию математики: Turchin V.F. A constructive interpretation of the full set theory // Journal of Symbolic Logic, V. 52. No. 1. PP В.Ф. Турчин. Феномен науки: Кибернетический подход к эволюции – М.: Наука, 1993 (1-е изд.). М.: ЭТС, 2000 (2-е изд.).
Модели адаптивного поведения – задел исследований когнитивной эволюции
Адаптивное поведение From Animal to Animat – модели адаптивного поведения животного и робота Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон) Основной подход – конструирование и исследование искусственных (в виде компьютерной программы или робота) «организмов» (аниматор, агентов), способных приспосабливаться к внешней среде ANIMAL + ROBOT = ANIMAT Программа-минимум – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде Программа-максимум – попытаться проанализировать эволюцию когнитивных (познавательных) способностей животных и эволюционное происхождение человеческого интеллекта Предшественники: М.Л. Цетлин, М.М. Бонгард. Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, М.: УРСС, 2004.
Адаптивное поведение Методы: Нейронные сети Эволюционное моделирование Обучение с подкреплением (Reinforcement Learning) Достоинство направления «Адаптивное поведение»: исследование конкретных животных и конкретных роботов Моделирование адаптивного поведения – бионический подход к искусственному интеллекту
Обучение с подкреплением (Reinforcement Learning, Richard Sutton, Andrew Barto, Массачусетский университет) t = 1,2,… – время, S(t) – ситуация, a(t) – действие, r(t) – подкрепление (поощрение, r(t) > 0 или наказание, r(t) < 0 ) Цель анимато – максимизировать суммарное подкрепление, которое можно получить в будущем. Схема обучения с подкреплением
Адаптивное поведение International Society for Adaptive Behavior Журнал Adaptive Behavior Международные конференции (раз в 2 года) SIMULATION OF ADAPTIVE BEHAVIOR (SAB'06) September 2006, Roma, Italy
Примеры моделей адаптивного поведения
Модели мозга и поведения в Институте нейронаук, руководимом Дж. Эдельманом J.L. Krichmar, A.K. Seth, D.A. Nitz, J.G. Fleischer, G.M. Edelman. Neuroinformatics, Vol. 3. No 3. PP
Направление исследований – поколения моделей мозга: Darwin-1, Darwin-2, …, Darwin-XI Darwin-X. NOMAD: Neurally Organized Mobile Adaptive Device (Brain Based Device) 1) Устройство помещается в реальную физическую среду 2) Устройство должно решать поведенческую задачу 3) Устройство управляется модельной нервной системой, которая отражает архитектуру мозга и процессы в мозге 4) Поведение устройства и процессы в модельной нервной системе должны допускать сравнение с экспериментальными биологическими данными Институт нейронаук (Калифорния, )
Darwin-X, моделирование поведения мыши в лабиринте Морриса 50 нейронных областей нейронов 1.4·10 6 синапсов Сенсорика: зрение, свои следы, ИК- детекторы J.L. Krichmar, A.K. Seth, D.A. Nitz, J.G. Fleischer, G.M. Edelman. Neuroinformatics, Vol. 3. No 3. PP
Darwin-X Есть комната размером 16 × 14 с цветными полосами на стенах. Есть скрытая платформа диаметром 24, которую Darwin-X может обнаружить, только находясь непосредственно над ней (инфракрасным детектором). В начале каждого эксперимента Darwin-X помещается в одну из 4-х стартовых точек (1–4).
Нейронная сеть Darwin-X V1,V2/4 are analogous to visual cortex IT – inferotemporal cortex PR – parietal cortex HD – the head direction system ATN – anterior thalamic nuclei M HDG – motor areas for egocentric heading BF – basal forebrain S – a value system R+, R– – positive and negative reward areas
Принципы работы и обучения нейронной сети Активность нейронов моделирует частоту импульсации, величины активностей – в интервале от 0 до 1. Обучение – аналогично правилу Хебба. При этом для части весов синапсов модификация весов связей модулируется сигналами подкрепления и активностью системы оценки S. Активность системы оценки S говорит о том, что произошло некоторое важное событие. S активируется при обнаружении скрытой платформы и системой избегания препятствий.
Darwin-X. Результаты В результате серии (16 опытов) запусков Darwin-X приобретал способность находить скрытую платформу вне зависимости от места, на которое он помещался в начальный момент времени. До обучения нахождение платформы требовало около 530 с., после – около 220 с.
Большинство нейронов гиппокампа проявляли активность типичную для клеток места (place cells) у животных. Такие нейроны были активны лишь при нахождении Darwin-X в определенной области исследуемого пространства и почти неактивны для остальной его части Darwin-X. Результаты
Формирование «причинных связей» между различными областями гиппокампа Оценки производились на основе понятия Granger causality (расчет линейной регрессии для временных рядов, характеризующих активности участков нейронной сети) Справа – активность нейронов участка СА1 в начале и конце обучения
Выводы по модели Darwin-X Модель Darwin-X – эмпирическое компьютерное исследование, хорошо продуманное с биологической точки зрения Поведение Darwin-X нетривиально: обучение происходит быстро, формируются «нейроны места» в модельном гиппокампе, исследовано формирование «причинных связей» между областями модельного гиппокампа Работа слишком эмпирическая. Было бы полезно более формализованное исследование, дополнительное к этим эмпирическим работам
Бионическая модель поискового поведения Непомнящих В.А., Попов Е.Е., Редько В.Г. Бионическая модель адаптивного поискового поведения // Известия РАН. Теория и системы управления С
Ручейник и его чехол-домик Личинки ручейников ведут поиск крупных частиц для строительства чехла-домика
Биологический эксперимент (В.А. Непомнящих, 2002) Личинок ручейников помещали в кольцевой коридор с водой, дно которого было покрыто сплошным слоем песка. На небольшом участке коридора (1/6 площади коридора) были еще крупные плоские частицы (скорлупки). Эксперимент показал, что личинки ручейников находят участок с крупными частицами, где они строят домик в основном из скорлупок.
Геометрия кольцевого коридора Личинка помещалась в точку М. Крупные частицы (скорлупки) расположены на участке 2. Вероятность встречи крупной частицы на участке 2 равна 0.2. На участке 1 расположены только мелкие частицы (песчинки) 2π/6
Результаты биологического эксперимента Эксперимент проводился с 40 личинками, которые наблюдались в течение 1 часа с момента первого прикрепления частицы Все личинки двигались по коридору и посещали участок 2 со скорлупками Личинки преимущественно (36 из 40) вели строительство на участке 2, где они собирали домик из крупных частиц – скорлупок Среднее число прикрепленных частиц для 36 личинок, покидавших и возвращавшихся на участок 2, составило 5 скорлупок и 2 песчинки. 4 личинки, оставшиеся на участке 1, в среднем прикрепили по 7 песчинок
Компьютерная модель Поведение регулируется мотивацией к прикреплению M(t) Возможны три действия личинки: 1) прикрепление протестированной частицы к домику, 2) тестирование частицы, 3) блуждание, поиск нового места Прикрепление происходит при превышении мотивацией M(t) порога, пропорционального площади последней прикрепленной частицы, при M(t) > Th = k 0 S attach, k 0 > 0 Тестирование происходит при Th > M(t) > 0 Блуждание – при 0 > M(t)
Динамика мотивации к прикреплению M(t) M(t) = k 1 M(t-1) + ξ(t) + I(t), время t дискретно, шаг по времени Δt = 1 с, k 1 – параметр, характеризующий инерционность (0 < k 1 < 1, 1-k 1 << 1 ) ξ(t) – нормально распределенная случайная величина со средним 0 и средним квадратическим σ I(t) – интенсивность раздражителя При тестировании: I(t) = k 2 (S curr – S last )/ S last, k 2 > 0, S curr, S last – площади тестируемой и последней протестированной частицы При перемещении и прикреплении I(t) = 0
Параметры расчета Диаметр коридора d = 90 мм Размер песчинки = 0.5 мм (S = 0.25 мм 2 ) Размер скорлупки = 1.5 мм (S = 2.25 мм 2 ) Величина перемещения за один такт времени L = 2 мм Время тестирования / прикрепления = 5/60 c (для песчинки), 10/120 c (для скорлупки) Расчет проводился в течение 7200 с (2 часа) для 40 личинок, аналогично биологическому эксперименту Исходная мотивация к прикреплению M(0) = 0 Сначала личинка помещалась в центр участка 1 k 0 = 1, k 1 = 0.99, k 2 = 0.007, σ = 0.05
Результаты моделирования Почти во всех случаях (в 39 из 40) первой прикреплялась крупная частица (скорлупка) Количество частиц в течение часа после прикрепления первой частицы в среднем по 40 расчетам составило: 4.2 крупные частицы (среднее квадратическое отклонение 1.68) и 0.6 мелких частиц (среднее квадратическое отклонение 1.53) Прикрепление мелких частиц наблюдалось только в 8 расчетах из 40 Среднее время начала прикрепления первой частицы 1815 с (среднее квадратическое отклонение 872 с)
Динамика площади домика S(t) Преимущественно прикрепляются крупные частицы. Есть сильный разброс числа прикрепляемых частиц и момента начала прикрепления. Число прикреплений невелико.
Динамика мотивации к прикреплению M(t) Прикрепление начинается в моменты t = 3288, 5140, 5595, 6090 с. Есть эффект частичного успеха: есть рост мотивации M(t), но мотивация не достигает порога и прикрепление не начинается
Модель и биологический эксперимент качественно согласуются (данные по 40 примерам) 1. Личинки (как живые, так и модельные) обследуют весь коридор: участок 1 и участок 2 2. Преимущественно прикрепляются крупные частицы: 4.2 в модели, 5 в эксперименте. Малое число прикрепленных песчинок: 0.6 в модели, 2 в эксперименте 3. Есть сильный разброс числа прикрепляемых частиц и момента начала прикрепления (как в модели, так и в эксперименте) 4. Число прикрепленных частиц в обоих случаях невелико
Контуры программы будущих исследований когнитивной эволюции Исследование моделей адаптивного поведения аниматор с несколькими естественными потребностями: питания, размножения, безопасности Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов) Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении Исследование процессов формирования логических выводов в «сознании» животных {УС, УС --> БС} => БС – аналог modus ponens
Начальные шаги моделирования когнитивной эволюции
Модель автономных агентов с естественными потребностями: питание, размножение, безопасность Редько В.Г., Бесхлебнова Г.А. Моделирование адаптивного поведения автономных агентов. Нейрокомпьютеры: разработка, применение С
Описание модели Мир состоит из двух клеток: опасной и безопасной. Периодически статус клеток меняется: опасная безопасная. В опасной клетке агент теряет большое количество своего ресурса. Система управления агента состоит из правил вида S k A k. Ситуация S k характеризует 1) количество пищи в среде, 2) ресурс агента и 3) статус его клетки. Действия A k агента: питание, деление, перемещение в другую клетку, отдых. При питании агент увеличивает свой ресурс, при действиях – расходует. Веса правил W k настраиваются методом обучения с подкреплением и путем эволюционной оптимизации. Преимущественно применяются правила с большими W k. «Деление», «питание» и «перемещение» соответствуют потребностям размножения, питания и безопасности.
Результаты моделирования Моделирование показало формирование достаточно естественного поведения агентов. Действия «Отдых», «Питание» и «Деление» выполняли 25%, 70 % и 3% агентов. Сразу после изменения статуса клетки частота действий «Отдых» и «Питание» кратковременно уменьшалась до 5% и 30%, а частота перемещения из опасной клетки в безопасную возрастала с 3% до 60%. Если обучение подавлялось, т.е. оставалась одна эволюционная оптимизация весов правил поведения, то частота действия «Деление» резко возрастала.
Модель формирования обобщающих эвристик автономными агентами Редько В.Г., Бесхлебнова Г.А. Модель адаптивного поведения автономных агентов в двумерной клеточной среде // Научная сессия МИФИ XI Всероссийская научно-техническая конференция "Нейроинформатика-2009": Сборник научных трудов. В 2-х частях. Ч.1. М.: МИФИ,
Автономный агент в двумерной клеточной среде Агент Среда: 10x10 клеток. Порции пищи хаотически распределены в 50 клетках Система управления агента – набор правил: S k A k, S k и A k – ситуация и действие Ситуация S k характеризует наличие или отсутствие пищи в поле зрения агента Действия агента A k : движение вперед, поворот направо/налево, питание, отдых Веса правил W k модифицируются методом обучения с подкреплением Сначала выбор действий случайный, затем – в соответствии с весами Стрелка показывает направление вперед, кружки – поле зрения агента
Формирование правил и цепочек действий самообучающимся агентом 1) пища «здесь» «питаться» 2) пища «впереди» «двигаться вперед», затем «питаться» 3,4) пища «справа/слева» «поворачиваться направо/ налево», затем «двигаться вперед», затем «питаться» 5) не видно пищи «двигаться вперед», … Зависимость R(t) Имеется 16 ситуаций 5 действий, всего 80 правил При обучении отбирается 16 правил 5 эвристик обобщают отобранные правила:
Модель взаимодействия обучения и эволюции Редько В.Г., Редько О.В. Бионическая модель генетической ассимиляции приобретаемых навыков // Научная сессия НИЯУ МИФИ ХII Всероссийская научно- техническая конференция "Нейроинформатика-2010": Сборник научных трудов. В 2-х частях. Ч.1. М.: НИЯУ МИФИ, С
Эффект Болдуина Эффект Болдуина (1896 г.) – генетическая ассимиляция приобретаемых путем индивидуального обучения навыков в течение ряда поколений дарвиновской эволюции. На первом этапе эволюционирующие организмы приобретают свойство обучиться полезному навыку. Приспособленность таких организмов увеличивается, следовательно, они распространяются по популяции. Недостатки обучения: обучение требует энергии и времени. На втором этапе – этапе генетической ассимиляции – полезный навык «повторно изобретается» эволюцией, в результате чего он записывается непосредственно в геном и становится наследуемым.
Модель «ящериц» Рассматриваются модельные «ящерицы», которые адаптируются к изменениям температуры. Есть два места, которые ящерицы могут выбирать: 1) место на камешке, 2) место в норке. Естественное поведение таково. При высокой температуре ящерица греется на камешке, при низкой температуре она забирается в норку и сохраняет накопленное тепло. Системы управления агентов-ящериц основаны на нейросетевых адаптивных критиках. Системы управления оптимизируется путем обучения с подкреплением и посредством дарвиновской эволюции. Подкрепление: r(t) = k [T(t) – T 0 ], k > 0.
Система управления агента-ящерицы Система управления состоит из двух нейронных сетей: Модели и Критика Модель предсказывает T ext (t+1). Критик оценивает ожидаемое суммарное подкрепление V(S) для текущих и прогнозируе- мых ситуаций S. Выбирается действие, максимизирующее V P pr (t+1). Действия агента есть: P(t+1) = 0 – переместиться в норку (или остаться в норке) P(t+1) = 1 – переместиться на камешек (или остаться на камешке) Ситуация S(t) = {T ext (t), P(t)}, T ext (t) – температура на камешке, P(t) – положение агента
Имеется два набора весов синапсов нейронных сетей W и G. Начальные веса синапсов нейронных сетей рождающего агента составляют его геном G. Текущие веса W изменяются в процессе обучения. При рождении агента W = G. Каждый агент имеет ресурс R(t). R(t+1) = R(t) + r(t). В конце поколения находится агент, который за поколение приобретает максимальный ресурс. Этот наилучший агент дает n потомков, которые составляют следующее поколение. Геном G передается от родителя к потомку (с малыми мутациями). Дарвиновская эволюция популяции агентов
Зависимость температуры от времени: T ext (t) = 0.5sin(2πt/20) + T 0, T 0 = 1.5 Анализировались следующие случаи: L - только обучение E - только эволюция LE - обучение совместно с эволюцией Схема моделирования
Величина ресурса лучшего агента R max, получаемая после 1000 временных шагов; n g - номер поколения. Усреднено по 1000 расчетам. L - обучение, E – эволюция, LE – обучение совместно с эволюцией. Динамика ресурса агента
Ресурс лучшего агента в популяции R(t), случай LE. В первых поколениях неплохая политика находится путем обучения. В последних поколениях агент имеет хорошую политику с рождения. Эффект Болдуина: приобретаемые навыки становятся наследуемыми. Обучение помогает эволюции находить хорошую политику быстрее
Вывод по модели взаимодействия обучения и эволюции Продемонстрирован эффект Болдуина: приобретаемые навыки ассимилируются в геном в течение 3-5-ти поколений Дарвиновской эволюции. Генетическая ассимиляция происходит быстро, т.е. наблюдаются черты, характерные для Ламарковской эволюции, хотя эволюция Дарвиновская. Целесообразно промоделировать этот эффект для более близких к биологии моделей.
Кто еще работает в близких направлениях Witkowski M. An action-selection calculus // Adaptive Behavior, V. 15. No. 1. PP Butz M.V., Sigaud O., Pezzulo G., Baldassarre G. (Eds.). Anticipatory Behavior in Adaptive Learning Systems: From Brains to Individual and Social Behavior. LNAI 4520, Berlin, Heidelberg: Springer Verlag, Vernon D., Metta G., Sandini G. A survey of artificial cognitive systems: Implications for the autonomous development of mental capabilities in computational agents // IEEE Transactions on Evolutionary Computation, special issue on Autonomous Mental Development, V. 11. No. 2. PP
Витяев Е.Е. Принципы работы мозга, содержащиеся в теории функциональных систем П.К. Анохина и теории эмоций П.В. Симонова // Нейроинформатика (электронный рецензируемый журнал) Т С Демин А. В., Витяев Е. Е. Логическая модель адаптивной системы управления // Нейроинформатика (электронный рецензируемый журнал) Т С Витяев Е.Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов. Новосибирск: НГУ, Кто еще работает в близких направлениях
Контуры программы будущих исследований когнитивной эволюции Исследование моделей адаптивного поведения аниматор с несколькими естественными потребностями: питания, размножения, безопасности Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов) Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении Исследование процессов формирования логических выводов в «сознании» животных {УС, УС --> БС} => БС – аналог modus ponens
Еще раз об актуальности моделирования когнитивной эволюции Эти исследования связаны с основаниями науки, с основаниями математики Моделирование когнитивной эволюции интересно с точки зрения развития теории познания Есть задел в направлении исследований «Адаптивное поведение» Эти исследования актуальны с точки зрения развития когнитивных наук, так как они связаны с важными когнитивными процессами – процессами научного познания Презентация: