Физиология высшей нервной деятельности Ассоциативное обучение: Инструментальный условный рефлекс
Открытие Э.Торндайком обучения по принципу «проб и ошибок»
И. П. Павлов называет Э.Торндайка своим предшественником: «Должен признать, что честь первого по времени вступления на новый путь должна быть предоставлена Edward L.Thorndike…, который на два-три года предупредил наши опыты и книга которого должна быть признана классической как по своему взгляду на всю предстоящую грандиозную задачу, так и по точности полученных результатов». [из предисловия И.П.Павлова к его книге «Двадцатилетний опыт изучения высшей нервной деятельности (поведения) животных»]
Эдвард Торндайк (Edward Lee Thorndike)
«Проблемная клетка» («проблемный ящик») Э.Торндайка (англ. puzzle-box)
«Проблемная клетка» Э.Торндайка: кошка нажимает на рычаг, который веревкой связан с запором клетки. Справа - кривая обучения в «проблемной клетке». Данный вид обучения получил название обучения по принципу «проб и ошибок»
Э.Торндайк сформулировал ряд важных законов обучения: пользы, эффекта, упражнения и др. (1898 г. и позднее) Согласно закону эффекта связь между ситуацией и реакцией организма со временем усиливается, если она вызывает удовлетворяющее животное состояние. И напротив, эта связь ослабляется, если вызывает неприятное для животного состояние. В соответствии с законом упражнений связь между ситуацией и реакцией организма усиливается от повторения и ослабляется от неповторения.
Бихевиоризм. Представление об S-R связи.
Уотсон (John B. Watson )
Выдающийся американский психолог Дж. Уотсон один из основоположников бихевиоризма настаивал на том, что предмет психологии это только такое поведение, которое можно зарегистрировать и измерить количественно. Уотсон полагал, что поведение построено из секреторных и мышечных реакций, которые определяются внешними стимулами, действующими на животное. Поэтому экспериментальная психология должна изучать реакции на строго контролируемую стимуляцию. Таким образом, основным для бихевиористов был анализ связей между стимулами (S) и возникающими на их основе реакциями (R): S-R-связи.
Различные термины для обозначения инструментального условного рефлекса.
Другую форму инструментального обучения (возникающую не по принципу «проб и ошибок») открыли в 20-х гг. независимо от бихевиористов польские физиологи Ю.Конорский и С.Миллер, работавшие в то время в лаборатории И.П.Павлова. Они назвали эту форму «условным рефлексом 2-го рода», чтобы отличить от условных рефлексов, изученных в лаборатории И.П.Павлова ранее.
Американские ученые Е.Хилгар и Д.Маркес предложили термин «инструментальный условный рефлекс». Этот термин указывает на то, что животное использует условно-рефлекторную реакцию как инструмент для получения подкрепления. В настоящее время в отечественной литературе данное явление чаще всего по-прежнему называют инструментальным условным рефлексом или инструментальным обучением. В англоязычной литературе несколько позже закрепилось другой название – оперантное обучение или оперантное обусловливание (англ. operant conditioning).
Методики изучения инструментального условного рефлекса
Пример экспериментальной установки для изучения условных пищедобывательных рефлексов
Камера для исследования инструментального (оперантного) поведения (Камера Скиннера). Нажимая на рычажок, животное получает пищу, которая попадает в приемник из контейнера
Камера Скиннера для голубей
Камера Скиннера
Скиннер создал вариант камеры для своей второй дочери Дебби, которую описал в статье «Baby in a Box» в журнале «The Ladies Home Journal» в 1945
Беговое колесо
Челночная камера
Обучение собак также осуществляется с помощью приемов инструментального обучения
Цирковая дрессировка животных основана на методах инструментального обучения
Свойства инструментального условного рефлекса
Подкрепление в классическом условном рефлексе производится независимо от условного ответа, а в инструментальном – лишь при условии правильного выполнения определенного действия.
Как классическое, так инструментальное условнорефлекторное обучение являются ассоциативными, т.е. эти формы обучения требуют совпадения во времени каких-либо событий, приводящего к их ассоциации. В отличие от когнитивных форм обучения, при ассоциативном обучении «понимание» и «осознание» ситуации практически не играют никакой роли (хотя существует и иная, когнитивная трактовка инструментальных рефлексов – например, в представлениях Толмена, Скиннера – см. ниже).
Общие особенности классических и инструментальных условных рефлексов: 1. Угасают при неподкреплении (угасательное торможение). 2. Могут самопроизвольно восстанавливаться после угашения. 3. К ним можно выработать дифференцировку.
Основные различия между классическими и инструментальным условными рефлексами: 1. Разная процедура выработки при формировании классического условного рефлекса один за другим предъявляют два раздражителя (стимула): индифферентный, который в результате сочетаний становится условным, и безусловный сигнал - пища; при образовании инструментального условного рефлекса активность организма направлена на поиск стимул-объекта (например, пищи); 2. Разные эффекторные системы в классическом условном рефлексе это вегетативные системы организма (отделение слюны, желудочного сока, пота); в инструментальных условных рефлексах ими являются двигательные системы (движения лап, глаз и пр.); 3. Разное количество сочетаний, необходимых для образования условного рефлекса (для классического сотни, для инструментального десятки);
4. Условная реакция в классическом условном рефлексе всегда является копией безусловной реакции (есть исключения!); в инструментальном условном рефлексе она может быть любой; 5. Разная роль подкрепления, например пищи, малые порции пищи способствуют образованию инструментального рефлекса, а большие - классического; 6. Классический условный рефлекс формируется по принципу «ассоциация по смежности», инструментальный по принципу «проб и ошибок». 7. Инструментальный рефлекс труднее угасает при пропусках подкрепления. Наоборот, они вначале даже усиливают рефлекс; 8. При инструментальном рефлексе межстимульный интервал может быть меньше (реализации могут следовать чаще).
Понятие драйва по Ю.Конорскому
Ежи Конорски (Jerzy Konorski)
Ю.Конорский разделяет рефлексы на две группы по порядку из следования: - Подготовительные – лишь подготавливают организм, это, например, рефлексы голода, страха и др. Условный рефлекс такого типа ведет к возникновению в ответ на условный стимул некоторого мотивационного состояния, но не имеет явных внешних проявлений. - Исполнительные – осуществляют непосредственную реакцию в ответ на условный стимул.
Согласно Ю.Конорскому, в любом рефлексе на самом деле присутствуют как минимум два рефлекса – и подготовительный, и исполнительный. Сначала возникает подготовительный рефлекс, в котором контекстная обстановка эксперимента и условные стимулы ассоциируются с подкреплением (по типу классического условного рефлекса). Так возникают «драйв-рефлексы», а само мотивационное состояние, ассоциированное у обстановкой эксперимента, он называет драйвом. При удовлетворении драйва возникает противоположное ему состояние антидрайва. Состояние драйва является тем необходимым условием, на фоне которого реализуется собственно исполнительный рефлекс, наблюдаемый экспериментатором.
Пример выработки пищедобывательного инструментального условного рефлекса (когда животное нажимает на педаль или совершает какое-либо другое действия ради получения пищи): В первую очередь происходит образование подготовительного условного драйв-рефлекса голода как ассоциация между обстановкой эксперимента и кормлением. Это означает, что попав в обстановку эксперимента, животное чувствует голод (актуализируется пищевая мотивация). Лишь после этого образуется собственно исполнительный пищедобывательный условный рефлекс (нажатие на педаль и т.п.).
Пример выработки оборонительного инструментального рефлекса (когда животное нажимает на педаль или совершает какое-либо другое действия ради того, чтобы избежать удара электрическим током или иного неприятного воздействия): В первую очередь происходит образование подготовительного условного драйв-рефлекса страха как ассоциация между обстановкой эксперимента и кормлением. Это означает, что попав в обстановку эксперимента, животное чувствует страх (актуализируется оборонительная мотивация). Лишь после этого образуется собственно исполнительный пищедобывательный условный рефлекс (нажатие на педаль и т.п.).
Согласно теории инструментальных условных рефлексов Ю. Конорского: 1. Образование инструментального рефлекса происходит только на фоне драйва; 2. Выполнение заученного движения сопровождается снижением (редукцией) драйва; 3. Уже сформированный инструментальный ответ проявляется только при наличии соответствующего драйва, причем его интенсивность пропорциональна силе драйва; 4. Удовлетворение драйва сопровождается прекращением заученного движения.
Когнитивный подход к инструментальному обучению (необихевиоризм)
Эдвард Чейс Толмен (Edward Chace Tolman) 1886 – 1959
Описание поведения на молекулярном уровне: конкретные мышечные движения (подъем лапы, нажатие на педаль правой лапой и т.п.), реакция слюнной железы и пр. Описание поведения на молярном уровне: нажать на рычаг любым способом, пройти (пробежать, проплыть) лабиринт любым способом
Э.Толмен разрабатывал идею молярного подхода, считал поведение животных целенаправленным, полагал, что они руководствуются когнитивными картами. В основе поведения, согласно его точке зрения, лежит внутреннее стремление к цели. Э.Толмена можно считать основателем современного когнитивного подхода к поведению животных.
Под когнитивными картами понимается процесс, благодаря которому организм приобретает некое подобие топологической карты той местности, в которой он обитает. (Э. Толмен, 1948).
Беррес Фредерик Скиннер (Burrhus Frederic Skinner) Американский психолог, создатель оперантного подхода к поведению
Согласно представлениям Б. Скиннера, существует респондентное и оперантное поведение. Респондентное поведение - это шаблонная реакция, вызываемая стимулом. Отношение между стимулом и реакцией всегда невольное и спонтанное. Примеры респондентного поведения – безусловный рефлекс и классический условный рефлекс. Оперантное поведение определяется событиями, которые следуют за реакцией. Это произвольные приобретенные реакции. Это поведение по сути происходит спонтанно. Если последствия данного операнта для организма благоприятны, то впоследствии это поведение будет повторяться чаще, если неблагоприятны – то реже. Примеры оперантов: нажатие на рычаг, прохождение лабиринта, метание дротиков, игра на фортепиано.
Под оперантом понимают любое движение (лапой, туловищем, хвостом, мордой и пр.), которое приводит к ответу, нажиманию на рычажок в скиннеровской камере. Животное способно самостоятельно (произвольно?) выбирать движение. Понятия «оперантное поведение» по Скиннеру и «поведение на молярном уровне» по Толмену приблизительно совпадают.
В отличие от Торндайка Скиннер не считает, что подкрепление укрепляет связь между стимулом и реакцией (S-R связь). Основная ассоциация образуется между реакцией и подкреплением.
Таким образом, согласно когнитивной трактовке, инструментальная реакция может происходить на двух разных уровнях: Реакция на молярном уровне аналогична произвольному движению (которое контролируется сознанием человека). Реакция на молекулярном уровне рефлекторна по сути (т.е. происходит относительно независимо от сознания и воли).
По мере упрочения инструментальной реакции она может переходить с молекулярного уровня (когда возможно использование разных возможных путей достижения цели) на молекулярный уровень (когда автоматизация навыка позволяет осуществлять его стереотипно, но без явного участия сознания).
Роль подкрепления. Режимы и схемы подкрепления
Режимы подкрепления при инструментальном обучении: постоянное подкрепление частичное (эпизодическое) подкрепление фиксированный режим варьирующий режим с фиксированным интервалом с фиксированным отношением с варьирующим интервалом с варьирующим отношением
Процесс инструментального обучения по методу проб и ошибок может занимать много времени. Для его ускорения применяют формирование (шейпинг), которое включает два компонента: дифференциальное подкрепление – одни реакции подкрепляются, другие – нет (по усмотрению экспериментатора); последовательное приближение – последовательно подкрепляются различные реакции. Вначале подкрепляют любую реакцию, хотя бы удаленно напоминающую требуемую реакцию или ведущую к ней (например, приближение к стенке камеры, на которой закреплен рычаг), в конце обучения подкрепляют только лишь четкое выполнение требуемой реакции (например, само нажатие на рычаг).
Некоторые приемы профессиональных дрессировщиков, позволяющих ускорить процесс формирования: - введение мишеней – животное обучают толкать носом, лапой некоторую мишень, которую затем постепенно перемещают, направляя тем самым животное к нужному действию. - подражание – животному показывают, как кто-либо другой выполняет требуемое действие. - моделирование (лепка) состоит в том, чтобы заставить обучающегося выполнять пассивно (двигая им как марионеткой) действие, которое должно быть разучено.
Суеверное поведение: согласно принципам оперантного обусловливания, любое поведение животного или человека в момент подачи случайного подкрепления будет закреплено, и впоследствии животное или человек будет склонно к повторению данного вида поведения.
Взятка: преждевременная подача положительного подкрепления еще до совершения животным требуемой реакции.
Позитивное и негативное подкрепление и наказание по Б.Скиннеру Подкреплени е ПозитивноеНегативное Предъявление положительного стимула Удаление аверсивного стимула Наказание Предъявление аверсивного стимула Удаление положительного стимула
Положительное подкрепление это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия. Положительное подкрепление это нечто, желаемое субъектом.
Отрицательное подкрепление – какое-либо нежелательное для субъекта воздействие (БС), действие которого можно прекратить (реакция избавления) или заранее избежать (реакция избегания), изменив свое поведение соответствующим образом. Наказание – нежелательное для субъекта воздействие, наступающее неотвратимо и, на практике, как правило, с большим опозданием после наказуемого поведения. Чаще всего, наказание оказывается малоэффективным. Оно создает нежелательные эмоциональные эффекты (страх, агрессия), не сообщает никакой новой информации и не подталкивает к требуемому поведению, а вместо этого часто заменяет одну нежелательную реакцию другой.
Способы отучения (по Скиннеру с изменениями, по К.Прайор): 1. Изменение обстоятельств таким образом, чтобы сделать данное поведение физически невозможным 2. Наказание 3. Отрицательное подкрепление 4. Угашение 5. Выработка несовместимого поведения 6. Добиться, чтобы данное поведение совершалось по сигналу 7. Формирование отсутствия: подкрепление всех остальных видов поведения, кроме нежелательного 8. Смена мотивации (лучший способ)
Двухфакторная теория научения Х.Маурера
Двухфакторная теория научения Хобарта Маурера: Обучение избеганию удара током происходит в две стадии. Сначала образуется классический условный рефлекс страха. Затем фактически подкреплением становится избавление от страха, возникающего каждый раз. В результате реакция избегания сохраняется практически бесконечно и не угасает, так как всегда подкрепляется избавлением от страха даже в том случае, если животное больше не получает реальных ударов тока.