Физиология высшей нервной деятельности Инструментальный условный рефлекс
Открытие Э.Торндайком обучения по принципу «проб и ошибок»
И. П. Павлов называет Э.Торндайка своим предшественником: «Должен признать, что честь первого по времени вступления на новый путь должна быть предоставлена Edward L.Thorndike…, который на два-три года предупредил наши опыты и книга которого должна быть признана классической как по своему взгляду на всю предстоящую грандиозную задачу, так и по точности полученных результатов». [из предисловия И.П.Павлова к его книге «Двадцатилетний опыт изучения высшей нервной деятельности (поведения) животных»]
Эдвард Торндайк (Edward Lee Thorndike)
«Проблемная клетка» Э.Торндайка: кошка нажимает на рычаг, который веревкой связан с запором клетки. Справа - кривая обучения в «проблемной клетке». Данный вид обучения получил название обучения по принципу «проб и ошибок»
«Проблемная клетка» («проблемный ящик») Э.Торндайка (англ. puzzle-box)
Э.Торндайк сформулировал ряд важных законов обучения: пользы, эффекта, упражнения и др. (1898 г. и позднее) Согласно закону эффекта связь между ситуацией и реакцией организма со временем усиливается, если она вызывает удовлетворяющее животное состояние. И напротив, эта связь ослабляется, если вызывает неприятное для животного состояние. В соответствии с законом упражнений связь между ситуацией и реакцией организма усиливается от повторения и ослабляется от неповторения.
Бихевиоризм. Представление об S-R связи.
Уотсон (John B. Watson )
Выдающийся американский психолог Дж. Уотсон один из основоположников бихевиоризма настаивал на том, что предмет психологии это только такое поведение, которое можно зарегистрировать и измерить количественно. Уотсон полагал, что поведение построено из секреторных и мышечных реакций, которые определяются внешними стимулами, действующими на животное. Поэтому экспериментальная психология должна изучать реакции на строго контролируемую стимуляцию. Таким образом, основным для бихевиористов был анализ связей между стимулами (S) и возникающими на их основе реакциями (R): S-R-связи.
Различные термины для обозначения инструментального условного рефлекса.
Другую форму инструментального обучения (возникающую не по принципу «проб и ошибок») открыли в 20-х гг. независимо от бихевиористов польские физиологи Ю.Конорский и С.Миллер, работавшие в то время в лаборатории И.П.Павлова. Они назвали эту форму «условным рефлексом 2-го рода», чтобы отличить от условных рефлексов, изученных в лаборатории И.П.Павлова ранее.
Американские ученые Е.Хилгар и Д.Маркес предложили термин «инструментальный условный рефлекс». Этот термин указывает на то, что животное использует условно-рефлекторную реакцию как инструмент для получения подкрепления. В настоящее время в отечественной литературе данное явление чаще всего по-прежнему называют инструментальным условным рефлексом или инструментальным обучением. В англоязычной литературе несколько позже закрепилось другой название – оперантное обучение или оперантное обусловливание (англ. operant conditioning).
Методики изучения инструментального условного рефлекса
Пример экспериментальной установки для изучения условных пищедобывательных рефлексов
Камера для исследования инструментального (оперантного) поведения (Камера Скиннера). Нажимая на рычажок, животное получает пищу, которая попадает в приемник из контейнера
Б.Скиннер ( ) с созданной им установкой для изучения инструментальных рефлексов
Камера Скиннера для голубей
Камера Скиннера
Скиннер создал вариант камеры для своей второй дочери Дебби, которую описал в статье «Baby in a Box» в журнале «The Ladies Home Journal» в 1945
Беговое колесо
Челночная камера
Обучение собак также осуществляется с помощью приемов инструментального обучения
Цирковая дрессировка животных основана на методах инструментального обучения
Свойства инструментального условного рефлекса
Подкрепление в классическом условном рефлексе производится независимо от условного ответа, а в инструментальном – лишь при условии правильного выполнения определенного действия.
Как классическое, так инструментальное условнорефлекторное обучение являются ассоциативными, т.е. эти формы обучения требуют совпадения во времени каких-либо событий, приводящего к их ассоциации. В отличие от когнитивных форм обучения, при ассоциативном обучении «понимание» и «осознание» ситуации практически не играют никакой роли (хотя существует и иная, когнитивная трактовка инструментальных рефлексов – например, в представлениях необихевиористов).
Общие особенности классических и инструментальных условных рефлексов: 1. Угасают при неподкреплении (угасательное торможение). 2. Могут самопроизвольно восстанавливаться после угашения. 3. К ним можно выработать дифференцировку.
Основные различия между классическими и инструментальным условными рефлексами: 1. Разная процедура выработки при формировании классического условного рефлекса один за другим предъявляют два раздражителя (стимула): индифферентный, который в результате сочетаний становится условным, и безусловный сигнал - пища; при образовании инструментального условного рефлекса активность организма направлена на поиск стимул-объекта (например, пищи); 2. Разные эффекторные системы в классическом условном рефлексе это вегетативные системы организма (отделение слюны, желудочного сока, пота); в инструментальных условных рефлексах ими являются двигательные системы (движения лап, глаз и пр.); 3. Разное количество сочетаний, необходимых для образования условного рефлекса (для классического сотни, для инструментального десятки);
4. Условная реакция в классическом условном рефлексе всегда является копией безусловной реакции (есть исключения!); в инструментальном условном рефлексе она может быть любой; 5. Разная роль подкрепления, например пищи, малые порции пищи способствуют образованию инструментального рефлекса, а большие - классического; 6. Классический условный рефлекс формируется по принципу «ассоциация по смежности», инструментальный по принципу «проб и ошибок». 7. Инструментальный рефлекс труднее угасает при пропусках подкрепления. Наоборот, они вначале даже усиливают рефлекс; 8. При инструментальном рефлексе межстимульный интервал может быть меньше (реализации могут следовать чаще).
Понятие драйва по Ю.Конорскому
Ежи Конорски (Jerzy Konorski)
Ю.Конорский разделяет рефлексы на две группы по порядку из следования: - Подготовительные – лишь подготавливают организм, это, например, рефлексы голода, страха и др. Условный рефлекс такого типа ведет к возникновению в ответ на условный стимул некоторого мотивационного состояния, но не имеет явных внешних проявлений. - Исполнительные – осуществляют непосредственную реакцию в ответ на условный стимул.
Согласно Ю.Конорскому, в любом рефлексе на самом деле присутствуют как минимум два рефлекса – и подготовительный, и исполнительный. Сначала возникает подготовительный рефлекс, в котором контекстная обстановка эксперимента и условные стимулы ассоциируются с подкреплением. Так возникают «драйв-рефлексы», а само мотивационное состояние, ассоциированное у обстановкой эксперимента, он называет драйвом. При удовлетворении драйва возникает противоположное ему состояние антидрайва. Состояние драйва является тем необходимым условием, на фоне которого реализуется собственно исполнительный рефлекс, наблюдаемый экспериментатором.
Голод является подготовительным рефлексом (драйв- рефлексом), а пищедобывательный условный рефлекс (нажатие на педаль и т.п.) - исполнительным. В первую очередь происходит образование подготовительного условного рефлекса голода. Аналогично, оборонительный инструментальный рефлекс (на удар тока, кислоту и пр.) состоит из двух рефлексов: условного драйв-рефлекса страха и исполнительного условного рефлекса.
Согласно теории инструментальных условных рефлексов Ю. Конорского: 1. Образование инструментального рефлекса происходит только на фоне драйва; 2. Выполнение заученного движения сопровождается снижением (редукцией) драйва; 3. Уже сформированный инструментальный ответ проявляется только при наличии соответствующего драйва, причем его интенсивность пропорциональна силе драйва; 4. Удовлетворение драйва сопровождается прекращением заученного движения.
Классический условный рефлекс Ю.Конорский также рассматривает с позиции последовательного возникновения двух рефлексов – подготовительного и исполнительного.
Когнитивный подход к инструментальному обучению (необихевиоризм)
Эдвард Чейс Толмен (Edward Chace Tolman) 1886 – 1959
Описание поведения на молекулярном уровне: конкретные мышечные движения (подъем лапы, нажатие на педаль правой лапой и т.п.), реакция слюнной железы и пр. Описание поведения на молярном уровне: нажать на рычаг любым способом, пройти (пробежать, проплыть) лабиринт любым способом
Э.Толмен разрабатывал идею молярного подхода, считал поведение животных целенаправленным, полагал, что они руководствуются когнитивными картами. В основе поведения, согласно его точке зрения, лежит внутренне стремление к цели. Э.Толмена можно считать основателем современного когнитивного подхода к поведению животных.
Под когнитивными картами понимается процесс, благодаря которому организм приобретает некое подобие топологической карты той местности, в которой он обитает. (Э. Толмен, 1948).
Беррес Фредерик Скиннер (Burrhus Frederic Skinner)
Б. Скиннер сформулировал оперантный подход к проблеме. В классическом (павловском) обучении поведение животного является ответом на действие условного стимула. При инструментальном обучении реакция как бы «содержится» в самом животном, в том смысле, который мы вкладываем в слово «произвольное движение». Анализ таких реакций, по мнению Скиннера, более адекватно проводить на молярном уровне. Под оперантом понимают любое движение (лапой, туловищем, хвостом, мордой и пр.), которое приводит к ответу, нажиманию на рычажок в скиннеровской камере.
В отличие от Торндайка Скиннер не считает, что подкрепление укрепляет связь между сигналом и реакцией (S-R связь). Основная ассоциация образуется между реакцией и подкреплением.
Таким образом, согласно когнитивной трактовке, инструментальная реакция может происходить на двух разных уровнях: Реакция на молярном уровне аналогична произвольному движению (которое контролируется сознанием человека) Реакция на молекулярном уровне рефлекторна по сути (т.е. происходит относительно независимо от сознания и воли)
По мере упрочения инструментальной реакции она может переходить с молекулярного уровня (когда возможно использование разных возможных путей достижения цели) на молекулярный уровень (когда автоматизация навыка позволяет осуществлять его стереотипно, но без явного участия сознания).
Роль подкрепления. Режимы и схемы подкрепления
Режимы подкрепления при инструментальном обучении: постоянное подкрепление частичное (эпизодическое) подкрепление фиксированный режим варьирующий режим с фиксированным интервалом с фиксированным отношением с варьирующим интервалом с варьирующим отношением
Процесс инструментального обучения по методу проб и ошибок может занимать много времени. Для его ускорения применяют формирование (шейпинг), которое включает два компонента: дифференциальное подкрепление – одни реакции подкрепляются, другие – нет (по усмотрению экспериментатора); последовательное приближение – последовательно подкрепляются различные реакции. Вначале подкрепляют любую реакцию, хотя бы удаленно напоминающую требуемую реакцию или ведущую к ней (например, приближение к стенке камеры, на которой закреплен рычаг), в конце обучения подкрепляют только лишь четкое выполнение требуемой реакции (например, само нажатие на рычаг).
Некоторые приемы профессиональных дрессировщиков, позволяющих ускорить процесс формирования: - введение мишеней – животное обучают толкать носом, лапой некоторую мишень, которую затем постепенно перемещают, направляя тем самым животное к нужному действию. - подражание – животному показывают, как кто-либо другой выполняет требуемое действие. - моделирование (лепка) состоит в том, чтобы заставить обучающегося выполнять пассивно (двигая им как марионеткой) действие, которое должно быть разучено.
Суеверное поведение: согласно принципам оперантного обусловливания, любое поведение животного или человека в момент подачи случайного подкрепления будет закреплено, и впоследствии животное или человек будет склонно к повторению данного вида поведения.
Взятка: преждевременная подача положительного подкрепления еще до совершения животным требуемой реакции.
Положительное подкрепление это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия. Положительное подкрепление это нечто, желаемое субъектом.
Отрицательное подкрепление – какое-либо нежелательное для субъекта воздействие (БС), действие которого можно прекратить (реакция избавления) или избежать (реакция избегания), изменив свое поведение. Наказание – нежелательное для субъекта воздействие, наступающее неотвратимо и, как правило, с большим опозданием после наказуемого поведения. Как правило, наказание оказывается малоэффективным. Оно создает нежелательные эмоциональные эффекты (страх, агрессия), не сообщает никакой новой информации и не подталкивает к требуемому поведению, а вместо этого часто заменяет одну нежелательную реакцию другой.
Способы отучения (по Скиннеру с изменениями, по К.Прайор): 1. Изменение обстоятельств таким образом, чтобы сделать данное поведение физически невозможным 2. Наказание 3. Отрицательное подкрепление 4. Угашение 5. Выработка несовместимого поведения 6. Добиться, чтобы данное поведение совершалось по сигналу 7. Формирование отсутствия: подкрепление всех остальных видов поведения, кроме нежелательного 8. Смена мотивации (лучший способ)
Двухфакторная теория научения Х.Маурера
Двухфакторная теория научения Хобарта Маурера: Обучение избеганию удара током происходит в две стадии. Сначала образуется классический условный рефлекс страха. Затем фактически подкреплением становится избавление от страха, возникающего каждый раз. В результате реакция избегания сохраняется практически бесконечно и не угасает, так как всегда подкрепляется даже в том случае, если животное больше не получает ударов тока.
Теория К.Халла и К.Спенса
Кларк Леонард Халл (Clark Leonard Hull) 1884 – 1952
Вначале Халл полагал, что научение основывается на ослаблении потребности, но в дальнейшем он пересмотрел свою теорию в пользу теории ослабления стимула потребности. Пример стимула потребности: пересохшие губы при жажде; даже небольшая порция воды немедленно смачивает губы, хотя и не удовлетворяет жажду. Крысы обучаются, получая в качестве подкрепления раствор сахарина, не имеющий питательной ценности, но обладающий сладким вкусом, который создает временное ощущение утоления голода.
Теория инструментального обучения Кларка Халла S E R = [ S H R × D × V × К - (I R + S I R )] - S O R. S E R - эффективный потенциал реакции (вероятность выполнения реакции) S H R - сила привычки D - потребность V - интенсивность условного стимула K - размер поощрения (побудительная мотивация) I R - реактивное торможение (усталость) S I R - условное торможение S O R - эффект осцилляции
Роль реактивного торможения: если попытки во время тренировки разделяются большими временными интервалами (распределенные повторения), то показатели выполнения реакции превосходят те, которые имеются при попытках, производимых друг за другом (концентрированные повторения).
Теория инструментального обучения Кеннета Спенса S E R = (D + К) × S H R - I N S E R - эффективный потенциал реакции (вероятность выполнения реакции) S H R - сила привычки D - потребность K - размер поощрения (побудительная мотивация) Поскольку D и K складываются, а не перемножаются, появляется возможность объяснить латентное научение, а также то, что выученная реакция может возникнуть в отсутствии побуждения (человек часто ест по распорядку дня, а не потому, что голоден)