|
Научение животных
(Главы из книги Мак Фарленда «Поведение животных. Психобиология, этология и эволюция.»)
Иван Петрович Павлов (1849-1936)
(ВВС Hulton Picture Library}
|
Иван Петрович Павлов родился в России в Рязани, где он учился в духовном училище и семинарии. В 1870 г. он поступил в Петербургский университет, который окончил в 1875 г. по факультету естественных наук. Получив докторскую степень в Военно-медицинской академии в 1883 г., продолжал учебу в Германии. В 1890 г. он стал профессором фармакологии, а с 1895 г. - также профессором физиологии Военно-медицинской академии в Петербурге. В 1904 г. Павлов получил Нобелевскую премию по медицине за свои исследования по физиологии пищеварения. С 1925 г. до конца жизни руководил Институтом физиологии АН СССР.
Первая работа Павлова посвящена физиологии кровообращения, в частности механизмам регуляции кровяного давления. Он открыл, что кровяное давление находится под контролем блуждающего нерва, и исследовал нервную регуляцию ритма и силы сердечных сокращений. В 1879 г. Павлов начал работу по пищеварению, завершившуюся его книгой «Лекции о работе главных пищеварительных желез», опубликованной в 1879 г. Изучая механизмы секреции разных пищеварительных желез, он пришел к выводу, что их деятельность контролируется исключительно нервной системой (теперь известно, что существует также гормональная регуляция). Именно за эту работу им была получена в 1904 г. Нобелевская премия. Исследуя пищеварение, Павлов заметил, что слюноотделение может быть вызвано видом пищи или другими стимулами, которые обычно предшествуют еде. Это привело его к открытию условных рефлексов, которые теперь считаются основой научения.
Начиная с 1902 г. до конца жизни Павлов изучал главным образом условные рефлексы. Он основоположник многих концепций, все еще сохраняющих силу в этой области науки, и его можно считать основателем экспериментального подхода к научению.
Один из характерных опытов Павлова заключается в следующем: если предъявление пищи собаке неоднократно сопровождать звонком, то животное начинает реагировать на звонок, как на вид пищи. Павлов измерял слюнооотделение у собаки в ответ на сочетание пищи и звонка, а затем на предъявление одного только звонка. Он считал слюноотделение при виде пищи безусловным рефлексом, а слюноотделение в ответ на звонок, - условным рефлексом, потому что предыдущее сочетание пищи и звонка служит условием его возникновения.
Павлов стремился открыть всеобщие законы научения и соответствующие им нервные механизмы. Он полагал, что во время выработки условного рефлекса в клетках центральной нервной системы происходят структурные и химические изменения. И если это представление близко к современным взглядам, то многие идеи Павлова о роли коры в научении не подтвердились. Основной его труд «Условные рефлексы: исследование физиологической деятельности коры больших полушарий головного мозга» (переведенный на английский язык в 1927 г.) оказал огромное влияние на развитие психологии.
Условные рефлексы и научение
Работа И. П. Павлова по условным рефлексам стала известна на Западе в пору, когда уже существовал значительный интерес к механистическим, особенно к рефлекторным, объяснениям поведения. Гипотезы Леба (Loeb, 1859-1924), с помощью которых он пытался объяснить поведение животных простыми тропизмами и таксисами (см. разд. 14.2), оказали сильное влияние на исследователей в Германии и США. В области физиологии Шеррингтон в 1906 г. опубликовал свою книгу "Integrative Action of the Nervous System" («Интегративная деятельность нервной системы»). Он показал, как простые рефлексы, сочетаясь, могут давать координированное поведение.
В психологии Дж. Уотсон (Watson, 1913) положил начало бихевиористской школе, очень влиятельной в начале столетия. Бихевиористы использовали для объяснения поведения только внешние стимулы, движения мышц и секрецию желез. Для описания сложного поведения в понятиях стимул-реакция они постулировали скрытые или неявные отношения между стимулом и реакцией. Еще ранее, в 1907 г. Уотсон предположил, что этой цели служат кинестетические стимулы, вызываемые движениями животного. Считалось, что недоступные наблюдению процессы, связывающие стимул и реакцию, состоят из начинающихся движений и создаваемых ими стимулов. Так, Уотсон (1914) постулировал, что человеческие мыслительные процессы представляют собой скрытую речь (разговор с самим собой), в которой одно легкое движение языка служит стимулом для следующей реакции в цепи.
В 1903 г. в Мадриде, а в 1906 г.-в Лондоне Павлов прочел лекции, посвященные Гексли, отчет о которых был напечатан в журнале "Science". В 1909 г. появился обзор трудов Павлова, а в 1916 г. Уотсон опубликовал второй обзор. В 1927 г. вышел английский перевод книги Павлова, названной в английском варианте "Conditioned Reflexes" («Условные рефлексы»). Научное общественное мнение было весьма расположено в пользу чисто механистической и объективной науки о поведении. Труды Павлова способствовали развитию представления о решающем значении среды, принятого Уотсоном в его бихевиористской психологии. Уотсон пришел к выводу (1926), что условные рефлексы могут служить парадигмой для научения вообще. Бихевиористы, в частности Уотсон и позднее Скиннер (Skinner), считали, что все поведение животных и человека сводится к условным рефлексам. Работа Павлова дала бихевиоризму известную физиологическую обоснованность, а психология научения животных стала ведущим психологическим подходом в США до конца 50-х годов.
Классические условные рефлексы
В своих исходных опытах по условным рефлексам Павлов ограничивал движения голодной собаки лямками (рис. 17.1) и давал ей небольшие порции пищи через правильные промежутки времени. Когда он предварял подачу пищи внешним стимулом, например звонком, поведение собаки по отношению к этому стимулу постепенно менялось. Животное начинало поворачиваться к звонку, облизываться и выделять слюну. Когда Павлов стал систематически регистрировать слюноотделение вводя животному фистулу для сбора слюны, он обнаружил, что ее количество возрастало по мере увеличения числа сочетаний звонка и пищи. Стало очевидным, что собака научилась связывать звонок с пищей.
Рис. 17.1. Устройство для изучения слюнных условных рефлексов по Павлову.
|
Павлов назвал звонок условным стимулом (УС), а пищу безусловным (БС). Слюноотделение в ответ на предъявление пищи он назвал безусловным рефлексом (БР), а в ответ на звонок - условным рефлексом (УР).
Хотя сам Павлов использовал термины «условный» (conditional) и «безусловный» (unconditional), эти термины вначале были переведены на английский неправильно, и в литературе на этом языке установились термины «обусловленный» (conditioned) и «необусловленный» (unconditioned) рефлексы. Однако теперь применяется исходная павловская терминология, принятая и в настоящей книге. Смысл этой терминологии в том, что пища без всяких особых условий вызывает совокупность пищевых реакций, одна из которых, например слюноотделение, регистрируется экспериментатором и обозначается как безусловная реакция. Выработка условного рефлекса происходит в результате создаваемого экспериментатором сочетания безусловного стимула (пищи) и постороннего стимула, до этого не связанного с питанием, например звонка. После нескольких таких сочетаний достаточно только звонка, чтобы вызвать слюноотделение. Звонок называют условным стимулом, потому что собака выделяет в ответ на него слюну только в результате упражнения. Точно так же слюноотделение в ответ на звонок называют условной реакцией, хотя по своему проявлению она может не отличаться от безусловной. Предъявление БС (пищи) вслед за УС (звонком) в процессе выработки рефлекса называется подкреплением условного рефлекса слюноотделения на УС.
Условные рефлексы, при выработке которых применяется мотивационно благоприятное, или положительное, подкрепление, аналогичное БС, являются примерами положительных условных рефлексов. Но условные рефлексы можно выработать и в опытах с применением отрицательного подкрепления, например удара тока, который животное стремится избежать. Так, включение звукового стимула (определенного тона) перед направлением в глаз кролика струи воздуха начнет вызывать условный мигательный рефлекс, т. е. смыкание век (точнее говоря, мигательной перепонки). Первоначально мигание вызывает только воздушный толчок (БС), но после нескольких повторений мигание (УР) происходит в ответ на данный тон (УС) и в отсутствие действия воздуха. Это пример отрицательного УР.
Подкрепление характеризуется не столько присущими ему стимуляционными свойствами, сколько своим мотивационным значением для животного. Так, пища действует как положительное подкрепление, только если собака голодна, а воздушный толчок действует как отрицательное подкрепление, только если он вреден или неприятен животному. Во многих случаях подкрепление является врожденным в том смысле, что его мотивационное значение и способность поддерживать условный рефлекс являются составной частью нормальной реакции животного на окружающие условия. Однако это не обязательно так, и Павлов показал, что как подкрепление может действовать и УС. Допустим, что при обычной выработке УР звонок становится УС и всегда вызывает этот УР, например слюноотделение. Если затем второй УС, например свет, многократно сочетается со звонком в отсутствие пищи, то у животного образуется УР на один только свет, даже если пища никогда прямо не сочеталась с ним. Такой метод называется выработкой условного рефлекса второго порядка.
Павловские, или классические, условные рефлексы очень широко распространены в животном мире и пронизывают все стороны повседневной жизни высших животных, включая человека. Павлов показал, что условные рефлексы могут вырабатываться у обезьян и мышей; сообщалось также о выработке условных рефлексов у очень многих беспозвоночных. Однако, оценивая такие сообщения, мы должны отличать истинные классические условные рефлексы от других форм научения и от псевдонаучения.
Хотя приемы выработки классических условных рефлексов относительно четкие, выявляемые ими феномены не так однозначны и вызывают оживленные дискуссии в психологической литературе, не прекращающиеся со времен Павлова. Каждый исследователь поведения животных должен быть хорошо знаком с основными свойствами классических условных рефлексов, потому что вряд ли возможно провести какой-либо опыт, не столкнувшись с ними. Животное может просто выработать реакцию на время дня, когда приходит экспериментатор. Иногда
Рис. 17.2. Выработка мигательного условного рефлекса. (По Schneidermann et al., 1962.)
|
скрытые условнорефлекторные проявления неуловимо обесценивают выводы, сделанные в ходе опытов. В любом случае, являясь универсальным свойством высших животных, условные рефлексы не только имеют практическое значение, но должны быть использованы в любой последовательной концепции поведения. Ниже мы вкратце рассмотрим основные характеристики условных рефлексов. Более подробное их описание дано в прекрасных книгах Н. Макинтоша (N. Mackintosh, 1974, 1983).
Выработка условного рефлекса
Мы можем оценивать выработку условного рефлекса по-разному. Павлов для этого использовал, например, количество слюны, собираемой во время предъявления УС. При мигательных условных рефлексах оценивается вероятность возникновения реакции (рис. 17.2). Скорость выработки может значительно варьировать в зависимости от обстоятельств, вида животного и его возраста (рис. 17.3).
Павлов считал, что сочетание УС с БС ведет к образованию связи между ними. УС становится заменителем БС, приобретая способность вызывать реакции, обычно вызываемые БС. Эту концепцию называют теорией замены стимула. Согласно альтернативной теории, УР образуются потому, что за ними следует вознаграждение. Иными словами, УР подкрепляется своими последствиями. Такой подход обычно носит название теории стимул-реакция.
Рис. 17.3. Влияние возраста на выработку мигатсльного условного рефлекса. (По Braun. Geischart, 1959.)
|
Эти две теории различаются по двум главным эмпирическим аспектам. Во-первых, по теории замены стимула мы должны ждать, что УР очень сходен с БР, тогда как по теории стимул-реакция они несколько различны. Во-вторых, Павлов считал, что между УС и БС возникает связь и что сама эта связь составляет подкрепление. По теории стимул-реакция научение определяется подкрепляющими последствиями УС. Хотя по этому вопросу существуют разногласия, факты, по-видимому, говорят в пользу точки зрения Павлова. Так, УС и БС вызывают сходные реакции. Павлов намеренно игнорировал компоненты УР, связанные с движениями скелета животного, ввиду соблазна считать их признаками ожидания или подготовки. Во избежание таких антропоморфных толкований он сосредоточил внимание на слюноотделительном компоненте УР. Кроме того, как указывает Макинтош (Mackintosh, 1974), если на реакции (такие, как смыкание мигательной перепонки перед воздушным толчком, движение челюсти или облизывание перед получением воды или же клевание и слюноотделение перед выдачей корма) относительно мало влияют их последствия, когда они четко запрограммированы, то трудно представить себе, как они могли бы возникнуть на основе своих последствий, когда такое ясное программирование отсутствует. Единственная альтернатива состоит в признании того, что, как считал Павлов, эти реакции вырабатываются потому, что их вызывает БС.
Как мы увидим, теория замены стимула приводит к далеко идущим выводам относительно других типов научения и относительно изменчивости поведения животных вообще.
17.3. Угасание и привыкание
Как мы видели, предъявление БС усиливает УР. Павлов установил, что отмена такого подкрепления ведет к постепенному исчезновению УР. Процесс, в течение которого приобретенные формы поведения перестают проявляться, потеряв свою актуальность, называется угасанием УР.
В опыте по классическим условным рефлексам собака научается тому, что звонок (УС) сигнализирует о предъявлении пищи. Поэтому слюноотделение (УР) является адекватной реакцией, предваряющей наличие пищи. Если же пища перестает выдаваться, то зачем собаке принимать УС за сигнал о ее предъявлении? Так и происходит: отмена связанного со звонком кормления приводит к исчезновению слюнной реакции на этот УС. Поведение животного становится таким же,
Рис. 17.4. Угасание мигательного условного рефлекса у кроликов. (По Schneidermann et al., 1962.)
|
как и до выработки УР. Другой пример угашения показан на рис. 17.4.
Если после уташения УС снова сочетать с подкреплением, то УР восстановится гораздо быстрее, чем при его первоначальной выработке. Это говорит о том, что процесс угашения не уничтожает первоначальное научение, а только несколько подавляет его. Другое доказательство в пользу этого вывода - спонтанное восстановление, при котором угасшая реакция восстанавливает свою силу после отдыха. Так, например, Павлов сообщил об опыте, в котором число капель слюны, выделяемой в ответ на УС, снизилось с 10 до 3 после семи вызванных угашений. Латентный период (временная задержка) также возрос с 3 до 13с. После отдыха в течение 23 мин слюноотделение в первом предъявлении только УС составило шесть капель с латентным периодом лишь в 5 с.
Павлов полагал, что исчезновение УР при угашений должно объясняться накоплением внутреннего торможения. Он показал, что предъявление нового постороннего стимула одновременно с УС нарушает выработанный УР. Согласно Павлову (1927), появление любого нового раздражителя немедленно вызывает исследовательский рефлекс, и животное ориентирует соответствующие рецепторные органы на источник помехи. Вследствие появления исследовательского рефлекса условный рефлекс тормозится. Это явление называется внешним торможением. Если посторонний стимул предъявляется в процессе угашения, то подавляемый УР усиливается. Такой эффект, называемый павловским растормаживанием, служит еще одним доказательством тормозной природы угасания. В отличие от внешнего торможения оно не объясняется конкуренцией двух рефлексов, а, как полагают, вызывается активацией ЦНС. Это широко распространенный феномен, наблюдающийся при ослаблении УР по любой причине, включая привыкание.
Согласно полученным данным, во время угашения животное научается тому, что за УС больше не следует подкрепление. УС теперь связан с отсутствием подкрепления, и соответственно УР тормозится. Как мы увидим, представление о том, что животные могут научиться тому, что некоторые стимулы не предваряют никаких последствий, играет важную роль в современной теории научения. Ученые обнаружили, что важным условием для развития торможения является сочетание УС с неподкреплением в условиях, когда стимулы ранее подкреплялись. В обычной жизни животного многочисленные стимулы не связаны с подкреплением, но животное игнорирует их и ничему на их основе не научается. Только когда животное сталкивается с отсутствием подкрепления неожиданно, оно научается тому, что определенные стимулы сигнализируют о неподкреплении (Mackintosh, 1974).
Многократное применение стимула часто ведет к понижению реактивности. Этот феномен, называемый привыканием, габитуацией, представляет собой форму неассоциативного научения, несколько сходного с угасанием. Например, реакция избегания у рыбы в ответ на проходящую над ее головой тень постепенно ослабевает при повторении этого стимула через каждые несколько минут, пока рыба не перестает реагировать на него. Подобным же образом ориентировочная реакция жабы (Bufobufo) на потенциальную добычу постепенно снижается, если несъедобные, похожие на пищу предметы предъявля-
Рис. 17.5. Привыкание и стимулированная дегабитуация (отвыкание) в нейроне, реагирующем на двигательные стимулы. А -исходное привыкание; В и С - дегабитуация, вызванная внешними стимулами (стрелки). (По Rowell, Horn, 1968.)
|
ются многократно. Садоводы хорошо знают, что чучела, поставленные для отпугивания птиц, действуют только короткое время и птицы скоро привыкают к ним. Попытки отпугивать птиц от аэродромов передаваемыми по радио криками тревоги натолкнулись на те же проблемы привыкания.
Реакции, на которые развилось привыкание, спонтанно восстанавливаются при отмене стимуляции. Если привыкание с последующим восстановлением реакции повторять неоднократно, то привыкание постепенно становится более быстрым. В этом отношении оно сходно с угасанием. Если в процессе привыкания предъявить новый стимул, то реактивность возрастает, как показано на рис. 17.5. Эта дегабитуация (отвыкание), как считают, объясняется изменениями в уровне активации ЦНС животного и очень похожа на павловское растормаживание.
Привыкание обычно рассматривают как форму научения, и его можно экспериментально отличить от затухания реакции при сенсорной адаптации или утомлении. Привыкание сходно с угасанием тем, что животное научается тормозить реакции, за которыми не следует подкрепления. В обоих случаях наступают спонтанное восстановление и растормаживание под действием посторонних стимулов. Угасание отличается от привыкания тем, что происходит по отношению к ранее приобретенным реакциям, тогда как реакции, на которые обычно развивается привыкание, являются врожденными, а не выработанными с участием УС.
17.4. Генерализация
Когда у животного выработалась определенная реакция на данный стимул, она может возникать и на другие сходные стимулы. Так, Павлов (1927) указал, что если тактильное раздражение ограниченного участка кожи сделать условным стимулом, то тактильное раздражение других участков кожи тоже будет вызывать некоторый условнорефлекторный ответ, ослабевающий по мере удаления этих участков от того, с которым первоначально был связан условный рефлекс. Явление такого типа называется генерализацией стимула. Павлов считал, что она объясняется распространением волны возбуждения, проходящей по коре больших полушарий от центра УС. Однако это объяснение не согласуется с современными взглядами на нейронное строение головного мозга (Thompson, 1965).
Современные объяснения генерализации обращают основное внимание на действующие при этом стимулы. Стимул, применяемый в опыте по выработке условных рефлексов, состоит из совокупности отдельных элементов. Тон, например, характеризуется определенной час-
Рис. 17.6. Градиенты генерализации у отдельных голубей, реагирующих на тоны. Частота тренирующего тона 1000 Гц. (По Jenkins, Harrison. 1958.)
|
тотой, интенсивностью и длительностью. Эти параметры стимула могут приобрести значение условных во время выработки УР. Новый стимул, имеющий общие элементы с данным УС, до некоторой степени способен вызывать УР. Например, если человек легко различает тоны в 1000 и 300 Гц, то у голубей, наученных реагировать на первый из них, наблюдается генерализация и в отношении второго. Однако у этих тонов имеются общие свойства в частности то, что в отличие от естественных звуков каждый из них характеризуется только одной частотой. Этим, возможно, объясняется, почему голуби реагируют на них как на одинаковые. Если такой голубь получит подкрепление на тон в 300 Гц, то он будет менее склонен к генерализации на тоны с частотами, отличными от 1000 Гц. Диапазон генерализации сужается тренировкой дифференцировки (рис. 17.6). Такая тренировка уменьшает число элементов, прочно связанных с подкреплением. Голубя стимулируют обращать внимание на частоту тона на том основании, что другие параметры звука не связаны прочно с подкреплением. Это называют генерализацией по общим элементам.
Генерализация имеет важное значение для многих сторон научения животных. Так, например, во время угашения УР отмена подкрепления меняет среду стимула, в которой был выработан УР. Имеются некоторые данные о том, что снижение реактивности при угасании частично объясняется уменьшением генерализации. Подобным же образом привыкание к одному стимулу приведет к генерализации в отношении другого, сходного. Животное реагирует на этот новый стимул до известной степени так, как если бы он предъявлялся ему ранее. Степень привыкания к новому стимулу зависит от того, насколько он похож на стимул, к которому ранее произошло привыкание. Если стимул и нов, и необычен, произойдет дегабитуация. Таким образом, генерализация стремится противодействовать влиянию новых стимулов на реакции, к которым произошло привыкание.
Павлов считал, что дифференцировки можно добиться, подкрепляя одни свойства УС и не подкрепляя другие. Сначала все свойства УС вызывают УР, но если экспериментатор подкрепляет одни из них и не подкрепляет другие, то мы можем обозначить их соответственно УС+ и УС--. Дифференцировка возможна между свойствами одной и той же физической размерности, например между слуховыми стимулами разной частоты или светом разной яркости. Она также возможна между сочетаниями качественно разных стимулов, которые Павлов (1927) назвал сложными раздражителями. Так, УС+ может служить сочетание тона и тактильного стимула, а УС-- - один только тактильный раздражитель. После того как животное научилось дифференцировать, тактильный раздражитель больше не будет вызывать УР. Как уже говорилось, во всяком опыте по выработке условных рефлексов присутствуют сложные стимулы в том смысле, что УС неизбежно предъявляется в определенной стимульной ситуации и может быть выделен среди фоновых стимулов только по мере того, как животное научится дифференцировке. В интервалах между сочетаниями будут присутствовать некоторые стимулы, которые животное в начале тренировки связывает с подкреплением (дифференцировка между УС+ и УС-- отсутствует). Поэтому можно ожидать, что при выработке классических условных рефлексов
собаки будут выделять слюну в интервалах между сочетаниями по крайней мере на ранних стадиях эксперимента, Шеффилд (Sheffield, 1965) сообщил, что у его собак действительно наблюдалось слюноотделение в промежутках между предъявлениями УС, которое с тренировкой постепенно уменьшалось.
Инструментальное научение
В то время как исследование классических условных рефлексов было начато в России, принципы инструментальных условных рефлексов были открыты и разработаны в США. Впрочем, первый шaг в этом направлении, по-видимому, был сделан в трудах Моргана (Morgan, 1852-1936).
Морган относился критически ко многим современным ему исследованиям по психологии животных из-за их слабой методологии и неубедительных толкований. В книге "Introduction to Comparative Psychology" («Введение в сравнительную психологию») (1894) он провозгласил свое знаменитое правило: «Ни в коем случае нельзя считать какое-либо действие результатом упражнения более высокой психической способности, если его можно объяснить на основе способности, стоящей ниже по психологической шкале». Позднее (1900) он пояснил: «Можно добавить, - чтобы пределы применения этого принципа не были поняты неверно, - что такое правило никак не исключает взгляда на определенное действие как на результат высших мыслительных процессов, если мы уже располагаем независимым доказательством их присутствия в действующем агенте».
Морган оказал значительное влияние на развитие бихевиоризма, в особенности на Уотсона и Торндайка (Thorndike). В 1896 г. он проводил Лоуэлловские чтения в Гарвардском университете, чем побудил Торндайка начать изучение рассудочной деятельности животных. Однажды Морган рассказал Торндайку, как его собака Тоби научилась открывать задвижку на садовой калитке, просовывая голову между рейками штакетника, и тот начал свои исследования вскоре после посещения Моргана, разработав способы повторения этого наблюдения в контролируемых лабораторных условиях.
Торндайк стал очень заметной фигурой в американской психологии, и полстолетия его теории господствовали как в психологии животных, так и в психологии воспитания. Один видный его современник писал: «Психология научения животных, не говоря уже о научении ребенка, - была и все еще остается прежде всего вопросом согласия или несогласия с Торндайком или попытками слегка усовершенствовать его представления. Все мы, американские гештальт-психологи, по-видимому, открыто или скрыто отталкиваемся от концепций Торндайка». (Tolman, 1938.)
Торндайк провел ряд опытов, в которых кошки должны были нажимать на задвижку или тянуть за пружину, чтобы, открыв дверцу, выйти из ящика и получить снаружи пищу. Ящики были сделаны с вертикальными щелями так, что пища была заметна (рис. 17.7). Голодная кошка, впервые посаженная в ящик, производит множество действий, в том числе тянется к пище через щели и скребет предметы, находящиеся внутри ящика. Наконец она случайно ударяет по запирающему механизму и выскакивает наружу. При последующих пробах действия кошки постепенно концентрируются вблизи этого механизма, и прочая активность со временем прекращается.
Рис. 17.7. Кошка в одном из торндайковских
проблемных ящиков.
|
Наконец кошка становится способной правильно вести себя, как только ее поместят в ящик.
Торндайк (1898) назвал научение такого типа «методом проб, ошибок и случайного успеха». Теперь оно называется инструментальным научением, поскольку правильная реакция, ведущая к вознаграждению, требует использования «инструментов». Цирковые дрессировщики знали о научении такого типа в течение столетий, но Торндайк первый исследовал его систематически и создал на основе своих наблюдений стройную теорию.
Для объяснения изменений, происходящих в поведении животного в этих опытах, Торндайк (1913) предложил свой «закон эффекта». Он гласит, что для реакции, за которой следует вознаграждение или состояние удовлетворения, вероятность повторения возрастает, а для реакции, вызывающей вредное или неприятное последствие, вероятность повторения снижается. Таким образом, успех инструментального научения приписывается тому факту, что выработанное поведение может быть непосредственно изменено его последствиями. Торндайк (1911) считал, что подкрепление повышает вероятность реакции, с которой оно сочетается, потому что усиливает установленную связь между ней и присутствующей стимульной ситуацией. Этот взгляд стал известен как «теория научения по принципу стимул-реакция», и варианты этой теории господствовали в течение многих лет. Признавая значение закона эффекта как эмпирического факта, современные психологи в то же время сомневаются в том, что поведение непосредственно модифицируется своими последствиями, как предполагали Торндайк и его школа. Чтобы понять это, сначала надо рассмотреть природу подкрепления.
17.6. Подкрепление
Между способом проведения опыта по выработке классического условного рефлекса и постановкой эксперимента по инструментальному научению существует коренное различие. В первом случае связь устанавливается между УС (например, звонком) и БС (например, пищей). Подкрепление предъявляется независимо от поведения животного. При инструментальном научении подкрепление (например, пища) связано с определенным поведением животного (например, с нажимом на рычаг). Таким образом, при классических условных рефлексах связь устанавливается между стимулом и результатом, а при инструментальном научении она возникает между реакцией и результатом. Такие различия необязательно означают, что в этих двух типах опытов происходят разные виды научения, но они говорят о разных процессах подкрепления.
Как мы видели, согласно взгляду Павлова, наличие подкрепляющего стимула в определенных условиях приведет к тому, что реакции, вызываемые им, будут возникать еще до подкрепления. Ясно, однако, что не всегда подкрепление необходимо для проявления выработанных связей между стимулами. Это яснее всего видно при рассмотрении феномена, называемого сенсорным предобусловливанием. При нем два условных стимула (УC1 и УС2) применяются вместе много раз до того, как в опыт вводится БС. За совместным предъявлением УC1 и УС2 следует сочетание УC1 с БС. В заключительной части опыта измеряется сила УР в ответ на УС2.
Первая четкая демонстрация сенсорного предобусловливания принадлежит Брогдену (Brogden, 1939), который предъявлял собакам 200 одновременных сочетаний света и зуммера. Затем один из этих стимулов сочетался с электрическим ударом лапы для выработки ее условнорефлекторного сгибания. Применения второго УС вызывали в среднем 9,4 УР по сравнению со всего лишь 0,5 УР в контрольных опытах без предварительного сочетания зуммера и света. Более поздние опыты показывают, что лучшие результаты получаются при меньшем числе предварительных сочетаний и когда два УС предъявляются не одновременно, а с промежутком в несколько секунд (Mackintosh, 1974).
Результаты опытов с сенсорным предобусловливанием ясно показывают, что сочетания двух нейтральных стимулов достаточно, чтобы установить некоторую связь между ними. По-видимому, при слишком частом применении этих стимулов наступает известное привыкание, и научение не улучшается. Совершенно независимо от того, что эти результаты нельзя удовлетворительно объяснить теорией стимул-реакция, ясно, что для образования связи между двумя нейтральными стимулами нет необходимости в подкреплении. Поэтому павловское подкрепление не является обязательным условием образования связей, но оно облегчает их образование и делает их устойчивыми к привыканию. Как мы увидим дальше, животные вполне способны научиться тому, что некоторые стимулы несущественны для их текущих мотивационных потребностей, и поэтому неудивительно, что связи, образованные между двумя нейтральными стимулами, должны быть временными.
Обратимся теперь к вопросу об инсmpументальном подкреплении. Закон эффекта Торндайка лег в основу бихевиористского подхода к научению животных. Крайнюю позицию занял Гарвардский бихевиорист Скиннер (Skinner), который определил подкрепление, исходя из закона эффекта. По Скиннеру. подкреплением является любое событие, которое, сочетаясь с каким-нибудь видом поведения, будет делать ею более частым. Скиннер (1938) считал также, что любое подкрепление может усилить любую реакцию в присутствии любого стимула при условии, что этот стимул ощущается животным, а реакция лежит в пределах его возможностей. Таким образом, предполагалось, что реакция и подкрепление по существу произвольны. Это стало широко распространенной точкой зрения среди теоретиков научения до конца 50-х годов.
Подкрепление, побуждающее животное приближаться к стимулам, которые оно связывает с этим подкреплением, обычно называется «положительным». Если же подкрепление заставляет животное в дальнейшем избегать данной ситуации, оно считается «отрицательным».
Животные могут научиться бояться некоторых ситуаций, испытав в них боль или стресс. В дальнейшем они могут избегать таких ситуаций при столкновении с ними. Сходным образом ситуации, в которых на животное действуют естественные вызывающие страх стимулы, могут по ассоциации вызывать страх, даже когда животное не испытывает боли. Но многократное применение таких стимулов может привести к привыканию, и животное перестанет их избегать.
Как мы видели, неприятные стимулы применимы в опытах по классическим условным рефлексам. Одно из первых таких исследований принадлежит В.М.Бехтереву (1913), который раздражал переднюю лапу собаки слабым электрическим током (БС) вслед за звуковым стимулом - тоном (УС). Сначала собака сгибала лапу в ответ на ток (БР), а после ряда сочетаний УС и БС - в ответ на тон (УР) в отсутствие тока. Классическая оборонительная условная реакция многие годы оставалась парадигмой научения избеганию.
По Торндайку (Thorndike, 1913) наказание вызывает такую же силу реакции, что и вознаграждение. Согласно положительному закону эффекта, если за реакциями следует состояние удовлетворения, вероятность их возникновения возрастает. Отрицательный закон предполагает, что вероятность возникновения реакций, приводящих к неприятным последствиям, снижается. Однако в конечном счете Торндайк (1932) на основании некоторых опытов пришел к заключению, что закон эффекта неприменим к наказанию. В этом отношении с ним соглашались Скиннер (Scinner, 1938, 1953) и Эстес (Estes, 1944). Общее мнение, по-видимому, сводилось к тому, что наказание не ослабляет связи стимул-реакция, хотя иногда оно временно подавляет наказуемое поведение. Более поздние данные говорят о том, что наказание может быть эффективным с точки зрения модификации поведения, когда его сочетают с определенной реакцией (Church, 1963, 1969).
17.7. Оперантное поведение
Рис. 17.8. Голубь, клюющий ключ в скиннеровском ящике.
Скиннер (Scinner, 1937) ввел различие между оперантным и реактивным поведением. Оперантным он назвал спонтанное действие без какого-либо очевидного стимула. Реактивным является всякое поведение, совершаемое в ответ на определенный стимул. Скиннер полагал, что любое оперантное поведение модифицируется и эффективно контролируется сочетающимся с ним подкреплением. Мысль о том, что поведением животного можно полностью управлять, создав соответствующий порядок подкреплений, явилась крайней бихевиористской точкой зрения (Skinner, 1938). Бихевиористская философия Скиннера произвела революцию в экспериментальных методиках, влияние которой ощущается до сегодняшнего дня.
Вместо неоднократного применения сочетаний, характерного для классической выработки условных рефлексов, и опытов с использованием проблемных ящиков и лабиринтов Скиннер разработал методику свободного оперантного поведения, при которой животному позволяют совершать различные действия, а экспериментатор старается управлять последствиями. Чаще всего для опытов такого рода выбирались крысы и голуби, хотя использовались также и многие другие животные, а также человек. Оперантная выработка условного рефлекса состоит главным образом в том, что животное «тренируют» на выполнение задачи, за которой последует вознаграждение. Крысу можно заставлять нажимать на рычаг, голубя - клевать освещенный круг, называемый «ключевым стимулом». Такая методика тренировки обозначается термином "shaping" (формирование поведения).
Рассмотрим, как обучают голубя клевать ключевой стимул для получения корма. Голодного голубя помещают в маленький ящик с механизмом для подачи зерна и с «ключом» на уровне головы (рис. 17.8). Такого рода устройство называют «скиннеровским ящиком». О подаче корма обычно сигнализирует маленькая лампочка, освещающая зерно. Голуби быстро научаются связывать включение света с появлением корма; они подходят к подающему механизму и съедают зерно всякий раз, как включается свет. Следующая стадия обучения состоит в согласовании подачи пищи с каким-нибудь типом поведения голубя. Обычно от голубя требуется, чтобы он клевал ключ, но Скиннер считал, что можно формировать любую реакцию и что голубей за вознаграждение можно научить чистить перья или описывать круги по ящику. Клевания ключа можно добиться, выдавая вознаграждение только в ответ на движения, которые постепенно становятся все более похожими на удар клювом по ключу. Так, сначала голубь научается за вознаграждением подходить к ключу; затем он получает вознаграждение, только если стоит прямо, держа около ключа голову. На этой стадии голубь обычно клюет ключ самостоятельно, но его можно и побудить к этому, на время приклеив к ключу пшеничное зерно. Своим клеванием голубь замыкает чувствительный контакт в электрической цепи, которая производит автоматическую подачу корма. Начиная с этого момента, голубь награждается, только когда клюет ключ, и ручное управление вознаграждением больше не требуется. Теперь животное готово для использования в опыте.
Такая оперантная методика применяется во многих типах экспериментов. Например, выработку дифференцировки можно изучать, вознаграждая животных только за реакции на определенный цвет или рисунок или давая им выбирать между двумя сигнальными раздражителями, различающимися визуально. Эта методика оказалась особенно полезной для изучения действия разного типа вознаграждений. Так, можно вознаграждать голубя не просто за каждый, а за каждый N-й удар клювом, устанавливая в итоге определенное отношение между числом ударов и числом вознаграждений. Такой метод называется вознаграждением по постоянному соотношению. Другие обычно применяемые схемы опыта включают переменное соотношение, постоянный интервал и переменный интервал. При интервальной схеме вознаграждение дается через интервалы времени, выбранные экспериментатором. Животное вознаграждается за первую реакцию после некоторого интервала. Оказалось, что разные схемы вознаграждения по-разному влияют на действия животного. Так, например, применение переменных интервалов создает очень равномерную частоту реакций и служит хорошей опорной величиной, относительно которой можно испытывать влияние на поведение различных факторов, например величины вознаграждения.
Считается, что Скиннер рассматривал бихевиоризм как философию науки о поведении, а не как собственно науку. Его подход был операционалистским, а психология - антитеоретической. Хотя Скиннер полагал, что всякое поведение создается подкреплением, он признавал (1975), что «естественным отбором объясняется тот факт, что люди реагируют на стимулы, воздействуют на среду и изменяют свое поведение под влиянием связи с подкреплением». Точно так же «тот факт, что оперантные условные рефлексы, подобно всем физиологическим процессам, являются результатом естественного отбора, проливает свет на вопрос о том, какого рода последствия служат подкреплением и почему».
Подход Скиннера основан на том, что подкрепление способно изменять поведение. Его утверждение о возможности модификации любой деятельности иллюстрируется разными играми, которым можно обучать голубей. Так, он описывает (1958), как «голубя тренировали пускать деревянный шар по миниатюрному желобу в направлении расставленных игрушечных кеглей, толкая его резким боковым движением клюва. Результат поразил нас... Это зрелище произвело такое впечатление на Бреленда, что он отказался от многообещающей карьеры в области психологии и стал платным дрессировщиком».
По иронии судьбы именно К. и М. Бреленды (К. Breland, М. Breland, 1961) первые усомнились в том, что любая деятельность может быть изменена подкреплением. Они обнаружили, что при попытках научить животных разным трюкам некоторые виды активности оказывались устойчивыми, т. е. подкрепление на них не влияло. Так, например, они старались научить свинью вкладывать «монету» в особую «копилку». Свинья поднимала соответствующий деревянный значок, но вместо того, чтобы опустить в контейнер, многократно роняла его на пол, «толкала пятачком, поднимала, снова роняла, подгоняла пятачком, подбирала, подкидывала в воздух, роняла, снова толкала пятачком и т. д.» (К. Breland, М. Breland, 1961). Подобным же образом некоторые цыплята настойчиво скребли землю, когда от них требовалось простоять 10-12 с на платформе, чтобы получить вознаграждение. Впоследствии появилось много сообщений такого рода. Так, Севенстер (Sevenster, 1968, 1973) успешно обучал самцов трехиглых колюшек (Gasterosteusaculeatus) проплывать через узкое кольцо, чтобы приблизиться к самке. Но ему не удалось научить самцов за то же вознаграждение кусать стеклянный стерженек, потому что самец упорно направлял на него свое ухаживание. Обзор этих и других исследований дает С. Шеттлуорт (Shettleworth, 1972).
Бреленды (Breland, Breland, 1961) толкуют свои данные как свидетельство инстинктивного смещения, при котором «выученное поведение смещается в сторону инстинктивного» всегда, когда сильные врожденные инстинкты животного сходны с условной реакцией. Эти авторы указывают, что их данные нарушают принцип наименьшего усилия, выдвинутый Скиннером (Skinner, 1938), согласно которому животные стремятся получить вознаграждение самым быстрым и самым удобным способом. В их исследованиях вознаграждение значительно задерживается из-за «неправильного» поведения животных. В гл. 18 мы рассмотрим другие примеры такого рода и постараемся оценить, в какой степени их может объяснить общая теория научения.
ДЛЯ ЗАПОМИНАНИЯ
1. Классическая, или павловская, выработка условного рефлекса ведет к образованию связи между ранее значимым (безусловным) и ранее нейтральным (условным) стимулами, в результате чего животное начинает реагировать на последний (условным рефлексом) так, как раньше отвечало (безусловным рефлексом) на первый из этих стимулов.
2. Процесс установления связи, называемой выработкой условного рефлекса, обычно требует нескольких предъявлений условного стимула, сопровождающихся каким-нибудь подкреплением.
3. В результате привыкания или угасания происходит снижение реактивности. Привыкание наступает в результате многократного предъявления стимула без немедленных последствий. Угасание происходит при многократном предъявлении условного стимула без подкрепления.
4. Генерализация означает, что животное отвечает на какой-либо стимул, сходный с условным.
5. Инструментальное научение, по-видимому, отличается от классической выработки условного рефлекса, потому что животное должно отреагировать прежде, чем получит подкрепление. Однако невозможно проводить опыт по инструментальному научению, не создавая одновременно предпосылок для классической выработки условного рефлекса. Возможно, что подкрепление на самом деле не является необходимым для образования приобретенных реакций.
|
|