Глава 6
ОБРАТНОЕ СООБЩЕНИЕ ОБ УСПЕХЕ И ДРЕССИРОВКА ВОЗНАГРАЖДЕНИЕМ
(conditioning by reinforcement)
Все животные, у которых центральная нервная система достигла определенного уровня дифференциации, т. е. головоногие, ракообразные, паукообразные, насекомые и позвоночные, включая человека, обладают способностью к приобретению знаний, превосходящей своей эффективностью все до сих пор рассмотренные когнитивные механизмы, а именно способностью к обучению в более узком смысле слова. У психологов, далеких от биологии и ничего не знавших о конвергентном[79] приспособлении, наличие этой способности у столь многих различных организмов вызвало ошибочное представление, что здесь идет речь о первичном феномене, об основной форме любого приобретения знаний или даже о единственном элементе поведения вообще. В действительности же пять указанных групп животных развили свой нервный аппарат, лежащий в основе рассматриваемой функции, столь же независимо друг от друга, посредством конвергентного приспособления, как они выработали свои глаза и конечности, также независимо возникшие в каждой из этих групп.
Обучение посредством проб и ошибок возникло как типичная фульгурация в смысле, объясненном на с. 270, посредством установления новой связи между уже существовавшими механизмами, способными действовать независимо друг от друга. Мы уже познакомились с функцией каждого из этих составляющих механизмов.
Комплекс поведения, который Гейнрот назвал свойственным виду импульсивным поведением (arteiegene Triebhandlung), состоит, как мы уже знаем, из аппетентного поведения срабатывания врожденного механизма запуска и выполнения генетически запрограммированной последовательности поведения с достижением в конце ее завершающей ситуации, удовлетворяющей побуждение. Эта цепь из трех отдельных процессов представляет основу, из которой возникло все обучение посредством проб и ошибок (conditioning). Линейная последовательность процессов приобретает новые неожиданные системные свойства вследствие поистине эпохального «изобретения»: конечный успех последовательности начинает производить обратное модифицирующее воздействие на ведущие к нему формы поведения.
Формы поиска, более или менее случайно входившие в аппетентное поведение, усиливаются этим обратным воздействием, если выполнение всей последовательности достигает успеха, способствующего сохранению вида, а в противном случае ослабляются. Иными словами: успех действует, как то, что обычно называется «вознаграждением», а неудача — как то, что называется «наказанием». В литературе на английском языке все ведущее таким образом к усилению или к "положительной дрессировке" предыдущего поведения называется reinforcement,[80] и, к сожалению, это слово употребляется также пишущими по-немецки психологами; напрашивающиеся немецкие термины отвергаются ими как «субъективистские». Поскольку это понятие восходит к Ивану Петровичу Павлову, я попросил одну из моих сотрудниц, хорошо говорящую по-русски найти у этого автора, где он впервые употребил соответствующий термин и как он звучал по-русски. Оказалось, что великий физиолог написал свои ранние работы, где он ввел это понятие, по-немецки, использовав слова "Verstärkung"[81] u "verstärken".[82] Этот выбор немецкого выражения кажется мне не вполне удовлетворительным. То, что достигается рассматриваемым процессом обучения, можно лучше всего выразить, сказав, что успех подкрепляет[83] поведение животного, ведущее к нему.
Вместе с новой обратной связью возникает когнитивный процесс, доставляющий индивиду за один раз больше прочного знания, чем метод генома мог бы доставить, в самом благоприятном случае, в течение целого поколения, — по меньшей мере вдвое больше, поскольку этот процесс может извлекать информацию не только из успеха, как геном, но также и из неудачи. Кроме того, рассматриваемый процесс действует не так, как геном, «пробующий» наудачу всевозможные существенные и несущественные факторы, а опирается на надежно испытанные врожденные рабочие гипотезы, а именно на те, которые прочно встроены в систему поведения всех высших животных в виде механизмов приобретения текущей информации, описанных в главе 4. Тем самым поведение, модифицируемое методом проб и ошибок, заранее направляется в сторону большей вероятности успеха. Не случайно «заранее» по-латыни звучит "a priori".[84] Мы узнаем об этом больше в разделах, посвященных пониманию и обучению.
Ввиду большой эффективности возникающего таким образом нового когнитивного аппарата понятно, что из быстро движущихся высших животных способны к конкуренции лишь те, которые им обладают.
2. МИНИМАЛЬНАЯ СЛОЖНОСТЬ СИСТЕМЫ
С другой стороны, из сказанного понятно, почему обучение посредством успеха не могло возникнуть у одноклеточных и низших многоклеточных животных, лишенных центральной нервной системы. Система, способная оценить как источник знания успех или неудачу некоторой предыдущей формы поведения и применить результат такой оценки для обратного модифицирующего действия на механизм этой формы поведения, имеет, разумеется, своей предпосылкой существование нескольких не слишком простых, весьма эффективно действующих подсистем. Эти подсистемы и их образ действия мы рассмотрели при обсуждении свойственного виду импульсивного поведения.
Легче всего представить себе механизм, подкрепляющий животное в тех формах поведения, которые ведут к простому удовлетворению потребностей тканей. В этом случае достаточен был бы единственный "датчик",[85] регистрирующий наличие или отсутствие некоторого необходимого для жизни вещества и посылающий свое сообщение в аппарат предыдущего поведения. Такая простейшая возможность подлинной условной реакции и в самом деле осуществляется в отдельных случаях, например, по наблюдениям Детье, при добывании пищи у многих мух. Но, вообще говоря, для большинства систем поведения, адаптивно модифицируемых подлинным обучением, должны быть выполнены следующие три предпосылки.
Во-первых. Форма поведения, с которой начинается все действие, должна быть "широко открытой", т. е. иметь программу, предоставляющую возможность разнообразных адаптивных модификаций; как мы уже знаем, такая программа предполагает особенно большой запас генетической информации.
Во-вторых. Должна каким-то образом "заноситься в протокол" или «запоминаться» форма, какую имели вводные звенья цепи действий при ее последнем выполнении, и эта запись должна связываться с обратным сообщением об успехе.
В-третьих. Это обратное сообщение должно быть достаточно надежным. Завершающее действие, которое удовлетворяет побуждение, т. е. "consummatory act"[86] в смысле Уоллеса Крейга или, в случае аппетенции по состояниям покоя в смысле Мейер-Гольцапфель, целевая стимулирующая ситуация должны быть столь однозначно определены внутренними и внешними рецепторными процессами, чтобы с достаточной вероятностью исключить ошибочное сообщение об успехе или неудаче. Иными словами: рецепторный аппарат, передающий обратные сообщения, должен выполнять функции, аналогичные функциям врожденного механизма запуска (с. 290). Нельзя представить себе более простую мысленную модель физиологического аппарата, осуществляющего обучение посредством успеха (conditioning by reinforcement).
Система поведения, способная к такой функции, тем самым никак не может быть простым «рефлексом», как это подсказывает терминология И. П. Павлова. Конечно, существуют простые «рефлекторные» реакции избегания, подобные рассмотренным в 5.6, которые возникают путем простой ассоциации между реакцией бегства и приобретенным запускающим действием некоторой стимулирующей ситуации; они имеют внешнее сходство с рассматриваемыми здесь процессами обучения. Но нам не известен ни один случай, когда бы удалось адаптивно модифицировать некоторую систему поведения посредством дрессирующих, т. е. положительно действующих, «вознаграждающих» стимулов без участия аппетентного поведения. На это обстоятельство давно уже указал Э. Ч. Толмен.
Даже в классическом случае слюнных условных «рефлексов», исследованном И. П. Павловым, указанный рефлекторный процесс никоим образом не является единственным процессом, подкрепляемым дрессировкой; более того, слюноотделение составляет лишь малую часть гораздо более сложной последовательности форм поведения, большая часть которых, однако, в классическом лабораторном опыте выключается той простой мерой, что собака привязывается тщательно продуманной кожаной сбруей, едва ли позволяющей ей сделать какое-нибудь движение. Мой покойный друг Говард Лиделл, работавший в качестве приглашенного сотрудника в одной из павловских лабораторий, вызвал там некоторое неприятное удивление, произведя неортодоксальный опыт. Сначала он выдрессировал собаку на условный стимул, состоявший в ускорении звуков метронома. Когда собака научилась надежно выделять слюну на этот стимул, Лиделл освободил ее от уз. Тогда собака сразу же подбежала к метроному, продолжавшему равномерно тикать, подпрыгнула к нему, приветствовала его, виляя хвостом и подвывая, иначе говоря, продемонстрировала все поведение собаки, выпрашивающей еду у хозяина или старшего товарища по своре. При этом она интенсивно выделяла слюну, хотя метроном не ускорил своего хода, так что условный стимул вовсе не предлагался. У общественных псовых (Canidae) выпрашивание корма и взаимное кормление широко распространены. Согласно Крайслеру, волки уже в возрасте одного года кормят чужих более молодых детенышей, у гиеновых собак (Lycaon pictus L.) удачливый охотник кормит всех членов своры. У обоих этих видов врожденные координации выпрашивания те же, что у домашней собаки. Эти координации — а вовсе не одно только отделение слюны — воплощают ту реакцию, которая в классическом опыте выступает в качестве условной!