на стимулы, которые можно было точно контролировать). За нейтральным сигналом следовала еда. После этих пар он наблюдал за тем, как сильно у собак выделяется слюна в ответ на один только сигнал. Он писал в характерных деталях: "Когда звуки бьющего метронома попадают на ухо, через девять секунд начинается выделение слюны, а в течение 45 секунд выделяется 11 капель".
Варьируя специфику этой процедуры, Павлов каталогизировал многие особенности процесса обучения. Он задавал такие вопросы, как: "Сколько пар "сигнал - пища" требуется для надежного обучения?" (около 20); "Имеет ли значение время между сигналом и пищей?" (да, сигнал должен начинаться до появления пищи, но не слишком сильно); "Должен ли сигнал быть нейтральным?" (нет, животные могли научиться выделять слюну в ответ на слегка негативные сигналы, например, на раздражение кожи); и многое другое.
Этот процесс - многократное сопряжение предстоящего вознаграждения с чем-то, обычно не связанным с ним, до тех пор, пока эти два фактора не становятся связанными - известен как классическое или (что неудивительно) "павловское" обусловливание, и он стал основным в ранних исследованиях в области психологии. Рецензенты книги Павлова, вышедшей в 1927 году и описывающей его методологию и результаты, назвали его работу "представляющей жизненный интерес для всех, кто изучает разум и мозг" и "замечательной как с точки зрения точности его методов, так и научной проницательности, проявившейся в масштабном характере его выводов".
Работы Павлова в конечном итоге стали основой одного из крупнейших течений в науке XX века - бихевиоризма. Согласно бихевиоризму, психологию следует определять не как изучение разума, а скорее как изучение поведения. Поэтому бихевиористы предпочитают описания наблюдаемой внешней активности любому теоретизированию о внутренней психической активности, такой как мысли, убеждения или эмоции. Для них поведение людей и животных может быть понято как сложный набор рефлексов - то есть сопоставлений между входными сигналами из мира и выходными сигналами, производимыми животным. Эксперименты по обусловливанию, такие как эксперимент Павлова, предложили чистый способ количественной оценки этих входов и выходов, что послужило толчком для развития бихевиоризма.
Поэтому после публикации его книги многие ученые стремились повторить и развить работу Павлова. Американский психолог Б. Ф. Скиннер, например, узнал о Павлове из рецензии на книгу известного писателя-фантаста Г. Г. Уэллса. Чтение этой статьи пробудило интерес Скиннера к психологии и направило его на путь становления ведущей фигурой бихевиористского движения, проведя бесчисленное количество точных исследований поведения крыс, голубей и людей.1
Когда в какой-либо области науки накапливается достаточно количественных данных, она в конце концов обращается к математическому моделированию, чтобы придать им смысл. Модели находят структуру в грудах цифр; они могут объединить разрозненные результаты и показать, как они возникают в результате единого процесса. В течение десятилетий после Павлова количество данных, получаемых в ходе поведенческих экспериментов по обучению, сделало их готовыми для моделирования. Как писал в 1950 году Уильям Эстес, выдающийся американский психолог, работавший над математикой обучения, данные по обучению "достаточно упорядочены и воспроизводимы, чтобы поддерживать точные количественные предсказания поведения".
В другой работе, опубликованной в 1951 году, говорится: "Среди отраслей психологии немногие так богаты количеством и разнообразием доступных данных, необходимых для построения моделей, как обучение". Эта работа, "Математическая модель простого обучения", была написана Робертом Бушем и Фредериком Мостеллером в Лаборатории социальных отношений Гарвардского университета. Буш был физиком, ставшим психологом, а Мостеллер - статистиком. Вместе, под влиянием работ Эстеса, они вывели формулу обучения ассоциациям между сигналами и вознаграждением, которая стала отправной точкой для целого ряда все более сложных моделей. В течение десятилетий обучение, которое отражают эти модели, стало известно как "обучение под креплением". Обучение с подкреплением - это объяснение того, как возникает сложное поведение, когда единственными сигналами обучения являются простые вознаграждения и наказания. Это, во многом, искусство учиться делать то, что нужно, без подсказок.
* * *
В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.
Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.
Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.
С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они
ожидают. Изменить ожидания можно только нарушив их.
Рисунок 24
Это нарушение может быть как к лучшему, так и к худшему. Для собаки первый кусок мяса после "жужжания" - это приятный сюрприз, который сильно влияет на ее ожидания. Однако после многократных