Дрессировщики собак используют и классические, и оперантные условные рефлексы, формируя поведение собаки. Обычный пример классического условного рефлекса — сочетание звука кликера с поощрением, которое нравится собаке, т. е. лакомством или игрушкой (см. главу 4). Для начала, дрессировщик обычно кликает, потом кормит собаку, снова кликает и кормит (всегда в этом порядке). Клик должен идти первым, поскольку вы вырабатываете у собаки условную реакцию выжидания на звук кликера. Через несколько повторений (от 15 до 25 кликов и поощрений) у собаки появляется позитивная ассоциация между звуком щелчка и ценным поощрением. Когда эта связь установилась, собака будет радоваться щелчку, поскольку он предвещает любимое лакомство. Кликер (как и звонок Павлова) становится условным или вторичным подкреплением. Тем же способом можно сделать любое слово условным подкреплением, если вы свяжете для собаки это слово с чем-то, что нравится собаке (лакомством или игрушкой). Когда собака поймет, что ее поведение контролирует поощрение, вы можете использовать этот принцип для обучения.
Поднимаем ставки: механика создания поведения.
Когда собака свяжет свое поведение с вторичным подкреплением и всякими хорошими вещами, вы можете использовать оперантное научение, поощряя любые желательные действия собаки. Этот процесс называется «создание поведения». Если у вас реалистичные ожидания, и вы примените принципы Торндайка и Скиннера, вы можете добиться от собаки любого поведения, на которое она физически вообще способна. Потребуется некоторое терпение, пока вы сами не научитесь действовать правильно, но самому созданию поведения можно научиться очень быстро. Это результат ожидания от собаки чего-то большего или отличного от того, что она только что предложила.
Например, если ваш новый щенок смотрит на вас, кликните и поощрите его. Здесь клик одновременно и «отмечает», что щенок предложил правильное поведение, и предсказывает награду. Через несколько поощрений за это, задержите чуть-чуть щелчок (поднимите ставку). Вы больше не поощряете щенка просто за то, что он взглянул на вас; он должен постараться больше. Подождите, потом щелкните (отметьте) и наградите за следующее желательное действие, которое предложит щенок — сядет, ляжет, попятится. Если следующий вариант нежелателен (лай, прыжки или царапание), замрите и ничего не делайте. Нежелательное поведение, которое не поощряется, исчезнет само. Вы отбираете предлагаемые собакой варианты поведения. Вы дрессируете собаку, подкрепляя нужные действия и игнорируя нежелательные.
Обратный порядок предъявления раздражителей работает редко.
Для выработки классического условного рефлекса на нейтральный раздражитель, подкрепление (еда или игрушка) должны поступить после нейтрального раздражителя (звонка).
Звонок(щелчок) + пища = условный рефлекс на звонок или щелчок
Многие ученые пытались поменять последовательность действий, сначала предъявляя первичное подкрепление (пищу), а затем звоня в звонок. Но эти эксперименты с обратным порядком предъявления нейтрального раздражителя и приятного поощрения не имели успеха. Поэтому поймите, насколько важно сначала кликать, а потом поощрять собаку во время дрессировки. Когда некоторые тренеры используют еду или игрушку, чтобы провести собаку по трассе аджилити, это тоже в какой-то степени обратный порядок предъявления раздражителей. Если вы ведете собаку через препятствие, маня ее кусочком, вы теряете возможность выработать у собаки условный рефлекс на препятствие как на нечто приятное. Во время начального обучения База снарядам я предлагала ему поощрение после того, как он выполнял мое задание, например, проносился сквозь туннель, и таким образом вырабатывала условный рефлекс на сами препятствия. Дрессировка таким образом позволяет собаке связать поощрение с работой и перенести ценность. Возбуждение, которое собака испытывает от награды, переносится на само препятствие как таковое. В результате, только один вид снарядов аджилити волновал База, так как обещал возможность заслужить поощрение.
Препятствие аджилити + Подкрепление = Условная реакция на препятствие аджилити
Последствия поведения.
В оперантном научении каждое поведение влечет за собой один из четырех вариантов последствий, которые и влияют на обучение. Заметьте, что слова положительный и отрицательный, которые обычно ассоциируют с хорошим или плохим, просто описывают, что что-то прибавилось (положительный) или убавилось (отрицательный). Поощрение всегда увеличивает вероятность поведения, в то время как наказание подавляет поведение. Знание этих фактов поможет вам понять, что «положительная» дрессировка далеко не всегда хороша.
Положительное подкреплениеСобака получает что-то желаемое, что в дальнейшем увеличивает частоту данного поведения. Пример: дача собаке лакомства за выполнение команды «Сидеть» Положительное наказаниеДобавление чего-то нежелательного, чтобы подавить реакцию собаки. Пример: одергивание поводком собаки, которая тянет Отрицательное подкреплениеИзъятие чего-то нежелательного и таким образом, подкрепление поведения. Пример: дрессировщик, который щиплет собаку за ухо, пока она не откроет пасть, чтобы взять гантель (собака находит избавление от боли поощряющим) Отрицательное наказаниеЛишение чего-то желаемого, чтобы подавить реакцию собаки. Пример: закрыть собаку, которая прыгает на гостя Могучее сочетание.
Использование сочетания классических и оперантных условных рефлексов дает дрессировщику гибкие и надежные инструменты для обучения любого животного. Вы можете использовать классические условные рефлексы, чтобы связать любое ранее нейтральное поведение (слалом, выдержка сидя) с тем, что любит ваша собака (игра, мясо, плавание), чтобы создать драйв и возбуждение при выполнении этих действий.
Перенесение ценности: превращаем кротовый холмик в гору.
Эта книга описывает много примеров выработкиклассических условных рефлексов. Например, когда Баз впервые увидел короткий туннель, это был нейтральный раздражитель — он ничего не значил для него. Я кликала и поощряла его игрушкой, пока он не начал пробегать сквозь туннель. Используя положительное подкрепление, я вскоре выработала у База условную связь с туннелем, такую же, как и с поощрением, которое он получал за него. Мастерство в дрессировке требует понимания этого процесса. В этом случае высокая ценность подкрепления игрой перешла и на туннель. Поскольку туннель давал возможность поиграть, Баз очень скоро начал радоваться и заводиться, как только он его видел. Таким образом я использовала драйв, который был у База относительно игры, чтобы создать драйв к работе.
Принцип Примака.
Когда Баз выучил вид снарядов аджилити, он быстро стал одержим «бегать аджилити». Ценность препятствий стала огромной для него, так что он не мог дождаться тренировки. Он тянул и рыл землю лапами, идя на поводке к полю со снарядами.
Мне пришлось искать способ контролировать его при подходе к полю, так что я использовала принцип Примака. Дэвид Примак заметил, что доступ к высоковероятному поведению (в данном случае, преодоление препятствий) может поощрять низковероятное поведение (спокойный подход к полю со снарядами на провисшем поводке), или, простыми словами, чтобы получить то, что ты хочешь, сделай сначала то, что я хочу.
В сущности, то, что я делала, было просто еще одной задачей по перенесению ценности. Для База подход на провисшем поводке и спокойное ожидание того, пока я открою ворота на поле со снарядами, изначально не имели той притягательности, какой обладало аджилити. Если бы я физически или голосом корректировала База, то я бы подавила реакцию выхода из-под контроля, но не исключила бы ее окончательно; его пришлось бы поправлять всю жизнь. Я настаивала на том, чтобы он сел и обратил на меня внимание перед тем, как идти бегать, так что он понял, что спокойное ожидание — хорошо, поскольку оно дает возможность побегать аджилити.
Если бы я позволила Базу волочить меня к полю со снарядами, вместо того, чтобы настаивать на спокойном подходе, то он решил бы, что это является необходимой прелюдией к занятиям аджилити, и начал бы тянуть еще сильнее. Сейчас Баз — образцовая собака вблизи любого поля для аджилити. Он даже не смотрит на других собак, поскольку он знает, что его шанс побегать зависит от его хорошего поведения.
Когда Баз начал бегать связки снарядов, он настолько полюбил это, что игрушка потеряла для него былую ценность как поощрение в конце пробега. Снова я использовала Принцип Примака, чтобы повысить ее ценность и иметь возможность поощрять База за правильное выполнение (см. гл.22). Вы можете использовать Принцип Примака в повседневных отношениях с вашей собакой. Возьмите то, что любит ваша собака (играть в мяч, например), и попросите ее сначала выполнить какую-нибудь команду (сесть или лечь) перед тем, как вознаградить ее предложением любимой игры. С применением Принципа Примака вы сможете сделать так, чтобы собака полюбила простые действия (сесть, лечь или коснуться вашей руки). И это сделает выполнение команд более быстрым и точным.