спариваний ожидания меняются, и слюнотечение при звуке зуммера становится второй натурой. В этот момент самое неприятное, что может произойти, - это услышать звуковой сигнал и не получить еду. Такое лишение привело бы к значительному снижению вероятности слюноотделения в будущем - такому же значительному, как и увеличение, произошедшее при первой паре. Эта обратная сторона обучения на основе вознаграждения, когда животное учится не связывать сигнал с вознаграждением, называется угасанием. С каждым предъявлением сигнала без ожидаемой награды процесс угасания разрушает ассоциацию, в итоге полностью уничтожая выученную реакцию. Буш и Мостеллер постарались показать, что их модель точно отражает этот процесс.
В то время как Буш и Мостеллер превращали информацию о слюноотделении в уравнения, другой человек на противоположном конце страны работал над применением математики для решения самых сложных проблем в бизнесе и промышленности. Глубокие и важные связи между этими работами не были осознаны еще несколько десятилетий.
* * *
Корпорация RAND - американский аналитический центр, основанный в 1948 году. Некоммерческое подразделение компании Douglas Aircraft Company, главной целью которого было расширение сотрудничества между наукой и военными, расцветшего в результате необходимости во время Второй мировой войны. Название корпорации является уместно общим (RAND буквально означает Research ANd Development)спектра исследовательских проектов, которыми она занимается. За годы своего существования сотрудники RAND внесли значительный вклад в такие области, как освоение космоса, экономика, вычислительная техника и даже внешние отношения.
Ричард Беллман работал в RAND в качестве математика-исследователя с 1952 по 1965 год. Будучи поклонником этого предмета еще в подростковом возрасте, Беллман неоднократно прерывал свой путь к профессии математика из-за Второй мировой войны. Сначала, чтобы поддержать военные действия, он оставил аспирантуру в Университете Джона Хопкинса, чтобы преподавать военную электронику в Университете Висконсина. Позже он перешел в Принстонский университет, где преподавал в рамках программы специализированной подготовки армии и занимался собственными исследованиями. В конце концов он защитил докторскую диссертацию в Принстоне, но не раньше, чем его призвали на работу в Лос-Аламос в качестве физика-теоретика для Манхэттенского проекта. Эти вторжения, похоже, не сильно повлияли на его карьеру. Уже через три года после войны, в возрасте всего 28 лет, он стал профессором Стэнфордского университета.
Уход из академического мира в RAND в 32 года стал, по словам Беллмана, разницей между "традиционным интеллектуалом или современным интеллектуалом, использующим результаты своих исследований для решения проблем современного общества". В RAND его математические навыки применялись для решения реальных проблем. К таким проблемам, как составление расписания приема пациентов, организация производственных линий, разработка долгосрочных инвестиционных стратегий или определение плана закупок для универмагов. Однако Беллману не нужно было ступать в больницу или на заводской цех, чтобы помочь в решении этих проблем. Все эти проблемы - и многие другие - объединены под одним абстрактным математическим зонтиком. И в глазах математика решить любую из них - значит решить их все.
Все эти проблемы объединяет то, что все они представляют собой "последовательные процессы принятия решений". В последовательном процессе принятия решений есть что-то, что нужно максимизировать: прием пациентов, производство товаров, получение денег, отправка заказов. И для этого можно предпринять различные шаги. Задача состоит в том, чтобы определить, какой набор шагов следует предпринять. Как достичь максимума? Как лучше всего подняться на гору?
Не имея особых наработок в этой области, Беллман обратился к проверенной стратегии в математике: он формализовал интуицию.2 Математический вывод, к которому он пришел, теперь известен как уравнение Беллмана, а простая интуиция, которую оно отражает, заключается в том, что лучший план действий - это тот, в котором все шаги являются наилучшими из возможных. Как бы очевидно это ни казалось, но, будучи сформулированным в математике, даже банальные утверждения могут иметь силу.
Чтобы понять, как Беллман использовал эту интуицию, нам нужно понять, как он сформулировал проблему. Сначала Беллман решил определить, насколько хорош тот или иной план, с точки зрения того, какое вознаграждение - деньги, виджеты, поставки и т. д. - он, скорее всего, принесет. Допустим, у вас есть план из пяти шагов. Общее вознаграждение - это сумма вознаграждений, которые вы получаете на каждом из этих пяти шагов. Но после того как вы сделали первый шаг, у вас теперь есть план из четырех шагов. Поэтому можно сказать, что общее вознаграждение по первоначальному пятишаговому плану - это вознаграждение, полученное за первый шаг, плюс общее вознаграждение по четырехшаговому плану. А общая награда от четырехшагового плана - это награда от первого шага плюс награда от результирующего трехшагового плана. И так далее, и так далее.
Определяя вознаграждение одного плана в терминах вознаграждения другого, Беллман сделал свое определение рекурсивным. Рекурсивный процесс - это процесс, который содержит сам себя. Рассмотрим, например, алфавитную систему. Если вы хотите составить список имен в алфавитном порядке, то начните с сортировки всех имен по первой букве. После этого вам нужно будет снова применить тот же процесс сортировки ко всем именам, начинающимся на одну и ту же букву, чтобы отсортировать их по второй букве, и так далее. Таким образом, алфавитная система становится рекурсивной.
Рекурсия - распространенный прием в математике и информатике отчасти потому, что рекурсивные определения гибкие: их можно сделать длинными или короткими, как это необходимо. Например, формулу для расчета общего вознаграждения по плану можно с одинаковым успехом применить как к плану из пяти шагов, так и к плану из 500 шагов. Рекурсия - это еще и концептуально простой способ добиться чего-то потенциально сложного. Подобно поворотам винтовой лестницы, каждый шаг в рекурсивном определении знаком, но не идентичен, и нам нужно только следовать по ним один за другим до конца.
В формулировке Беллмана есть еще две идеи, которые помогли сделать его стратегию эффективной для применения в реальных проблемах. Первая заключается в том, что он включил в свою стратегию тот весьма убедительный факт, что вознаграждение, которое вы получаете немедленно, стоит больше, чем вознаграждение, которое вы получаете позже. Для этого он ввел в рекурсивное определение коэффициент дисконтирования. Таким образом, если в первоначальной формуле вознаграждение от пятишагового плана было равно вознаграждению от первого шага плюс полное вознаграждение от четырехшагового плана, то в уравнении с дисконтированием оно будет равно вознаграждению от первого шага плюс, возможно, 80 процентов от вознаграждения от четырехшагового плана. Дисконтирование - это способ соизмерять немедленное удовлетворение с отложенным; это "птица в руке стоит двух в кустах", кодифицированное в математике.
Второе понимание было более концептуальным и более радикальным. Это был переход от фокусировки на вознаграждениях к фокусировке