на ценностях.
Чтобы понять эту подмену, давайте рассмотрим владельца малого бизнеса - очень малого бизнеса. Анжела - бродяга в нью-йоркском метро. Она знает, что может играть на своей электрической скрипке в течение 20 минут на определенных станциях метро, прежде чем ее прогонят власти, и тогда ей не разрешат вернуться. На разных станциях, однако, выплачиваются разные суммы. Туристические районы могут быть очень прибыльными, в то время как остановки для коренных ньюйоркцев приносят гораздо меньше пожертвований. Она выходит из своего дома на Гринпойнт-авеню в Бруклине и хочет оказаться рядом с домом подруги на Бликер-стрит. Какой путь ей выбрать, чтобы заработать больше всего денег по дороге к месту назначения?
До сих пор мы замечали, что, начав с одной позиции и сделав шаг по плану, мы оказываемся в обстоятельствах, в целом схожих с теми, с которых начинали, - только начинаем мы с другой позиции и имеем другой план. В последовательном принятии решений различные позиции, через которые мы можем пройти, называются состояниями, а шаги в плане часто называют действиями. В случае с Анжелой состояния - это различные станции метро , на которых она может оказаться. Каждый раз, когда Анжела совершает действие (например, переходит со станции А на станцию Б), она оказывается в новом состоянии (станция Б), которое одновременно приносит ей определенное вознаграждение (количество пожертвований, которые получает ее игра) и предоставляет ей новый набор возможных действий (другие станции, на которые можно перейти). Таким образом, состояния определяют, какие действия доступны (например, вы не можете сразу отправиться с Гринпойнт-авеню на Таймс-сквер), а действия определяют, какими будут следующие состояния.
Это взаимодействие - когда действия, предпринятые в рамках плана, влияют на то, какие действия будут доступны в будущем, - является частью того, что делает последовательные процессы принятия решений такими сложными. Что сделал Беллман, так это взял это созвездие состояний, действий и вознаграждений и перевернул его с ног на голову. Вместо того чтобы говорить о вознаграждении, ожидаемом от серии действий, он сосредоточился на ценности, которую имеет любое данное состояние.
Ценность, в разговорном смысле, - понятие туманное. Оно вызывает мысли о деньгах и стоимости, а также о более глубоких понятиях смысла и пользы, которые бывает трудно определить. Уравнение Беллмана, однако, дает точное определение ценности. Используя ту же рекурсивную структуру, которая была представлена ранее, Беллман определил ценность состояния как вознаграждение, которое вы получаете в этом состоянии, плюс дисконтированная стоимость следующего состояния. Заметьте, в этом определении нет явного понятия плана; ценность определяется другими ценностями.
Тем не менее, это уравнение опирается на знание следующего состояния. Без плана, в котором указано, какое действие будет предпринято, как мы узнаем, каким будет следующее состояние? Именно здесь в игру вступает первоначальная интуиция - идея о том, что лучший план складывается из лучших действий. Чтобы рассчитать стоимость в следующем состоянии, достаточно предположить, что будет предпринято наилучшее возможное действие. А наилучшее возможное действие - это то, которое ведет к состоянию с наибольшей ценностью! Если говорить языком ценности, то сам план исчезает.
Как же это поможет Анжеле? Учитывая карту возможных станций метро (см. рис. 25) и соответствующие пожертвования, которые она ожидает получить от каждой из них, мы можем рассчитать "функцию ценности". Функция ценности - это просто ценность, связанная с каждым состоянием (в данном случае с каждой станцией). Мы можем рассчитать ее, начав с конца и работая в обратном направлении. Как только Анжела дойдет до Бликер-стрит, она сразу же отправится домой к своему другу и не будет заниматься букингом, поэтому вознаграждение, которое она получит в конечном пункте назначения, составит 0 долларов. Поскольку с этой точки не существует других состояний, ценность Бликер-стрит также равна нулю. Возвращаясь назад, можно вычислить ценности Юнион-сквер и 34-й улицы в терминах ожидаемого там вознаграждения и ценности Бликер-стрит. Этот процесс продолжается до тех пор, пока не будет вычислена стоимость каждой станции.
Рисунок 25
Имея на руках эти значения, Анжела теперь может планировать свое путешествие. Отправившись с Гринпойнт-авеню, она может сесть на поезд до Корт-Сквер или Метрополитен-авеню. Что ей выбрать? Если смотреть только на возможное вознаграждение от каждого из них, то Метрополитен-авеню кажется более выгодным выбором, поскольку предлагает 10 долларов против 5 долларов на Корт-Сквер. Но если посмотреть на функцию ценности, то Корт-Сквер - правильный выбор. Это происходит потому, что функция ценности заботится о том, в какие состояния вы можете попасть в будущем, а с Корт-Сквер Анджела может попасть прямо в джекпот, на Таймс-сквер. С Корт-сквер Анжела также может отправиться на Квинс-плаза, но это не имеет значения, потому что функция ценности предполагает, что Анжела умна.Она предполагает, что с Корт-сквер она пойдет на Таймс-сквер, потому что Таймс-сквер - лучший выбор. В целом, следуя функции ценности, Анжела пройдет через Корт-Сквер на Таймс-сквер, затем на 34-ю улицу и, наконец, доберется до места назначения на Бликер-стрит. В общей сложности она заработает 65 долларов - больше, чем может предложить любой путь на этой карте.
Переход Беллмана на функцию ценности был важен, потому что он исправил недостаток в первоначальной постановке задачи. Мы начали с того, что пытались вычислить общее вознаграждение, которое мы могли бы получить от данного плана. На самом деле, план - это именно то, что мы пытаемся найти! Как только мы узнаем функцию ценности, план становится простым: следуйте ему. Подобно хлебным крошкам, оставленным на лесной тропинке, функция ценности указывает вам, куда идти. Тому, кто ищет наибольшую награду, нужно лишь жадно искать следующее состояние с наибольшей ценностью. Все действия могут быть выбраны на основе этого простого правила.
В результате дисконтирования, которое является частью определения стоимости, происходят интересные вещи. Например, посмотрите на варианты, которые есть у Анжелы с Таймс-сквер. Она может либо пойти на 34-ю улицу, получить 20 долларов и закончить на Бликер-стрит, либо пойти на 14-ю улицу, получить 8 долларов, затем пойти на Юнион-сквер, получить 12 долларов и закончить на Бликер-стрит. Оба маршрута принесут ей в общей сложности 20 долларов. Но ценность 34-й улицы равна 20, в то время как ценность 14-й улицы равна 17,6 (вычисляется как 8 + 0,8 x 12), что указывает на то, что 34-я улица - лучший вариант. Это демонстрирует, как дисконтирование будущих вознаграждений может привести к планам с меньшим количеством шагов; если есть только столько вознаграждений, которые можно получить, лучше получить их быстрее, чем медленнее. Дисконтирование также означает, что даже большие вознаграждения