проницательной. Хотя концептуально прост, подбор шаблонов практически сложен. Количество необходимых шаблонов растет с увеличением числа объектов, которые вы хотите обнаружить. Если каждое изображение нужно сравнивать с каждым фильтром, то вычислений будет очень много. Шаблоны также должны более или менее точно соответствовать изображению. Но из-за огромного количества различных световых картин, которые один и тот же объект может создавать на сетчатке глаза или объективе камеры, практически невозможно определить, как должен выглядеть каждый пиксель изображения при наличии того или иного объекта. Поэтому шаблоны очень сложно разрабатывать для любых, кроме самых простых, паттернов.
Эти проблемы делают подбор шаблонов сложной задачей как для искусственных зрительных систем, так и для мозга. Однако идеи, представленные в Pandemonium, представляют собой более распределенный подход, поскольку признаки, обнаруженные вычислительными демонами, являются общими для всех когнитивных демонов. Подход также является иерархическим. То есть Pandemonium разбивает проблему зрения на два этапа: сначала ищем простые вещи, затем - более сложные.
Вместе эти свойства делают систему в целом более гибкой. Например, если Pandemonium настроен на распознавание букв первой половины алфавита, то он вполне сможет распознать и остальные. Это связано с тем, что низкоуровневые вычислительные демоны уже знают, из каких базовых форм состоят буквы. Когнитивному демону новой буквы нужно будет просто понять, как правильно слушать демонов ниже него. Таким образом, элементарные признаки работают как словарь - или набор строительных блоков, - которые можно комбинировать и рекомбинировать для обнаружения дополнительных сложных паттернов. Без такой иерархической структуры и совместного использования низкоуровневых признаков базовый подход к подбору шаблонов должен был бы создавать новый шаблон для каждой буквы с нуля.
Дизайн Pandemonium вызывает некоторые вопросы. Например, как каждый вычислительный демон узнает, о какой базовой форме ему кричать? И как когнитивные демоны узнают, кого им следует слушать? Селфридж предлагает, чтобы система узнавала ответы на эти вопросы методом проб и ошибок. Если, например, изменение того, как демон, предпочитающий "А", слушает тех, кто ниже его по рангу, помогает ему лучше обнаруживать "А", то сохраните эти изменения; в противном случае не делайте этого и попробуйте что-нибудь новое. Или, если добавление вычислительного демона, который будет кричать о новом низкоуровневом паттерне, сделает всю систему лучше в обнаружении букв, то этот новый демон останется; в противном случае он уйдет. Конечно, это сложный процесс, и его работа не гарантирована, но когда он происходит, то создается желаемый эффект - система автоматически подстраивается под тип объектов, которые ей нужно обнаружить. Например, штрихи, из которых состоят символы японского алфавита, отличаются от штрихов английского алфавита. Самообучающаяся система обнаружит различные базовые паттерны для каждого из них. Не нужно никаких предварительных или специальных знаний, просто дайте модели попробовать справиться с задачей.
Ученый-компьютерщик Леонард Ур был настолько впечатлен идеями Селфриджа и его коллег, что захотел распространить их работу в более широком масштабе. В 1963 году он написал в журнале Psychological Bulletin, обращаясь к аудитории психологов, о том, каких успехов добились компьютерные ученые в области зрения. В своей статье "Компьютеры "распознавания образов" как модели восприятия формы" он указывает, что модели того времени "фактически уже были в состоянии предложить физиологические и психологические эксперименты" и даже предупреждает, что "было бы прискорбно, если бы психологи не играли никакой роли в этом теоретическом развитии своей собственной науки". Статья является конкретным доказательством того, что эти две области всегда были взаимосвязаны. Но такие явные публичные призывы к сотрудничеству не всегда были нужны. Иногда было достаточно личных отношений.
Джером Леттвин был неврологом и психиатром из Чикаго, штат Иллинойс. Он также был другом Селфриджа, в молодости жил с ним и Питтсом в одном доме. По собственному признанию, Леттвин был "тучным неряхой" и хотел стать поэтом, но уступил желанию матери и стал врачом. Самое бунтарское, что ему удалось, - это время от времени бросать медицинскую практику, чтобы заняться научными исследованиями.
Вдохновленный работой своего друга и бывшего сожителя, Леттвин в конце 1950-х годов отправился на поиски нейронов, реагирующих на низкоуровневые характеристики - то есть на те вещи, о которых кричат демоны вычислений. Животным, которое он выбрал для изучения, была лягушка. Лягушки используют зрение в основном для быстрой рефлекторной реакции на добычу или хищника, и поэтому их зрительная система относительно проста.
Внутри сетчатки отдельные фоторецепторы, воспринимающие свет, передают свою информацию другой группе клеток, называемой ганглиозными клетками. Каждый фоторецептор соединяется со многими ганглиозными клетками, и каждая ганглиозная клетка получает входные сигналы от многих фоторецепторов. Но, что очень важно, все эти сигналы поступают из определенной ограниченной области пространства. Поэтому ганглиозная клетка реагирует только на свет, который попадает на сетчатку в определенном месте - и у каждой клетки есть свое собственное предпочтительное место.
На тот момент предполагалось, что ганглиозные клетки не выполняют особых вычислений. Их считали в основном ретрансляторами - они просто отправляли информацию об активности фоторецепторов в мозг, как почтальон. Такая картина укладывалась в рамки шаблонно-согласованного представления о визуальной обработке. Если роль мозга заключается в сравнении визуальной информации, поступающей от глаза, с набором хранящихся в памяти шаблонов, то он не хотел бы, чтобы эта информация каким-либо образом искажалась ганглиозными клетками. Но если ганглиозные клетки являются частью иерархии, где каждый уровень играет небольшую роль в конечном обнаружении сложных объектов, то они должны быть специализированы для обнаружения полезных элементарных визуальных паттернов. Таким образом, вместо того чтобы передавать информацию дословно, они должны активно ее обрабатывать и перерабатывать.
Записывая активность этих ганглиозных клеток и демонстрируя лягушке всевозможные движущиеся объекты и узоры, Леттвин обнаружил, что гипотеза иерархии верна. Более того, в работе 1959 года "Что глаз лягушки говорит мозгу лягушки" он и его соавторы описали четыре различных типа ганглиозных клеток, которые реагировали на разные простые паттерны. Одни реагировали на быстрые крупные движения, другие - на превращение света в темноту, третьи - на изогнутые объекты, которые дрожали. Эти различные категории реакций доказывали, что ганглиозные клетки были специально созданы для обнаружения различных элементарных паттернов. Эти результаты не только соответствовали представлениям Селфриджа о низкоуровневых детекторах признаков, но и подтверждали идею о том, что эти признаки специфичны для типа объектов, которые система должна обнаружить. Например, последний класс клеток лучше всего реагировал, когда небольшой темный объект быстро перемещался по фиксированному фону . Описав их в статье, Леттвин заметил: "Можно ли лучше описать систему для обнаружения доступной ошибки?
Интуиция Селфриджа оказалась верной. После находки Леттвина на лягушках сообщество стало воспринимать зрительную систему больше как стопку кричащих демонов и