Торонто были всего лишь количественным скачком - увеличением числа нейронов и изображений, - ошеломляющее повышение производительности качественно изменило ситуацию в этой области. Увидев, на что они способны, исследователи начали изучать конволюционные нейронные сети и пытаться сделать их еще лучше. Обычно это происходило в том же направлении: они становились больше, но были найдены и важные изменения в их структуре и способах обучения.
К 2015 году конволюционная нейронная сеть достигла уровня производительности, ожидаемого от человека в соревновании по классификации изображений (что на самом деле не является 100-процентным показателем: некоторые изображения могут быть запутанными). И теперь конволюционные нейронные сети составляют основу практически любого программного обеспечения для обработки изображений: распознавание лиц в социальных сетях, обнаружение пешеходов в самоуправляемых автомобилях и даже автоматическая диагностика заболеваний по рентгеновским снимкам. В забавном случае конволюционные нейронные сети даже использовались неврологами для автоматического определения местоположения нейронов на снимках тканей мозга. Искусственные нейронные сети теперь смотрят на настоящие.
Похоже, инженеры сделали разумный ход, обратившись к мозгу за вдохновением для создания визуальной системы. Внимание Фукусимы к функциям нейронов - и сведение этих функций к простым операциям - принесло свои плоды. Но когда он делал первые шаги в разработке этих моделей, вычислительных ресурсов и данных для их создания просто не было. Спустя десятилетия следующее поколение инженеров подхватило проект и довело его до конца. В результате современные конволюционные нейронные сети наконец-то могут решать многие задачи, которые изначально ставились в летнем проекте Массачусетского технологического института в 1966 году.
Но так же, как "Пандемониум" Селфриджа помог вдохновить нейробиологов-визуалистов, отношения между конволюционными нейронными сетями и мозгом не ограничиваются только одним путем. Неврологи получают выгоду от усилий, которые компьютерные ученые прилагают к созданию моделей, способных решать реальные визуальные задачи. Это связано с тем, что большие, тщательно обученные конволюционные нейронные сети не только хорошо распознают объекты на изображениях, но и предсказывают, как мозг будет реагировать на эти изображения.
* * *
Обработка зрительных сигналов начинается в первичной зрительной коре - именно там Хьюбел и Визель делали свои записи, - но после этого в процесс вовлекается множество областей. Первичная зрительная кора посылает связи во (вы уже догадались) вторичную зрительную кору. И после еще нескольких пересылок информация попадает в височную кору, расположенную сразу за висками.
Височная кора головного мозга уже давно связана с распознаванием объектов. Еще в 1930-х годах исследователи заметили, что повреждение этой области мозга приводит к странному поведению. Пациенты с повреждением височной коры плохо решают, на какие вещи важно обратить внимание, и поэтому легко отвлекаются. Они также не проявляют нормальной эмоциональной реакции на изображения; они могут видеть картины, которые большинству людей показались бы ужасающими, и почти не моргать. А когда они хотят изучить предметы, они могут не смотреть на них, а класть их в рот.
Понимание этой области мозга уточнялось десятилетиями тщательного наблюдения за пациентами или животными с поражениями мозга и, в конечном счете, путем регистрации активности ее нейронов. Это привело к выводу, что подчасть височной коры - "нижняя" часть в нижней части, также называемая "ИТ", - является основным местом для понимания объектов. У людей с повреждением ИТ в основном нормальное поведение и зрение, но есть более специфическая проблема - они не могут правильно называть или распознавать объекты; например, они могут не узнавать лица друзей или путать идентичность предметов, которые кажутся похожими.
Соответственно, нейроны в этой области реагируют на объекты. Некоторые нейроны имеют четкие предпочтения: один может реагировать на часы, другой - на дом, третий - на банан и т. д. Но другие клетки менее предсказуемы. Они могут предпочитать части объектов или одинаково реагировать на два разных объекта, имеющих некоторые общие черты. Некоторым клеткам также важен угол, под которым виден объект: возможно, они больше всего реагируют, если объект виден прямо, но другие клетки более снисходительны и реагируют на объект практически под любым углом. Некоторым важен размер и расположение объекта, другим - нет. В общем, ИТ - это целый мешок нейронов, заинтересованных в объектах. Хотя их не всегда легко интерпретировать, такие реакции, ориентированные на объекты, делают ИТ похожим на вершину иерархии зрительных процессов, последнюю остановку на экспрессе зрительной системы.
Неврологи десятилетиями пытались понять, как именно ИТ проявляет такие реакции. Часто они шли по стопам Фукусимы и строили модели со стопками простых и сложных клеток, надеясь, что эти вычисления будут имитировать те, которые приводят к активности ИТ, и сделают эту активность абсолютно предсказуемой. Этот подход в определенной степени сработал, но, как и в случае с "Неокогнитроном", модели были маленькими и обучались своим связям на основе небольшого набора маленьких изображений. Чтобы добиться реального прогресса, нейробиологам нужно было увеличить масштаб своих моделей так же, как это делали компьютерные ученые.
В 2014 году две отдельные группы ученых - одна под руководством Николауса Кригескорте Кембриджского университета и Джеймса ДиКарло из Массачусетского технологического института - именно так и поступили. Они показывали реальные и разнообразные изображения объектов испытуемым (людям и обезьянам) и регистрировали активность различных областей их зрительной системы, когда они рассматривали их. Они также показали те же изображения большой конволюционной нейронной сети, обученной классифицировать реальные изображения. Обе группы пришли к выводу, что эти компьютерные модели очень хорошо приближены к биологическому зрению. В частности, они показали, что если вы хотите угадать, как нейрон в ИТ отреагирует на конкретное изображение, то лучше всего - лучше, чем любой из предыдущих опробованных нейробиологами методов, - посмотреть, как на него отреагируют искусственные нейроны в сети. В частности, нейроны в последнем слое сети лучше всего предсказывали активность нейронов ИТ. Более того, нейроны предпоследнего слоя лучше всего предсказывали активность нейронов в V4 - области, которая обеспечивает вход в ИТ. Казалось, что конволюционная нейронная сеть имитирует зрительную иерархию мозга.
Показав столь поразительное соответствие между моделью и мозгом, это исследование положило начало революции в изучении биологического зрения. Оно показало, что нейробиологи в целом находятся на правильном пути, начатом Леттвином, Хьюбелом и Визелем, но им нужно быть больше и смелее. Если они хотели получить модель, которая могла бы объяснить, как животные видят объекты, то сама модель должна была быть способна видеть объекты.
Однако этот путь символизировал отказ от принципов, которые так дороги некоторым теоретикам: стремление к элегантности, простоте и эффективности моделей. Нет ничего элегантного или эффективного в 650 000 искусственных нейронов, соединенных между собой тем способом, который они нашли для работы.