Глава 2
Эксперименты по перепрограммированию мозга хорька описаны в статье Visual behaviour mediated by retinal projections directed to the auditory pathway Лори фон Мельхнер, Сары Паллас и Мриганки Сура (Nature, 2000). История Бена Андервуда рассказана в статье Seeing with sound Джоанны Мурхед (Guardian, 2007) и на сайте www.benunderwood.com. В статье Generality of the functional structure of the neocortex (Naturwissenschaften, 1977) Отто Кройцфельдт утверждает, что кора головного мозга — единый алгоритм. С ним согласен Вернон Маунткасл в главе An organizing principle for cerebral function: The unit model and the distributed system книги The Mindful Brain под редакцией Джералда Эделмена и Вернона Маунткасла (MIT Press, 1978)130. Гэри Маркус, Адам Марблстоун и Том Дин возражают против этой теории в статье The atoms of neural computation (Science, 2014).
В работе The unreasonable effectiveness of data Алона Халеви, Питера Норвига и Фернандо Перейры (IEEE Intelligent Systems, 2009) приводятся аргументы в пользу машинного обучения как новой парадигмы научных открытий. Бенуа Мандельброт рассматривает фрактальную геометрию природы в книге The Fractal Geometry of Nature* (Freeman, 1982)131. Книга Джеймса Глейка Chaos* (Viking, 1987)132 обсуждает и иллюстрирует множества Мандельброта. Программа Langlands, научный проект по объединению разных математических дисциплин, описана в книге Эдварда Френкеля Love and Math (Basic Books, 2014)133. The Golden Ticket Лэнса Фортнау (Princeton University Press, 2013) представляет собой введение в NP-полноту и проблему P = NP. The Annotated Turing+ Чарльза Петцольда (Wiley, 2008)134 объясняет машины Тьюринга, анализируя его статью на эту тему.
Проект «Cайк» описан в статье: Cyc: Toward programs with common sense* Дугласа Лената и соавторов (Communications of the ACM, 1990). Питер Норвиг обсуждает критику Ноама Хомского, которой тот подверг статистическое обучение в статье On Chomsky and the two cultures of statistical learning (norvig.com/chomsky.html). Книга Джерри Фодора The Modularity of Mind (MIT Press, 1983) суммирует воззрения автора на принципы работы разума. Статьи What big data will never explain Леона Уисельтира (New Republic, 2013) и Pundits, stop sounding ignorant about data Эндрю Макафи (Harvard Business Review, 2013) дают почувствовать разногласия в отношении возможностей больших данных. Даниэль Канеман объясняет, почему алгоритмы часто побеждают интуицию, в двадцать первой главе книги Thinking, Fast and Slow. Дэвид Паттерсон обосновывает важность вычислений и сбора данных в борьбе с раком в статье Computer scientists may have what it takes to help cure cancer (New York Times, 2011).
Подробнее о путях разных племен к Верховному алгоритму — в соответствующих разделах ниже.
Глава 3
Классическая формулировка Юмом проблемы индукции появляется в первом томе «Трактата о человеческой природе» (1739). Дэвид Уолперт выводит свою теорему «бесплатных обедов не бывает» для индукции в статье The lack of a priori distinctions between learning algorithms* (Neural Computation, 1996). В статье Toward knowledge-rich data mining* (Data Mining and Knowledge Discovery, 2007) я обсуждаю важность априорного знания в машинном обучении, а в The role of Occam’s razor in knowledge discovery* (Data Mining and Knowledge Discovery, 1999) — неправильные интерпретации бритвы Оккама. Переобучение — одна из главных тем уже упоминавшейся книги The Signal and the Noise Нейта Сильвера, который считает ее «самой важной научной проблемой, о которой вы никогда не слышали». В статье Why most published research findings are false* Джона Иоаннидиса (PLoS Medicine, 2005) обсуждается проблема ошибочного принятия случайных научных результатов за истинные. Йоав Беньямини и Йосеф Хохберг предлагают способ борьбы с ней в статье Controlling the false discovery rate: A practical and powerful approach to multiple testing* (Journal of the Royal Statistical Society, Series B, 1995). Дилемма смещения–дисперсии анализируется в статье Neural networks and the bias/variance dilemma Стюарта Джемана, Эли Биненстока и Рене Дурсата (Neural Computation, 1992). В статье Machine learning as an experimental science Пэта Лэнгли (Machine Learning, 1988) обсуждается роль эксперимента в машинном обучении.
Уильям Стэнли Джевонс впервые предложил считать индукцию противоположностью дедукции в книге The Principles of Science (1874). Статья Machine learning of first-order predicates by inverting resolution* Стива Магглтона и Рэя Бантина (Proceedings of the Fifth International Conference on Machine Learning, 1988) положила начало применению обратной дедукции в машинном обучении. Введением в область индуктивного логического программирования может служить книга Relational Data Mining* под редакцией Сашо Джероского и Нады Лаврач (Springer, 2001), В ней также рассматривается обратная дедукция. Статья The CN2 Induction Algorithm* Питера Кларка и Тима Ниблетта (Machine Learning, 1989) суммирует ряд важнейших алгоритмов выведения правил в стиле Михальского. Подход к выведению правил, применяемый в торговых сетях, описан в статье Fast algorithms for mining association rules* Ракеша Агарвала и Рамакришнана Шриканта (Proceedings of the Twentieth International Conference on Very Large Databases, 1994). Пример выведения правил для прогнозирования рака можно найти в статье Carcinogenesis predictions using inductive logic programming Ашвина Шринивасана, Росса Кинга, Стивена Магглтона и Майкла Стернберга (Intelligent Data Analysis in Medicine and Pharmacology, 1997).
Два ведущих обучающих алгоритма, основанных на деревьях решений, представлены в книгах C4.5: Programs for Machine Learning Джона Росса Куинлана (Morgan Kaufmann, 1992) и Classification and Regression Trees* Лео Бреймана, Джерома Фридмана, Ричарда Олшена и Чарльза Стоуна (Chapman and Hall, 1984). В статье Real-time human pose recognition in parts from single depth images* (Communications of the ACM, 2013) Джейми Шоттон и соавторы объясняют принципы использования деревьев решений для отслеживания движений игроков в системе Kinect компании Microsoft. Статья Competing approaches to predicting Supreme Court decision making Эндрю Мартина и соавторов (Perspectives on Politics, 2004) рассказывает, как деревья решений победили экспертов-юристов в прогнозировании результатов голосования в Верховном суде США. Там же приведено дерево решений для судьи Сандры Дэй О’Коннор.
Аллен Ньюэлл и Герберт Саймон сформулировали гипотезу, что весь интеллект сводится к манипулированию символами, в статье Computer science as empirical enquiry: Symbols and search (Communications of the ACM, 1976). Дэвид Марр предложил три уровня обработки информации в книге Vision* (Freeman, 1982)135. В книге Machine Learning: An Artificial Intelligence Approach* под редакцией Рышарда Михальского, Джейми Карбонелла и Тома Митчелла (Tioga, 1983) описан ранний период символистских исследований в машинном обучении. Статья Connectionist AI, symbolic AI, and the brain* Пола Смоленского (Artificial Intelligence Review, 1987) представляет коннекционистский подход к символистским моделям.
Глава 4
Книга Себастьяна Сеунга Connectome (Houghton Mifflin Harcourt, 2012)136 — доступное введение в нейробиологию, коннектомику и пугающую проблему создания головного мозга путем обратного инжиниринга. Книга Parallel Distributed Processing* под редакцией Дэвида Румельхарта, Джеймса Макклелланда и исследовательской группы параллельной распределенной обработки (MIT Press, 1986) — библия коннекционизма в его зените, пришедшемся на 1980-е. Neurocomputing* под редакцией Джеймса Андерсона и Эдварда Розенфельда (MIT Press, 1988) содержит многие классические коннекционистские статьи, включая статью Маккаллоха и Питса о первых моделях нейронов, Хебба о правиле Хебба, Розенблатта о перцептронах, Хопфилда о сетях Хопфилда, Окли, Хинтона и Сейновского о машинах Больцмана, Сейновского и Розенберга о NETtalk, а также Румельхарта, Хинтона и Уильямса об обратном распространении ошибки. Глава Efficient backprop* Яна Лекуна, Леона Ботту, Женевьевы Орр и Клауса-Роберта Мюллера в книге Neural Networks: Tricks of the Trade под редакцией Женевьевы Орр и Клауса-Роберта Мюллера (Springer, 1998) объясняет некоторые важнейшие трюки, необходимые для корректной работы обратного распространения.
Neural Networks in Finance and Investing* под редакцией Роберта Триппи и Эфраима Турбана (McGraw-Hill, 1992) — сборник статей по применению нейронных сетей в области финансов. Статья Life in the fast lane: The evolution of an adaptive vehicle control system Тодда Йохема и Дина Померло (AI Magazine, 1996) описывает проект создания беспилотного автомобиля ALVINN. Рекомендую также диссертацию Пола Вербоса — Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences* (Harvard University, 1974). Артур Брайсон и Хэ Юци приводят одну из первых разработанных ими версий обратного распространения в книге Applied Optimal Control* (Blaisdell, 1969).
Краткое введение в глубокое обучение — книга Learning Deep Architectures for AI* Йошуа Бенгио (Now, 2009). Проблема распределения сигнала ошибки в обратном распространении описана в статье Learning long-term dependencies with gradient descent is difficult* Йошуа Бенгио, Патрис Симар и Паоло Фраскони (IEEE Transactions on Neural Networks, 1994). В статье How many computers to identify a cat? 16,000 Джона Маркоффа (New York Times, 2012) рассказывается о проекте Google Brain и его результатах. Сверточные нейронные сети, в настоящее время лидирующие в глубоком обучении, описаны в статье Gradient-based learning applied to document recognition* Яна Лекуна, Леона Ботту, Йошуа Бенгио и Патрика Хаффнера (Proceedings of the IEEE, 1998). Статья The $1.3B quest to build a supercomputer replica of a human brain Джонатона Китса (Wired, 2013) описывает проект по моделированию мозга, запущенный Евросоюзом. Об инициативе BRAIN рассказывается в статье Томаса Инсела, Стори Лэндис и Фрэнсиса Коллинса The NIH BRAIN Initiative (Science, 2013).
Стивен Пинкер подытоживает критику символистами коннекционистских моделей во второй главе книги How the Mind Works (Norton, 1997). Сеймур Паперт берет голос в этих дебатах в статье One AI or Many? (Daedalus, 1988). Книга The Birth of the Mind Гэри Маркуса (Basic Books, 2004) объясняет, как эволюция сумела породить сложные способности человеческого мозга.