Глава 7
Фрэнк Абигнейл подробно рассказывает о своих подвигах в автобиографии Catch Me If You Can*, написанной в соавторстве со Стэном Реддингом (Grosset & Dunlap, 1980)139. Исходный технический отчет об алгоритме ближайшего соседа можно найти в статье Эвелин Фикс и Джо Ходжеса Discriminatory analysis: Nonparametric discrimination: Consistency properties* (USAF School of Aviation Medicine, 1951). В книге Nearest Neighbor (NN) Norms* под редакцией Белура Дасатари (IEEE Computer Society Press, 1991) собраны многие ключевые для этой области статьи. Локально линейная регрессия рассмотрена в статье Locally weighted learning* Криса Аткесона, Эндрю Мура и Стефана Шаала (Artificial Intelligence Review, 1997). Первая система совместной фильтрации, основанная на алгоритме ближайшего соседа, описана в статье GroupLens: An open architecture for collaborative filtering of netnews* Пола Резника и соавторов (Proceedings of the 1994 ACM Conference on Computer-Supported Cooperative Work, 1994). Алгоритм совместной фильтрации Amazon приведен в статье Amazon.com recommendations: Item-to-item collaborative filtering* Грега Линдена, Брента Смита и Джереми Йорка (IEEE Internet Computing, 2003). (О Netflix см. литературу к главе 8.) Вклад рекомендательных систем в продажи Amazon и Netflix можно найти, например, в книге Виктора Майера-Шенбергера и Кеннета Кукьера Big Data140 или Predictive Analytics Зигеля (см. выше). Также любопытна статья 1967 года Тома Кавера и Питера Харта об уровне ошибки ближайшего соседа — Nearest neighbor pattern classification* (IEEE Transactions on Information Theory).
Проклятие размерности обсуждается в разделе 2.5 книги The Elements of Statistical Learning* Тревора Хасти, Роба Тибширани и Джерри Фридмана (второе издание, Springer, 2009). В статье Wrappers for feature subset selection* Рона Кохави и Джорджа Джона (Artificial Intelligence, 1997) приводится сравнение методов выбора атрибутов. Статья Similarity metric learning for a variable-kernel classifier* Дэвида Лоу (Neural Computation, 1995) — пример алгоритма взвешивания свойств.
Статья Support vector machines and kernel methods: The new generation of learning machines* Нелло Кристианини и Бернхарда Шелькопфа (AI Magazine, 2002) — в целом нематематическое введение в метод опорных векторов. Революция, произведенная этим методом, началась со статьи A training algorithm for optimal margin classifiers* Бернхарда Босера, Изабель Гуйон и Владимира Вапника (Proceedings of the Fifth Annual Workshop on Computational Learning Theory, 1992). Первой статьей о применении метода опорных векторов к классификации текстов стала Text categorization with support vector machines* Торстена Йоахимса (Proceedings of the Tenth European Conference on Machine Learning, 1998). Глава 5 книги An Introduction to Support Vector Machines* Нелло Кристианини и Джона Шоуи-Тэйлора (Cambridge University Press, 2000) — краткое введение в оптимизацию с ограничениями в контексте метода опорных векторов.
Книга Case-Based Reasoning* Джанет Колоднер (Morgan Kaufmann, 1993) — учебник по рассуждениям на основе прецедентов. В статье Using case-based retrieval for customer technical support* Евангелоса Симудиса (IEEE Expert, 1992) объясняется применение этого метода в службах поддержки. Eliza описана в статье Rise of the software machines* (Economist, 2013) и на сайте компании IPsoft. Кевин Эшли рассматривает рассуждения на основе прецедентов в юриспруденции в своей книге Modeling Legal Arguments* (MIT Press, 1991). Дэвид Коуп подытоживает свой подход к автоматизированному сочинению музыки в статье Recombinant music: Using the computer to explore musical style (IEEE Computer, 1991). Дедре Джентнер предложил картирование структур в статье Structure mapping: A theoretical framework for analogy* (Cognitive Science, 1983). В статье The man who would teach machines to think Джеймса Сомерса (Atlantic, 2013) рассмотрены взгляды Дугласа Хофстадтера на искусственный интеллект.
Алгоритм RISE я описал в статье Unifying instance-based and rule-based induction* (Machine Learning, 1996).
Глава 8
В книге Элисон Гопник, Энди Мельцоффа и Пэта Кула The Scientist in the Crib (Harper, 1999) описаны открытия психологов в области механизмов обучения новорожденных и маленьких детей.
Алгоритм k-средних изначально был предложен Стюартом Ллойдом из Bell Labs в 1957 году в техническом отчете под названием Least squares quantization in PCM* (позже он был издан в виде статьи в IEEE Transactions on Information Theory in 1982). Первая статья о EM-алгоритме — Maximum likelihood from incomplete data via the EM algorithm* Артура Демпстера, Нэн Лэрд и Дональда Рубина (Journal of the Royal Statistical Society B, 1977). Иерархическая кластеризация и другие методы описаны в книге Finding Groups in Data: An Introduction to Cluster Analysis* Леонарда Кауфмана и Питера Руссо (Wiley, 1990).
Метод главных компонент — один из старейших в машинном обучении и статистике. Он был предложен Карлом Пирсоном еще в 1901 году в статье On lines and planes of closest fit to systems of points in space* (Philosophical Magazine). Разновидность уменьшения размерности, используемая при оценке эссе на экзаменах SAT, была введена Скоттом Дирвестером и соавторами в статье Indexing by latent semantic analysis* (Journal of the American Society for Information Science, 1990). Йегуда Корен, Роберт Белл и Крис Волинский объясняют, как работает коллаборативная фильтрация в стиле Netflix, в статье Matrix factorization techniques for recommender systems* (IEEE Computer, 2009). Алгоритм Isomap появился в статье A global geometric framework for nonlinear dimensionality reduction* Джоша Тененбаума, Вина де Сильвы и Джона Лэнгфорда (Science, 2000).
Книга Reinforcement Learning: An Introduction* Рича Саттона и Энди Барто (MIT Press, 1998) — стандартный учебник по обучению с подкреплением. Universal Artificial Intelligence* Маркуса Хаттера (Springer, 2005) — попытка создать общую теорию данного вида обучения. Пионерской работе Артура Сэмюэла по обучению игре в шашки посвящена его статья Some studies in machine learning using the game of checkers* (IBM Journal of Research and Development, 1959). В ней встречается одно из первых упоминаний в печати термина «машинное обучение». Крис Уоткинс сформулировал проблему обучения с подкреплением в своей диссертации Learning from Delayed Rewards* (Cambridge University, 1989). Обучающийся алгоритм с подкреплением DeepMind, применяемый в компьютерных играх, описан в статье Human-level control through deep reinforcement learning* Владимира Мниха и соавторов (Nature, 2015).
Пол Розенблюм рассказывает о развитии алгоритма образования фрагментов в статье A cognitive odyssey: From the power law of practice to a general learning mechanism and beyond (Tutorials in Quantitative Methods for Psychology, 2006). A/B-тестирование и другие методики онлайн-экспериментов объясняются в статье Practical guide to controlled experiments on the Web: Listen to your customers not to the HiPPO* Рона Кохави, Рэндала Хенне и Дэна Зоммерфельда (Proceedings of the Thirteenth International Conference on Knowledge Discovery and Data Mining, 2007). Инкрементное моделирование — многомерное обобщение A/B-тестирования — тема седьмой главы книги Predictive Analytics Эрика Зигеля (Wiley, 2013).
В книге Introduction to Statistical Relational Learning* под редакцией Лизы Гетур и Бена Таскара (MIT Press, 2007) рассмотрены основные подходы в области статистического реляционного обучения. Итоги работы по моделированию сплетен мы с Мэттом Ричардсоном подводим в статье Mining social networks for viral marketing (IEEE Intelligent Systems, 2005).
Глава 9
Введение в метаобучение — тема книги Model Ensembles: Foundations and Algorithms* Чжоу Чжихуа (Chapman and Hall, 2012). Первая статья о стэкинге — Stacked generalization* Дэвида Уолперта (Neural Networks, 1992). Лео Брейман ввел бэггинг в статье Bagging predictors* (Machine Learning, 1996), а случайный лес — в Random forests* (Machine Learning, 2001). Бустинг описан в статье Experiments with a new boosting algorithm Йоава Фройнда и Роба Шапире (Proceedings of the Thirteenth International Conference on Machine Learning, 1996).
В статье I, Algorithm Анила Анантасвами (New Scientist, 2011) можно познакомиться с хроникой поиска объединения логики и вероятности в науке об искусственном интеллекте. В соавторстве с Дэниелом Лоудом я написал введение в логические сети Маркова — книгу Markov Logic: An Interface Layer for Artificial Intelligence* (Morgan & Claypool, 2009). На сайте Alchemy (alchemy.cs.washington.edu) вы найдете руководства, видео, MLN, наборы данных, публикации, указатели на другие системы и еще много интересного. Логическая сеть Маркова для роботизированного картирования описана в статье Hybrid Markov logic networks* Вана Цзюэ и Педро Домингоса (Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, 2008). Томас Дитрих и Бао Синьлун описывают применение MLN в PAL — одном из проектов DARPA — в статье Integrating multiple learning components through Markov logic* (Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, 2008). Статья Extracting semantic networks from text via relational clustering* Стэнли Кока и Педро Домингоса (Proceedings of the Nineteenth European Conference on Machine Learning, 2008) описывает получение семантических сетей на базе интернета.
Эффективные MLN с иерархией классов и частей описаны в статье Learning and inference in tractable probabilistic knowledge bases* Матиаса Ниперта и Педро Домингоса (Proceedings of the Thirty-First Conference on Uncertainty in Artificial Intelligence, 2015). О подходе Google к параллельному градиентному спуску можно прочесть в статье Large-scale distributed deep networks* Джеффа Дина и соавторов (Advances in Neural Information Processing Systems 25, 2012). Статья A general framework for mining massive data streams* Педро Домингоса и Джеффа Халтена (Journal of Computational and Graphical Statistics, 2003) подытоживает предложенный нами метод обучения из незамкнутых потоков данных, основанный на сэмплинге. Проект FuturICT — тема статьи The machine that would predict the future Дэвида Вейнбергера (Scientific American, 2011).
Статья Cancer: The march on malignancy (Nature supplement, 2014) знакомит читателя с текущим состоянием борьбы с раком. Статья Using patient data for personalized cancer treatments Криса Эдвардса (Communications of the ACM, 2014) описывает ранние стадии исследований, которые могут вырасти в CanceRx. Статья Simulating a living cell Маркуса Коверта (Scientific American, 2014) рассказывает, как его исследовательская группа построила компьютерную модель целой болезнетворной бактерии. Статья Breakthrough Technologies 2015: Internet of DNA Антонио Регаладо (MIT Technology Review, 2015) сообщает о работе Global Alliance for Genomics and Health. Проект Cancer Commons описан в статье Cancer: A Computational Disease that AI Can Cure Джея Тененбаума и Джеффа Шрейджера (AI Magazine, 2011).