анализировать данные переписи населения, проведенной правительством Ганновера, заявив: «Я надеюсь заняться редактированием переписи, списков родившихся и умерших по местным округам, не в качестве работы, а для собственного моего удовольствия и удовлетворения». Он даже потратил некоторое время на анализ пенсионной схемы для вдов профессоров Геттингенского университета и заключил, вопреки всеобщим опасениям, что пенсионный фонд находится в прекрасном состоянии и даже может позволить себе увеличить выплаты вдовам.
Залогом успешного выделения положения Цереры из хаоса ночного неба была разработанная им стратегия, названная методом наименьших квадратов. Предположим, у вас есть данные с большим количеством шума, и вы хотите выбрать прямую или кривую, лучше всего соответствующую этим данным. Гаусс показал, что это должна быть кривая, для которой сумма квадратов расстояний всех точек данных от кривой будет наименьшей.
Рис. 7.1. Гауссов метод наименьших квадратов
В опубликованной в 1809 году статье, в которой Гаусс обрисовал этот метод, он также указал, что данные часто образуют распределение, которое мы называем теперь гауссовым. По сути дела, если изобразить распределения многих и самых разных наборов данных – роста людей, артериального давления, экзаменационных оценок, ошибок астрономических наблюдений или геодезических съемок, – всюду получится одна и та же картина: большинство случаев скапливается в середине, а по краям оказываются немногочисленные отклонения. Эту кривую часто называют колоколообразной, так как ее форма напоминает колокол.
Статистические методы, созданные Гауссом и другими, стали теперь самыми используемыми шорткатами для всех, кто хочет разобраться в современном мире, богатом данными.
8 из 10 кошек
В детстве меня всегда приводила в недоумение одна реклама кошачьего корма, которую регулярно передавали по телевизору. В ней утверждалось, что 8 из 10 кошек предпочитают Whiskas – корм рекламируемой марки [96]. Мне это казалось странным, потому что я не помнил, чтобы кто-нибудь приходил спросить нашу кошку, какую еду предпочитает она. Интересно, сколько кошек они опросили, чтобы это позволило им сделать такое решительное заявление? – думал я.
Может показаться, что для того, чтобы такое заявление было обоснованным, необходимо проделать огромную работу. В конце концов, считается, что в Великобритании около 7 миллионов владельцев кошек. Понятно, что производители Whiskas не обошли со своим опросом 7 миллионов домов. Однако оказывается, что математические методы статистики открывают поразительный шорткат к определению корма, самого любимого кошками всей страны. Если смириться с небольшой неточностью, число кошек, которых нужно опросить, становится на удивление небольшим. Предположим, я готов допустить в определении доли кошек, утверждающих, что им нравится Whiskas, 5-процентную погрешность. Такая неточность приведет к тому, что из моего опроса могут выпасть 5 процентов кошек. Это не страшно, но 5 процентов от 7 миллионов – это всего 350 000 кошек. Кошек, которых по-прежнему нужно опросить, все еще остается чрезвычайно много.
Но дело в том, что мне должно уж очень сильно не повезти, чтобы все 350 000 кошек, исключенные из опроса, не любили Whiskas. В большинстве случаев распределение этих 350 000 будет очень похоже на общее распределение всей популяции. Тут-то и открывается хитроумный шорткат. Предположим, я готов использовать выборку такого размера, чтобы в 19 случаях из 20 доля любящих Whiskas кошек в этой выборке отличалась от их доли во всей популяции не более чем на 5 процентов. Какого размера должна быть такая выборка? Как это ни удивительно, для определения предпочтений всех 7 миллионов кошек Соединенного Королевства с таким уровнем достоверности нужно опросить всего 246 кошек. То есть поразительно малое количество. Таково могущество математической статистики: она позволяет делать обоснованные утверждения по результатам опроса такого небольшого числа кошек. Когда я прошел курс статистики, я понял, почему нашу кошку никто не спрашивал, какая еда ей нравится.
Пользу методов, позволяющих судить о многом по малому, сознавали еще древние греки. В 479 году до н. э., когда союз городов-государств собирался напасть на город Платеи, нужно было узнать длину лестниц, необходимых, чтобы подняться на его стены. К городу отправили воинов, поручив им измерить образцы кирпичей, из которых были сложены городские стены. Взяв средний размер и умножив его на число кирпичей, которые были видны в стенах, нападавшие получили достаточно точную оценку высоты стен.
Но более замысловатые методы начали появляться лишь в XVII веке. В 1662 году Джон Граунт впервые оценил численность населения Лондона по числу похорон, проходящих в городе. Исходя из данных приходских книг, он предположил, что в каждых 11 семьях ежегодно умирают по 3 человека, а средний размер семьи составляет 8 человек. Поскольку в городе регистрировались 13 000 похорон в год, это позволило ему оценить численность населения Лондона в 384 000 человек. В 1802 году французский математик Пьер-Симон Лаплас пошел еще дальше: он использовал выборку записей о крещении в 30 приходах для получения оценки численности населения всей Франции. Из его анализа этих данных следовало, что на каждых 28,35 человека, живущих в каждом приходе, получалось по одному крещению. Воспользовавшись суммарным числом крещений во Франции за тот же год, он получил оценку численности населения страны – 28,3 миллиона человек.
Даже для определения количества кошек в Великобритании необходим статистический шорткат, позволяющий переходить от малого к большому. В случае кошачьего населения Великобритании можно использовать метод, сходный с тем, который применили греческие воины: измерить небольшую выборку и пропорционально увеличить результат. Зная число кошек на одного человека в малой выборке, можно получить оценку для всей страны, просто умножив его на суммарную численность населения. Но что делать, если нужно оценить суммарное количество барсуков, живущих в Великобритании в дикой природе? Поскольку ни один из этих барсуков не принадлежит людям, использовать количество людей, как в случае кошек, нельзя.
Вместо этого экологи используют хитроумный шорткат под названием «метод поимки с повторной поимкой». Он основан на той же стратегии, что и оценка Лапласа. Предположим, они пытаются оценить размеры популяции барсуков в графстве Глостершир. Сначала экологи ставят несколько ловушек и ловят барсуков в течение определенного периода. Откуда они знают, какую долю барсуков они поймали? Пока ниоткуда. Но вот на какую хитрость они идут. Они метят всех пойманных барсуков и снова отпускают их на волю, позволяя меченым животным вновь смешаться с общей популяцией. Затем устанавливают по всему графству видеокамеры, регистрирующие появление барсуков. Таким образом, они получают два разных