из громадных множеств особые значения не доказывают, что это не просто случайность. Несомненно, даже если вы честно провели только один тест и получили
p-значение меньше 0,05, вы все равно можете случайно обмануться. Но этот риск существенно ниже, чем в случае
p-хакинга, когда проведение многочисленных тестов увеличивает риск, что какой-то из них введет в заблуждение.
Это важнейшая идея, которую так много ученых, похоже, не улавливают: даже когда ничего не происходит, вы все равно регулярно получаете “значимые” p-значения, особенно если проводите уйму статистических тестов [345]. Как с “экстрасенсами”: они делают тысячи предсказаний о событиях на следующий год, а затем в конце года подчеркивают лишь те, насчет которых оказались правы, тем самым придавая всему такой вид, словно они обладают магическими способностями предсказывать будущее [346]. Бросьте статистические кости достаточное число раз – и что-то вроде бы знаменательное проявится, пусть даже это просто нелепый выброс в ваших данных [347], а еще никому не рассказывайте обо всех тех разах, когда открытие не было значимым, – и вот вам прекрасный рецепт, как убедить людей в реальности своего результата, хотя основан он не более чем на шуме.
Это возвращает нас к Брайану Вонсинку, его студентке и данным по пиццерии. Хотя при всех ежедневных попытках студентки провести анализ данных вычислялось великое множество p-значений, лишь несколько из них попали в итоге в опубликованную литературу. В соответствии с неписаными правилами мира научных публикаций, эти значения были преимущественно меньше 0,05. Мы, читатели научной литературы, понятия не имеем, сколько тестов было проведено. Поскольку так много результатов оказалось сокрыто от посторонних глаз, это сродни публикационному смещению внутри одного исследования. Если бы мы могли увидеть весь процесс с отрицательными результатами и всем прочим, он выглядел бы как классический случай с техасским стрелком. В своем злосчастном сообщении в блоге Вонсинк ненароком дал понять, что процесс включал в себя рисование мишени вокруг результатов, которым случилось – по стечению обстоятельств – оказаться статистически значимыми. Для тех, кто понимает, как работает статистика, мишень Вонсинка красовалась не на стене амбара: она пылала на его собственной ноге.
После того как Вонсинк опубликовал свое сообщение в блоге, некоторые скептически настроенные читатели начали разбираться с числами в его статьях [348]. Выяснилось, что p-хакинг был лишь одним из массы статистических проколов. В четырех статьях Вонсинка, основанных на данных по пиццерии, команда скептиков нашла не менее ста пятидесяти ошибок – целый набор расхождений между четырьмя этими исследованиями (а иногда числа противоречили друг другу внутри одной и той же статьи) [349]. Все стало еще хуже, когда скептики начали проверять другие работы Вонсинка. Повторный анализ данных из одной статьи о кулинарных книгах показал, что почти каждое число переврано [350]. В публикации о наклеивании на яблоки стикеров с Элмо Вонсинк неправильно подписал график и неверно описал методологию исследования [351]. Вскоре начался отзыв статей: на момент написания этих строк восемнадцать публикаций Вонсинка были изъяты из научной литературы, и есть подозрения, что их станет еще больше [352]. Чуть меньше чем через два года после того пресловутого сообщения в блоге Вонсинк подал заявление об увольнении из Корнеллского университета [353].
Возмутительные ошибки и просчеты Вонсинка отвлекали внимание от детали его авантюры, распространенной шире всего, – от p-хакинга. Посреди скандала, разразившегося в средствах массовой информации, когда начался отзыв статей, журналист из BuzzFeed News обнародовал электронное письмо Вонсинка одному из соавторов, отправленное во время написания ими треклятой статьи про наклейки с Элмо, – крайне откровенное и обличительное. В нем Вонсинк беспокоился, что, “хотя наклейки повышают вероятность выбора яблок на 71 %, по какой-то причине p-значение равно 0,06. Мне кажется, оно должно быть меньше. Не хотите ли взглянуть и сказать, что вы об этом думаете? Если вы можете взять данные и их потребуется немножко поткрутить [sic], желательно было бы сделать это значение меньше 0,05” [354].
Это редкий случай, когда ученый открыто призывает своих коллег к p-хакингу. Но поразительным он был только из-за прямоты. Подозреваю, многие ученые, когда история Вонсинка была предана огласке, нервно заерзали в своих креслах, понимая, что он просто оказался на краю спектра, которому принадлежат и они сами. Возможно, они не так небрежны, как Вонсинк, и в своих электронных письмах (или при личном общении, когда не сохраняется письменный след) деликатнее просят проанализировать данные заново [355]. Но когда желание “сделать это значение меньше 0,05” сильно – а так и есть, ведь журналы явно отдают предпочтение интересным, ярким положительным результатам, – p-хакинг почти неизбежен.
Из-за нечаянного признания все закончилось для Вонсинка плохо. Однако, когда очередной известный ученый откровенно признал, что в прошлом невольно прибегнул к p-хакингу своих данных, реакция научного сообщества была обнадеживающей. Вспомним про обсуждавшуюся во второй главе невероятную успешность идеи “поз силы”, основанной на статье 2010 года, результаты которой не воспроизвелись. Несмотря на то что имя Эми Кадди стало прочно ассоциироваться с этим понятием, ведущим автором статьи была вообще-то не она. Это была Дана Карни из Калифорнийского университета в Беркли, и в 2016 году она выпустила заявление о своих переменившихся взглядах на позы силы. В течение прошедших до того момента лет она корректировала свои представления – как она сама выразилась, вплоть до позиции “я не верю, что «позы силы» действительно работают”. Далее она перечислила некоторые факты об исходном эксперименте (с “крошечным” размером выборки в сорок два человека и “едва уловимой” величиной эффекта), в совокупности складывающиеся в ясную как день историю p-хакинга:
• Они набирали участников “подолгу и попутно проверяли эффект” (то есть продолжали увеличивать выборку, пока не получили значимый результат).
• Нескольких участников исключили по причинам, кажущимся произвольными.
• Некоторые выпадающие точки были удалены из рассмотрения, а другие – оставлены.
• Использовались различные показатели и различные статистические тесты, но сообщалось только о тех, которые давали самые маленькие p-значения.
• Об оценке участниками собственной силы задавалось множество вопросов, однако сообщалось только о тех, что показали эффект [356].
По словам Карни, “тогда это не казалось p-хакингом”, хотя это определенно был он. Обрушился ли на нее град страшных ругательств, потеряла ли она работу после такого признания? Нет. На самом деле реакция оказалась в точности обратной. Поиск в твиттере, часто поносимом как рай для онлайн-травли, показывает, что другие исследователи (справедливо) назвали заявление Карни “смелым”, “впечатляющим”, “достойным восхищения”, “шагом вперед”, примером того, “как нужно действовать, если провалилась попытка воспроизвести какую-то работу”, “выдающейся демонстрацией научной