число, а в 20 % содержалось даже несколько. Как и в случае с алгоритмом
statcheck, ошибки, выявленные методом GRIM, могут объясняться причинами безобидными, однако же служат красными флагами, сигнализирующими о необходимости дальнейшего анализа.
Значение 3,08 в моем примере неслучайно, я выбрал его, поскольку оно сыграло свою роль в истории теста GRIM и психологических исследований в целом. В 2016 году психолог Матти Хейно применил метод GRIM для анализа одной из самых знаменитых статей по психологии всех времен – работы Леона Фестингера и Джеймса Карлсмита о “когнитивном диссонансе”, вышедшей в 1959-м [425]. Сейчас эта идея широко известна: когда человека заставляют говорить или делать то, что противоречит его истинным убеждениям, он чувствует психологический дискомфорт и старается подладить эти свои убеждения под слова и действия, к которым его принудили. Участников исследования 1959 года заставляли выполнять нудные и бессмысленные задания, например без конца проворачивать штырьки в перфорированной панели. После некоторым выплачивали доллар, чтобы они говорили следующим по очереди участникам, будто задания показались им весьма интересными и забавными. Позднее при опросе участники, которым за ложь о задании заплатили, отзывались о нем как о гораздо более интересном, чем те, кому доллар не достался. Иными словами, они уменьшали свой диссонанс, заставляя себя поверить, что им было весело [426]. Увы, примененный Хейно тест GRIM продемонстрировал, что не только впечатления участников были рассогласованы – но и числа у Фестингера и Карлсмита [427]. Для выборки из двадцати человек, дающих оценку по шкале целых чисел от 0 до 10, они заявили о среднем, равном 3,08, что невозможно, как мы обсудили выше, не говоря уже о том, что тест не прошли и еще несколько средних.
Когнитивный диссонанс – исключительно полезная идея, интуитивно нам понятная, и эксперимент был хитрым и запоминающимся. Но стали бы тысячи ученых, на протяжении многих лет ссылавшиеся на статью Фестингера и Карлсмита, делать это, знай они, что она кишит неправдоподобными числами? [428] Эта история еще раз напоминает нам, что даже “классические” результаты из научной литературы – те, что, хотелось бы надеяться, проверялись самым строгим образом, – могут быть совершенно ненадежными, когда числа и другие данные, которым следует играть важнейшую роль, выступают в качестве чистых декораций – фона для захватывающей истории.
Еще числовые ошибки настораживающе распространены в научных областях, где ставки куда выше. Вспомните: самый плодовитый научный мошенник в мире (во всяком случае на момент написания этих строк) – анестезиолог Ёситака Фудзии [429]. Его затяжному марафону по подделыванию данных положил конец анестезиолог Джон Карлайл, разработавший статистический метод для проверки, действительно ли рандомизированные клинические испытания рандомизированы [430]. Рандомизация по своей сути – это словно подбрасывание монеты для каждого из участников, чтобы распределить их по группам (скажем, активного препарата либо же плацебо) случайным образом, а не каким-либо заранее спланированным способом, который может быть источником предвзятости. Это процесс первостепенной важности: он призван на момент начала испытаний гарантировать, что между группами нет существенных различий. Если люди в одной группе здоровее, образованнее, старше или заметно отличаются по любому другому показателю, который может повлиять на результаты, исследование не будет честным [431]. Поэтому, если на начало рандомизированного контролируемого исследования между группами имеются большие различия, налицо проблема: процесс рандомизации провален. С другой же стороны, если группы подобраны идеально и необъяснимым образом удалось избежать железного правила о зашумленности чисел, это тоже сомнительно: даже после рандомизации между группами все равно должны быть мельчайшие различия, просто по случайности. Вот на чем основан метод Карлайла. Когда он проверил статьи Фудзии, то обнаружил данные совершенно неправдоподобно стройные: так, например, распределения заявленных возраста, роста и веса пациентов Фудзии были почти идеально синхронизированы. Шансы, что такое произойдет в реальности, меньше одного к десяти в тридцать третьей степени (то есть одного к миллиарду триллионов триллионов) [432]. Само собой, оказалось, что Фудзии – мошенник.
В 2017 году Карлайл применил свой обнаруживающий ошибки метод к пяти тысячам восьмидесяти семи медицинским исследованиям из восьми журналов, опять проверяя рандомизацию, которая была либо негодной, либо подозрительно совершенной [433]. Не исключено, конечно, что некоторые испытания выглядят сомнительно просто по невезению. Но даже принимая это во внимание, Карлайл обнаружил, что 5 % исследований содержат подозрительные данные: таким образом, он выявил сотни работ, которые, возможно, полностью искажены – а их результаты бессмысленны – из-за неправильной рандомизации групп. Лишь за малой долей этих проваленных испытаний стояло мошенничество в стиле Фудзии; судя по всему, Карлайл обнаружил в основном “невинные” ошибки. Хотя, учитывая, что стоит на кону в медицинских исследованиях – ведь врачи используют их результаты при подборе лечения для своих пациентов, – эти “невинные” ошибки могут обернуться большой бедой [434].
Самое замечательное в алгоритме statcheck, тесте GRIM и методе Карлайла – что их можно применить, используя лишь итоговые данные, которые обычно предоставляются в статьях, вроде p-значений, средних, размеров выборок и стандартных отклонений. Не требуется доступа к таблицам полных исходных данных. Пожалуй, оно и к лучшему, поскольку ученые славятся нежеланием делиться своими данными, даже когда другие добросовестные исследователи любезно их об этом просят. Исследование, проведенное в 2006 году, показало, что жалкие 26 % психологов согласны были отправить свои данные другим ученым по запросу через электронную почту; похожие удручающие цифры получены и в других областях. Еще ваша вероятность получить доступ к данным будет становиться тем меньше, чем больше времени проходит с момента исследования [435]. Подобное нежелание делиться данными блокирует жизненно важные процессы самокритики – все те же мертоновские нормы коллективизма и организованного скептицизма, – что лежат в основе науки. И какими бы хитрыми ни были три перечисленных выше метода, они меркнут в сравнении со всеобъемлющей проверкой, которую можно было бы провести, имея в своем распоряжении полный, подробный набор данных. Впрочем, сейчас стремление сохранить данные в тайне (а еще, возможно, страх, что кто-то найдет в вашей опубликованной работе ошибки) явно перевешивает мертоновские мотивы для обмена ими.
В сущности, все научные направления страдают от числовых огрехов. Причем в некоторых областях имеются свои собственные типы ошибок. Рассмотрим, например, клеточные линии – фактически бессмертные клеточные культуры, которые размножаются неограниченно долгое время и используются как модели для изучения различных видов клеток, как здоровых, так и раковых. В 1958 году, через несколько лет после создания первой бессмертной клеточной линии, было замечено, что клетки из разных линий – более того, от разных биологических видов – иногда смешиваются, если ученые работали недостаточно