ошибку в электронной таблице
Microsoft Excel, использовавшейся Рейнхарт и Рогоффом при анализе данных: долг нескольких стран не был учтен [417]. А именно: в таблице при расчетах не был учтен долг Австралии, Австрии, Бельгии, Канады и Дании. Ужасающе банальная причина? Опечатка. Когда ее устранили, а также внесли поправки к еще парочке спорных аналитических решений, принятых Рейнхарт и Рогоффом, соотношение между коэффициентом задолженности и экономическим ростом резко изменилось [418]. В статье говорилось, что средний темп роста при отношении долга к ВВП выше 90 % составлял − 0,1 %; после внесения поправок он составил + 2,2 %. Все же ничего магического в этом пороговом значении 90 % не было – выше него темпы роста не стали внезапно отрицательными. На самом же деле существовал “широкий диапазон показателей роста ВВП при любом уровне государственного долга” [419]. Если бы в статье исходно содержалось подобное осторожное утверждение, гораздо более сложное, чем соответствующий стилизованный факт, вряд ли она привлекла бы столько внимания.
Итак, изменила ли опечатка мировую экономику? Не очень-то. Хотя статья и порожденный ею стилизованный “факт” имели необычайно широкое влияние, доводы за удерживание отношения долга к ВВП на низком уровне не упираются в единственное исследование [420]. Обнаружение той опечатки лишь ослабило выводы Рейнхарт и Рогоффа, а не сделало совершенно несостоятельными. И, как отмечалось выше, критики сосредоточились не только на опечатке. Мы не можем переиграть мировую политику, чтобы выяснить, нашлись бы у тех, кто ратует за меры жесткой экономии, другие причины для их введения, если бы исследования Рейнхарт и Рогоффа никогда не существовало, – без сомнения, нашлось бы немало. И все же то обстоятельство, что столь примитивная ошибка в итоге попала на стол к влиятельным политикам, должно вызывать глубокое беспокойство, не в последнюю очередь потому, что неизбежно заставляет нас задуматься: а сколько еще там должно быть подобных ошибок, компрометирующих научную литературу и, кто знает, даже влияющих на реальные решения.
Ответ: их слишком много. В этой главе рассматривается два вида недобросовестности в науке. С первым мы только что столкнулись: непроизвольные ошибки, вносимые в научный анализ по невнимательности, недосмотру или небрежности. Второй – это когда ученые, которым положено понимать, что к чему, закладывают ошибки в сам способ проведения исследований, что может объясняться неподготовленностью, безразличным отношением, забывчивостью или, как бы жестоко это ни звучало, полнейшей некомпетентностью. Подобные ошибки из-за недобросовестности служат еще одним болезненным свидетельством того, что наша научная система не справляется со своей главной задачей, ради выполнения которой и была задумана.
Насколько в научных работах распространены числовые ошибки? В 2016 году группа голландских исследователей под руководством психолога Мишель Нёйтен попыталась это выяснить. Они представили алгоритм под названием statcheck, своего рода “спелл-чекер для статистики” [421]. Когда вы вводите в statcheck научную статью, он проходится в ней по всем числам и отмечает ошибки в p-значениях. Алгоритм способен это сделать, поскольку многие числа в статистических тестах зависят друг от друга, поэтому, если известны лишь некоторые из них, всегда можно воспроизвести остальные (как благодаря теореме Пифагора вы всегда можете вычислить гипотенузу треугольника, если известны длины двух других сторон). Если p-значение и другие связанные с ним числа друг с другом не согласуются, что-то, вероятно, не так. Нёйтен и ее коллеги прогнали через statcheck более тридцати тысяч статей – гигантскую выборку исследований, опубликованных в восьми главных журналах по психологии с 1985 по 2013 год [422]. От того, что они обнаружили, становится просто неловко.
Почти в половине работ, содержащих нужные статистические данные, имелось как минимум одно числовое несоответствие. Справедливости ради отметим, что большинство ошибок были незначительными и практически не затрагивали общие результаты. Однако некоторые несоответствия сильно повлияли на выводы исследования: в 13 % случаев были допущены серьезные ошибки в стиле Рейнхарт и Рогоффа, которые могли полностью изменить интерпретацию результатов (например, превратить статистически значимое p-значение в незначимое или наоборот). Конечно, эти несоответствия могли возникнуть по разным причинам: от простых опечаток и ошибок копирования вплоть до сознательного мошенничества. Statcheck – это лишь способ подсветить ошибки в научном тексте, а не установить причины их появления.
Один из самых интересных результатов анализа Нёйтен показывает, как недобросовестность сопряжена с предвзятостью. Несоответствия, отмеченные алгоритмом statcheck, были, как правило, в пользу авторов – то есть ошибочные числа делали результаты более, а не менее согласующимися с гипотезой исследования. Будь это просто абсолютно случайные опечатки, нельзя было бы ожидать, что в среднем они сдвинут результаты в какую-то одну сторону. Похоже, однако, как мы могли бы предсказать на основании своих знаний о предвзятости, будто ученые чаще пересматривали результаты, когда те отклонялись от намеченного пути. А вот ошибочные результаты, подтверждавшие их теорию, были попросту слишком хороши, чтобы их проверять.
Другой особенно изящный метод узнать, верны ли приведенные в статье числа, имеет явно неизящное название “тест на несогласованность средних, связанный с гранулярностью”, сокращенно он именуется тестом GRIM (Granularity-Related Inconsistency of Means) [423]. С помощью этого теста, разработанного расследователями в мире данных Ником Брауном и Джеймсом Хизерсом, проверяется, имеет ли смысл среднее значение (а именно – среднее арифметическое) набора чисел с учетом того, сколько чисел в нем содержится. Представьте, что вы просите людей оценить, насколько они довольны своей работой, по шкале от 0 до 10 (и ответ дозволяется давать только в целых числах: скажем, “4” или “5”, но не “3,7”). Допустим, в простейшем случае вы задали этот вопрос только двум людям и сообщаете среднее значение их оценок, то есть складываете два их результата и делите сумму пополам. Если в получившемся числе посмотреть на цифры после запятой, то возможных вариантов для них будет всего ничего: для двух человек среднее значение их ответов может заканчиваться только на “,00” или “,50”. Если же у вас получилось, например, 4,40, значит, что-то точно пошло не так: при делении целого числа на два получить такую дробь невозможно.
В тесте GRIM та же логика применяется к выборкам покрупнее. К примеру, если двадцать участников оценили что-либо по шкале целых чисел от 0 до 10, вам никак не получить среднее, равное 3,08. При делении на двадцать значения после запятой могут идти только с шагом 0,05: среднее, равное 3,00, или 3,10, или 3,15, получить возможно, а 3,08 – невозможно [424]. Браун и Хизерс использовали тест GRIM, чтобы проверить выборку из семидесяти одной опубликованной статьи по психологии, и обнаружили, что в половине из них приводилось по меньшей мере одно невероятное