молодых людей [717]. Результаты исследований в этой области постоянно раздуваются в прессе, и во многих газетных статьях и популярных книгах утверждается, что современным подросткам вредит то количество времени, которое они проводят онлайн [718]. Социальные сети видятся особой проблемой, поскольку якобы уменьшают число личных контактов подростков с другими людьми, подвергают их воздействию кибербуллинга и жесткой порнографии, а также снижают устойчивость внимания [719]. Были даже предложены новые психологические диагнозы: “видеоигровое расстройство”, “зависимость от онлайн-порнографии”, “зависимость от айфона”, список можно продолжить [720]. Бо́льшая часть доказательств, которые вызывают панику, связанную с технологиями, получена в крупных наблюдательных исследованиях, изучающих корреляции между временем, проведенным подростками за экраном, и проблемами с их психическим здоровьем. Учитывая большой потенциал для
р-хакинга в подобных исследованиях (вспомните, как легко было к нему прибегать в исследованиях по питанию с большими массивами данных, когда практически все продукты могли оказаться так или иначе связанными с раком), они идеальные кандидаты для метода “анализ мультивселенной”.
Орбен и Пшибыльски выбрали три больших набора данных наблюдений и рассмотрели все возможные способы, какими их можно проанализировать для проверки утверждений о вреде экранного времени. Например, можно считать “экранным временем” только просмотр телевидения или же учитывать и видеоигры; можно спрашивать о самооценке и суицидальных мыслях, а не только о психофизическом состоянии или выбрать два вопроса из этих трех либо все три; можно ввести поправки на такие факторы, как гендер или школьные оценки, либо на любое количество других потенциально важных переменных; можно запросить оценки у родителей или самоотчеты либо и то и другое; можно использовать средние значения или же суммарные баллы из опросников; и так далее и тому подобное. Общее число “оправданных” комбинаций – то есть таких, при которых возможно привести правдоподобно звучащий научный аргумент, подтверждающий, что этот способ анализа данных и был правильным, – исчислялось сотнями для первого набора данных, десятками тысяч для второго и сотнями миллионов для третьего (в этом последнем случае, поскольку выполнение такого количества анализов перегрузило бы почти любой компьютер, авторы сократили количество комбинаций до “всего лишь” двадцати тысяч).
Проверив все эти комбинации, Орбен и Пшибыльски обнаружили: несколько анализов свидетельствуют о довольно существенном негативном влиянии экранного времени, некоторые вообще не показывают никакого эффекта, а какие-то демонстрируют, что экранное время, как ни странно, приносит пользу. Исследователи взяли среднее значение. Оно оказалось отрицательным, но корреляция между экранным временем и психическим здоровьем была крайне слабой: время, проведенное за экраном, отвечало примерно за 0,4 % изменений в психофизическом состоянии. Чтобы легче было оценить этот результат, скажу, что психофизическое состояние коррелирует примерно так же с регулярным употреблением в пищу картофеля и сильнее – с ношением очков. Вот вам и все страшилки. Анализ мультивселенной намекает, что, если мы хотим найти объяснение проблемам подростков с психическим здоровьем, не получится спихнуть все на экранное время как на козла отпущения [721]. Более общий вывод очевиден: вместо того чтобы проводить только один-единственный анализ, который может соответствовать личным предрассудкам исследователя, мы должны смотреть на статистику гораздо шире, учитывая все альтернативные сценарии и задаваясь вопросом, что могло бы произойти, реши мы провести анализ немного иначе.
Недостаток метода “анализ мультивселенной” состоит в том, что обычно он требует работы суперкомпьютера, для большинства исследователей недоступного. И хотя анализ такого рода – отличный способ внести больше ясности в горячо обсуждаемые вопросы, он не избавляет ученых от постоянного давления и соблазна отбирать наиболее впечатляющие результаты и представлять их в качестве первоначальной гипотезы. Чтобы решить эту проблему, можно использовать другой инструмент для устранения неполадок в науке – предварительную регистрацию.
Предварительная регистрация обязательна для финансируемых правительством США клинических испытаний с 2000 года, а также это непременное условие для публикации в большинстве медицинских журналов с 2005-го [722]. Регистрация исследования подразумевает размещение в интернете общедоступного документа с отметками времени, где еще до сбора каких-либо данных должно быть подробно описано, что ученые планируют делать. Общедоступное хранилище экспериментальных планов служит ориентиром, по которому можно отследить, какая доля исследований действительно доходит до публикации. И оно позволяет нам увидеть, какие гипотезы ученые намеревались проверять, так что мы можем выяснить, не были ли они в середине исследования изменены.
В дополнение к предварительной регистрации задуманного исследования ученые еще могут предварительно регистрировать подробный план, по которому собираются анализировать данные. Мы видели, что именно незапланированный характер статистического анализа – скрытая гибкость – может по расходящимся тропкам увести ученых к результатам, которые статистически значимы (и пригодны для публикации), но на деле не соответствуют реальности. Идея предварительной регистрации вашего статистического анализа – это научный пакт Одиссея: размещая план своего анализа где-нибудь в открытом доступе, вы привязываете себя к мачте и не даете себе поддаться зову сирен – p-хакинга.
Кто-то справедливо возразит, что если ученые совсем не будут оставлять себе пространства для маневра, то не останется и шансов совершить случайное открытие (пенициллин и виагра – вот два из наиболее известных случайных открытий, часто выдвигаемые в качестве аргумента) [723]. Однако предварительная регистрация – это совсем другое. В предварительно зарегистрированном исследовании какой-то спонтанный анализ для изучения интересных закономерностей в данных тоже разрешен, просто он не может быть подан под таким углом, словно был спланирован заранее. Этот так называемый исследовательский анализ может привести ко многим важным идеям и открытиям: например, вы неожиданно обнаружите, что новое лекарство лучше действует на пожилых, чем на молодых участников, а затем выстроите новую линию исследований, чтобы разобраться в причинах. Но, как мы уже неоднократно видели в предыдущих главах, числа всегда зашумлены, так что вы гарантированно найдете что-то любопытное, если вдоль и поперек проанализируете свои данные достаточным количеством способов. Поскольку вы дали себе больше попыток найти нечто статистически значимое, положительные результаты исследовательского анализа с гораздо большей вероятностью окажутся случайностью, которая на новой выборке не воспроизведется. И все же, что несколько возмутительно, в науке результаты исследовательского анализа по большей части преподносятся так, будто они подтверждающие, словно это результаты тестов, запланированных до начала исследования. Предварительная регистрация позволяет вам четко сказать читателям, использовали ли вы данные в исследовательских целях, чтобы сформулировать гипотезу (“О, интересно, переменная X, похоже, связана с переменной Y! Надо бы проверить, воспроизведется ли это в новом наборе данных”), или в подтверждающих, чтобы гипотезу проверить (“Я предсказал, что переменная X будет связана с переменной Y в этом наборе данных, и это действительно так!”) [724].
Исследование крупномасштабных испытаний, посвященных средствам профилактики и лечения сердечно-сосудистых