шума бросают и переходят к следующему проекту. И это касается не только самих исследователей: редакторы журналов и рецензенты тоже решают, принимать ли статьи к публикации, на основании того, насколько интересно выглядят открытия, и не обязательно обращают внимание на то, сколь дотошны были исследователи в своей работе. И круг замыкается: зачем исследователям утруждать себя подачей в журнал статьи с отрицательными результатами, если ее шансы быть принятой к публикации ничтожны?
Это называют публикационным смещением. Оно также известно под старым названием “проблема картотечного ящика”: поскольку в таком ящике ученым предписывалось хранить все свои отрицательные результаты – скрытыми от лишних глаз [304]. Подумайте об этом в контексте фразы “История пишется победителями”, только применительно к научным результатам, либо же так: “Если у вас нет для публикации никаких положительных результатов, не публикуйте ничего вообще”.
Чтобы понять, чем публикационное смещение оборачивается на практике, нам нужно подробнее обсудить, как ученые решают, что есть результаты “положительные”, а что “отрицательные”. А значит, как данные анализируются и интерпретируются. Мы возвращаемся к идее из предыдущей главы, когда мы говорили о сфабрикованных результатах: в числовых данных всегда есть шум. Всякому измерению и всякой выборке сопутствует некоторая случайная статистическая флуктуация – ошибка измерения и ошибка выборки. Ее не только трудно подделать человеку – ее еще и непросто отделить от сигнала, который ищут ученые. Зашумленность чисел то и дело подкидывает случайные выбросы и исключения, образуя распределения, которые могут на самом деле быть бессмысленными и обманчивыми. Скажем, когда вы видите очевидное различие по жалобам на боли между группой, принимающей ваше новое лекарство, и контрольной группой, принимающей плацебо, хотя объясняется оно чистой случайностью. Или, казалось бы, вы видите корреляцию между двумя измерениями, которая возникла абсолютно случайно и не появится снова, если исследование повторить. Или вы думаете, что обнаружили энергетический сигнал в ускорителе частиц, а это все случайные флуктуации. Как распознать, где интересующий вас эффект, а где – прихоти случая и ошибок? Для подавляющего большинства ученых ответ кроется в вычислении p-значения.
Откуда берется это p-значение (сокращение от probability value, “значение вероятности”)? Представьте, например, что мы хотим проверить гипотезу, согласно которой шотландские мужчины выше, чем шотландские женщины. Конечно, мы знаем, что в реальности так и есть: в среднем мужчины выше женщин где угодно в мире. Но еще мы знаем, что не всякий мужчина выше всякой женщины; любой из нас вспомнит конкретные случаи, где все наоборот [305]. Предположим, однако, что мы на самом деле не знаем, есть ли в целом разница в росте между мужчинами и женщинами в Шотландии. Тамошнее население составляет лишь пять с половиной миллионов человек, но все равно мы не в силах измерить рост каждого из них, так что для нашего исследования составим случайную выборку более удобоваримого размера. Положим, денег на это исследование у нас маловато, поэтому осилить мы можем только выборку из десяти мужчин и десяти женщин. И вот тут-то в дело и вступает шум. Поскольку рост существенно варьирует от человека к человеку, в итоге у нас случайно – или, если воспользоваться термином, введенным выше, из-за ошибки выборки – может получиться группа из необычно высоких женщин и группа из непривычно низких мужчин. Мало того, так как невозможно полностью избавиться от ошибки измерения, в нашем распоряжении не будет абсолютно точных значений для роста каждого из участников (вспомните, как мы обсуждали в предыдущей главе, что человек может ссутулиться, рулетка – чуть съехать и так далее).
Скажем, мы обнаружили, что женщины в нашей выборке в среднем на десять сантиметров ниже мужчин [306]. Как нам понять, отражает ли этот результат реальную разницу в популяции (это означало бы, что мы уловили верный сигнал), либо же это только шум (то есть все, что мы видим, случайно)? Нам нужно сравнить две группы в строгом статистическом тесте. Таковых бессчетное множество: z-тесты, t-тесты, критерии хи-квадрат, отношения правдоподобия и прочие; выбор зависит в том числе от типа данных, с которыми вы работаете. Фактически любой статистический тест сегодня проводится так: вы загружаете свои данные в компьютерную программу и на выходе наряду со многими другими полезными числами получаете соответствующее p-значение [307].
Хотя в науке p-значение в качестве статистического критерия используется едва ли не чаще всего, общеизвестно, что определение у него весьма мудреное. Недавняя проверка показала, что в целых 89 % учебников по введению в психологию из рассматривавшейся выборки определение дано неверное. Постараюсь не попасть сейчас тоже впросак [308]. P-значение – это вероятность, что ваши результаты будут выглядеть так, как они выглядят, или еще лучше, если интересующего вас эффекта на самом деле нет [309]. Важно, что p-значение не говорит нам о вероятности того, что результат верен (что бы это ни значило), и не сообщает, насколько он важен. Оно лишь дает ответ на вопрос: если на самом деле эффект нулевой, каковы были шансы все равно получить те же результаты, что у вас на руках, или демонстрирующие, казалось бы, даже еще больший эффект? [310]
Предположим, в нашем исследовании роста p-значение оказалось равным 0,03. Это значит, что если бы в реальности между мужчинами и женщинами в популяции шотландцев не было никакой разницы в росте и мы составляли бы бесконечное число выборок вроде исходных, то лишь в 3 % случаев наблюдали бы разницу в десять сантиметров или больше. В этих 3 % случаев мы бы совершали ошибку, утверждая, что шотландские мужчины в среднем выше, чем шотландские женщины. Иначе говоря, обнаружить разницу в росте, равную или превышающую ту, что получилась для нашей выборки, было бы весьма маловероятно (однако не невозможно), если бы женщины и мужчины в Шотландии на самом деле по росту не отличались.
И поэтому для большинства случаев чем меньше p-значение, тем лучше. Но насколько маленьким оно должно быть, чтобы мы уверились в том, что наш результат обусловлен не шумом? Или по-другому: с насколько высокой вероятностью получить ложноположительный результат (когда мы совершаем ошибку, заявляя, что эффект есть, тогда как его на деле нет) должны мы мириться? [311] Чтобы помочь ученым принимать решения, основоположник статистики Рональд Фишер в 1920-х годах предложил установить пороговое значение, выше которого соответствующий результат будет рассматриваться как отрицательный (ибо слишком уж походит на то, что мы наблюдали бы, если бы ничего на самом деле не происходило), а ниже – как “статистически значимый”.
Этот термин породил немало путаницы. Для современного уха “значимый” звучит так, будто указывает