В англоязычной литературе их также называют “нулевыми”.
Fanelli D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLOS ONE. 5, no. 4 (2010): e10068.
Есть некоторое расхождение во мнениях относительно того, уменьшается или увеличивается с течением времени количество положительных и отрицательных результатов. Одну точку зрения на этот вопрос см. здесь: Fanelli D. Negative Results Are Disappearing from Most Disciplines and Countries. Scientometrics. 90, no. 3 (2011): 891–904; другую – тут: De Winder J. C. F., Dodou D. A Surge of p-Values between 0.041 and 0.049 in Recent Decades (but Negative Results Are Increasing Rapidly Too). PeerJ. 3 (2015): e733.
Есть и другая причина, почему уровень успеха выше 90 % служил бы плохим знаком, даже если бы он был точен и не происходило ничего подозрительного: это бы означало, что ученые настолько хорошо выбирают правильные гипотезы, что еще до того, как приступить к проверке, знают, что верно, а что нет. В подобном мире почти стопроцентного успеха ученые воздерживались бы от изучения подлинно новых, острых вопросов, ответы на которые куда более неопределенные, а исследования которых рискованнее. И таким образом они бы пренебрегали важной ролью науки – исследовать неизведанное и углублять наши знания о мире.
Rosenthal R. The File Drawer Problem and Tolerance for Null Results. Psychological Bulletin. 86, no. 3 (1979): 638–41.
Поскольку рост в разных странах отличается, австрийские женщины, как выясняется, в среднем выше перуанских мужчин (хотя разница между полами внутри каждой из этих стран сохраняется: перуанки ниже своих мужчин-соотечественников, а австрийцы выше австриек). https://en.wikipedia.org/wiki/Average_human_height_by_country#Table_of_Heights
Это было бы недооценкой реального показателя: согласно Wikipedia, средняя разница в росте между мужчинами и женщинами в Шотландии в 2008 году составляла 13,7 сантиметра. См. ссылку из предыдущего примечания.
Конкретные детали того, как вычисляется p-значение, не обязательно нужны для понимания, как оно работает. Четкое введение в статистику как таковую см. здесь: Spiegelhalter D. The Art of Statistics: Learning from Data. London: Penguin, 2019. Доступное обсуждение более философских вопросов, касающихся статистики, см. тут: Dienes Z. Understanding Psychology as a Science: An Introduction to Scientific and Statistical Inference. New York: Palgrave Macmillan, 2008.
Cassidy S. A. et al. Failing Grade: 89 % of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. Advances in Methods and Practices in Psychological Science. 2, no. 3 (2019): 233–9. См. также Hubbard R., Bayarri M. J. Confusion Over Measures of Evidence (p’s) Versus Errors (α’s) in Classical Statistical Testing. American Statistician. 57, no. 3 (2003): 171–8.
Позиция Американской статистической ассоциации по вопросу p-значений удивительно доходчиво изложена здесь: Wasserstein R. L., Lazar N. A. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician. 70, no. 2 (2016): 129–33. Там дается такое определение p-значению: “в рамках конкретной статистической модели это вероятность того, что статистический вывод по данным (то есть различие в средних по выборке между двумя сравниваемыми группами) будет таким же или еще значительнее, чем полученный”.
Здесь нужно оговорить еще два момента. Во-первых, другое распространенное заблуждение относительно p-значения заключается в том, что оно якобы показывает, насколько вероятна “нулевая гипотеза”, то есть насколько вероятно, что в ваших данных нет никакого эффекта (и обычно вы хотите, чтобы эта вероятность была низкой). Но это не так – на самом деле, как я указал в своем определении, p-значение предполагает, что эффекта нет (то есть оно предполагает, что “нулевая гипотеза” верна). Оно также предполагает, что верно и много чего другого о ваших данных: есть некоторые чисто математические допущения о формах распределения переменных, а также более сложные предположения, касающиеся того, стопроцентно ли ученые честны при описании исследования и сколько всего p-значений они вычислили. Как мы узнаем дальше из этой главы, такие предположения часто неверны. Чем сильнее нарушаются эти предположения, тем менее надежным и вразумительным становится p-значение. Во-вторых, почему в определении p-значения (“если на самом деле эффект нулевой, каковы были шансы все равно получить те же результаты, что у вас на руках, или демонстрирующие, казалось бы, даже еще больший эффект?”) есть оговорка “еще больший эффект”? (В определении от Американской статистической ассоциации ту же роль выполняют слова “или еще значительнее”.) Она необходима, поскольку вероятность получить любое конкретное значение крайне мала: представьте, например, насколько редко мы получали бы для своей выборки разницу в росте, в точности равную, скажем, 10,00144983823 сантиметра, если бы нам пришлось повторять свое исследование с шотландскими женщинами и мужчинами бесконечное число раз. Это четко определенное число было бы крайне маловероятным, независимо от того, есть ли в действительности разница в росте на уровне популяции, так что p-значение, которое просто говорило бы нам, насколько малы шансы получить вот это конкретное число, едва ли сильно бы нам помогало. Вот для чего нужна добавка “еще больший эффект”. В нашем вымышленном примере – единожды проведенном исследовании, в котором между выбранными наугад десятью мужчинами и десятью женщинами обнаружилась разница в росте десять сантиметров, – p-значение, равное 0,03, означало бы, что если бы “реального” эффекта в популяции шотландцев не существовало, то вероятность обнаружить разницу в десять сантиметров или больше была бы 3 %.
Сразу же хочется сказать, что неплохо было бы иметь нулевые или очень близкие к нулю шансы получить ложноположительный результат. Но тут правит компромисс. Если мы будем чересчур осторожничать насчет того, какие результаты принимать, то увеличим вероятность пропустить реальные эффекты в своих наборах данных (то есть совершить ложноотрицательную ошибку).
Salsburg D. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. New York: Holt, 2002.
В оригинале taps aff – на шотландском диалекте английского это tops off. Отсюда и название сайта.
www.taps-aff.co.uk. Создатель этого чудесного сервиса, который на самом деле учитывает не просто температуру, а куда больше показателей, – Колин Уодделл.
То же было предложено в статье, которая стала