плацебо, конечно, не так важно (хотя иногда это все же принимается во внимание).
Еще Маклауд и его коллеги проверяли, сообщается ли в статьях о конфликте интересов (см. четвертую главу).
Macleod M. R. et al. Evidence for the Efficacy of NXY-059 in Experimental Focal Cerebral Ischaemia Is Confounded by Study Quality. Stroke. 39, no. 10 (2008): 2824–9.
Классический реальный пример, иллюстрирующий эту мысль, часто приводится в учебниках по статистике – речь идет о президентских выборах 1936 года в США. Сотрудники журнала The Literary Digest провели массовый опрос, в котором участвовало два миллиона человек, однако не сумели сделать выборку случайной, поскольку контактировали с участниками по телефону. В то время только у состоятельных граждан имелись дома телефоны, а кроме того, чтобы раздобыть телефонные номера, сотрудники журнала воспользовались списками членов разных клубов, где менее богатые граждане опять-таки встречались реже. Так выборка оказалась нерепрезентативной, поэтому вышла ошибка: сотрудники журнала The Literary Digest неверно предсказали, что кандидат от республиканцев Альф Лэндон на голову разобьет Франклина Рузвельта. Рузвельт набрал 61 % голосов, а тот журнал вскоре прекратил свое существование. См. Lohr S. L., Brick J. M. Roosevelt Predicted to Win: Revisiting the 1936 Literary Digest Poll. Statistics, Politics and Policy. 8, no. 1 (2017): 65–84.
Simmons J. P. et al. Life after P-Hacking. SSRN. 2013.
Говоря о надежном обнаружении эффекта, авторы подразумевали широко используемый в научной литературе стандарт. Статистическая мощность обычно считается приемлемой, когда вероятность обнаружить с помощью статистического теста эффект, если он действительно существует (то есть получить p-значение меньше 0,05), равна 80 % или выше. Очевидно, что чем статистическая мощность больше, тем лучше, и при достаточно крупных выборках (или достаточно сильных эффектах) статистическая мощность может существенно превышать этот минимальный порог. При мощности в 80 % двадцатипроцентный шанс упустить эффект, если он и правда существует, – это вероятность ложноотрицательного результата.
Button K. S. et al. Power Failure: Why Small Sample Size Undermines the Reliability of Neuroscience. Nature Reviews Neuroscience. 14, no. 5 (2013): 365–76. См., в частности, табл. 2.
Разные области нейронауки, однако, порядочно отличаются друг от друга. Nord C. L. et al. Power-up: A Reanalysis of “Power Failure” in Neuroscience Using Mixture Modeling. Journal of Neuroscience. 37, no. 34 (2017): 8051–61.
Медицинские испытания: Lamberink H. J. et al. Statistical Power of Clinical Trials Increased While Effect Size Remained Stable: An Empirical Analysis of 136,212 Clinical Trials between 1975 and 2014. Journal of Clinical Epidemiology. 102 (2018): 123–8. Биомедицинские исследования: Dumas-Mallet E. et al. Low Statistical Power in Biomedical Science: A Review of Three Human Research Domains. Royal Society Open Science. 4, no. 2 (2017): 160254. Экономика: Ioannidis J. P. A. et al. The Power of Bias in Economics Research. Economic Journal. 127, no. 605 (2017): F236–65. Нейровизуализация: Cremers H. R. et al. The Relation between Statistical Power and Inference in FMRI. PLOS ONE. 12, no. 11 (2017): e0184923. Исследования в области сестринского дела: Gaskin C. J., Happell B. Power, Effects, Confidence, and Significance: An Investigation of Statistical Practices in Nursing Research. International Journal of Nursing Studies. 51, no. 5 (2014): 795–806. Поведенческая экология: Jennions M. D., Moller A. P. A Survey of the Statistical Power of Research in Behavioral Ecology and Animal Behavior. Behavioral Ecology. 14, no. 3 (2003): 438–45. Психология: Szucs D., Ioannidis J. P. A. Empirical Assessment of Published Effect Sizes and Power in the Recent Cognitive Neuroscience and Psychology Literature. PLOS Biology. 15, no. 3 (2017): e2000797.
Nelson L. D. et al. Psychology’s Renaissance. Annual Review of Psychology. 69, no. 1 (2018): 511–34.
Это своего рода “проклятие победителя”, иногда обсуждаемое на аукционах, – когда человек, сделавший выигрышную ставку, переоценивает свой лот, каким бы тот ни был. В науке это еще называют “феноменом Протея”, в честь героя греческой мифологии, принимавшего любое обличье. Идея в том, что на первых порах, когда некий эффект только-только открыли, его величина в разных исследованиях зачастую сильно различается, частично из-за тех проблем, которые мы обсуждали в контексте статистической мощности и неспособности некоторых исследований обнаруживать небольшие эффекты. См. Ioannidis J. P. A., Trikalinos T. A. Early Extreme Contradictory Estimates May Appear in Published Research: The Proteus Phenomenon in Molecular Genetics Research and Randomized Trials. Journal of Clinical Epidemiology. 58, no. 6 (2005): 543–9; Lemoine N. P. et al. Underappreciated Problems of Low Replication in Ecological Field Studies. Ecology. 97, no. 10 (2016): 2554–61; Button K. S. et al. Power Failure.
Похожая проблема затрагивает статьи, которые я цитировал выше, где рассматривалась статистическая мощность в конкретных областях. Статистическая мощность исследований оценивалась там задним числом: задавался вопрос “Какой она у них была, раз позволила обнаружить найденный ими эффект?”. Но если в тех исследованиях величина истинного эффекта переоценивалась, такой апостериорный метод завышает оценку мощности. Таким образом, проверка статистической мощности задним числом может внушить уверенность, будто мощность в вашем исследовании совершенно нормальна, хотя это не так. Лучше взять идеальную величину эффекта – ту, которую, исходя из практического значения вашего эффекта, вы бы сочли малой, средней или большой (например, используя значимую разницу по более добротному показателю, такому как изменение по шкале боли, доход в долларах, температура или скорость), – и сделать мощность вашего исследования достаточной (то есть включить в него достаточное количество участников или наблюдений), чтобы надежно этот эффект обнаружить. См. Gelman A. Don’t Calculate Post-Hoc Power Using Observed Estimate of Effect Size. 2018. www.stat.columbia.edu/~gelman/research/unpublished/power_surgery.pdf
Lamberink H. J. et al. Statistical Power of Clinical Trials. Величина эффекта, о которой я здесь говорю, – это d-значение Коэна, равное 0,21. Интерпретацию с количеством людей, которым станет лучше от лечения, я дал с помощью очень полезного калькулятора с сайта, созданного Кристоффером Магнуссоном: https://rpsychologist.com/d3/cohend.
Leucht S. et al. How Effective Are Common Medications: A Perspective Based on Meta-Analyses of Major Drugs. BMC Medicine. 13, no. 1 (2015): 253. В этом исследовании, посвященном величине эффекта от часто используемых медицинских препаратов, отмечены некоторые широко распространенные лекарства, оказывающие большой эффект (например, ингибиторы протонного насоса вроде омепразола, очень сильно влияющие на секрецию