of Outcomes in Randomized Trials: Comparison of Protocols to Published Articles. JAMA. 291, no. 20 (2004): 2457–65.
Churchill W. The World Crisis. Vol. III. Part 1. London: Penguin, 2007. [Черчилль У. С. Мировой кризис // В 6-ти т. Т. 3. 1916–1918 гг. М.: Принципиум, 2015.]
Продвижение Буша: Lang S. S. Wansink Accepts 14-Month Appointment as Executive Director of USDA Center for Nutrition Policy and Promotion. Cornell Chronicle. 20 Nov. 2007. “Обеды с умом”: www.investors.com/politics/editorials/smarter-lunchroom-junk-science.
The 2007 Ig Nobel Prize Winners. 4 Oct. 2007; www.improbable.com/ig/winners/#ig2007. Статья про суповую миску: Wansink B., Cheney M. M. Super Bowls: Serving Bowl Size and Food Consumption. JAMA. 293, no. 14 (2005): 1727–8. Про эту статью рассказывалось в известной книге Ричарда Талера и Касса Санстейна Nudge 2008 года, описана она была так: “очередной шедевр Вонсинка”. А с тех пор Талер получил настоящую Нобелевскую премию по экономике (это ее часто используемое неофициальное название, а для педантов приведу и полное: “Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля”). Thaler R. H., Sunstein C. R. Nudge: Improving Decisions about Health, Wealth and Happiness. New Haven: Yale University Press, 2008. [Талер Р., Санстейн К. Nudge. Архитектура выбора. Как улучшить наши решения о здоровье, благосостоянии и счастье. М.: Манн, Иванов и Фербер, 2017.]
Исследование на тему размера порций: Wansink B., Cheney M. M. Super Bowls. Закупка продуктов на голодный желудок: Tal A., Wansink B. Fattening Fasting: Hungry Grocery Shoppers Buy More Calories, Not More Food. JAMA Internal Medicine. 173, no. 12 (2013): 1146–8. Персонажи на упаковках с хлопьями: Musicus A. et al. Eyes in the Aisles: Why Is Cap’n Crunch Looking Down at My Child? Environment and Behavior. 47, no. 7 (2015): 715–33. Еще Вонсинк снял серию видео для продвижения своей работы, некоторые доступны на YouTube. Например, вот здесь объясняется исследование про хлопья: www.youtube.com/watch?v=8u6xdGCIq6o. А вот тут разъясняется очень подробно – пожалуй, гораздо подробнее, чем оно того заслуживает, – почему исследование про хлопья смехотворно: Simaneck D. E. Debunking a Shoddy “Research” Study. Donald Simanek’s Skeptical Documents and Links. April 2014. Элмо на яблоках: Wansink B. et al. Can Branding Improve School Lunches? Archives of Pediatrics & Adolescent Medicine. 166, no. 10 (2012): 967–8.
Этот пост уже удален, но интернет ничего не забывает, так что с помощью архива Wayback Machine (http://web.archive.org/web/20170312041524) то сообщение все еще можно прочитать: www.brianwansink.com/phd-advice/the-grad-student-who-never-said-no
Хакинг в смысле “отслеживание”, “выуживание”. На английском p-hacking.
Aschwanden C. We’re All “P-Hacking” Now. Wired. 26 Nov. 2019.
Simmons J. P. et al. False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science. 22, no. 11 (2011): 1359–66.
Kerr N. L. HARKing: Hypothesizing After the Results Are Known. Personality and Social Psychology Review. 2, no. 3 (1998): 196–217.
Происхождение идеи про “техасского стрелка” обсуждается, например, здесь: Popik B. Texas Sharpshooter Fallacy. The Big Apple. 9 March 2013.
Если вероятность совершить ложноположительную ошибку равна 0,05, то вероятность избежать этой ошибки (то есть справедливо заявить, что эффекта нет): 1 минус 0,05. Вероятность не совершить эту ошибку в серии из n испытаний равняется предыдущему значению в степени n: (1–0,05)n. Отсюда следует, что вероятность совершить хотя бы одну ложноположительную ошибку в серии из n испытаний: 1 – (1–0,05)n. Поэтому если мы проведем 5 испытаний, то получим вероятность 1 – (1–0,05)5 = 0,226, или 22,6 %. Технически это справедливо только для независимых испытаний – ситуаций, когда переменные, вовлеченные в каждое из них, абсолютно друг с другом не связаны. На практике же (и особенно во многих случаях p-хакинга, когда одни и те же переменные используются снова и снова) увеличение вероятности совершить хотя бы одну ложноположительную ошибку как функции, зависящей от числа испытаний, не будет столь же резким – однако вероятность тоже будет становиться все выше и выше, так что применим сходный принцип.
Еще стоит сказать, что существует целый ряд способов подправить порог для ваших p-значений, если вы навычисляли их много: вы можете признавать “значимыми” только те, что меньше 0,01, например, а не 0,05. Проблема в том, что большинство исследователей забывают это сделать – либо, когда они промышляют p-хакингом, им не кажется, что они действительно прогнали столько тестов, даже если так оно и было. Есть также интересный философский вопрос: для скольких p-значений ученый должен делать поправку? Для каждого p-значения, которое он вычислил в рамках этой конкретной статьи? Для каждого p-значения, вычисленного при изучении данной темы? Для каждого p-значения, посчитанного за всю его карьеру? А что насчет всех тех p-значений, которые еще только будут вычислены в будущем? Простого ответа нет, как и на любой другой интересный философский вопрос. Одна точка зрения представлена здесь: Lakens D. Why You Don’t Need to Adjust Your Alpha Level for All Tests You’ll Do in Your Lifetime. The 20 % Statistician. 14 Feb. 2016.
Аналогия взята отсюда: McIntyre L. The Scientific Attitude: Defending Science from Denial, Fraud, and Pseudoscience. Cambridge, Massachusetts: The MIT Press, 2019.
Это далеко не новое утверждение, вот статья 1969 года как раз о том же: Armitage P. et al. Repeated Significance Tests on Accumulating Data. Journal of the Royal Statistical Society, Series A (General). 132, no. 2 (1969): 235–44.
Признание: один из исследователей, который разбирал статьи Вонсинка, – Ник Браун, мой коллега и друг.
Van der Zee T. et al. Statistical Heartburn: An Attempt to Digest Four Pizza Publications from the Cornell Food and Brand Lab. BMC Nutrition. 3, no. 1 (2017): 54.
Notice of Retraction: The Joy of Cooking Too Much: 70 Years of Calorie Increases in Classic Recipes. Annals of Internal Medicine. 170, no. 2 (2019): 138.
Wansink B. et al. Notice of Retraction and Replacement. Wansink B, Just DR, Payne CR. Can Branding