попытки успешны. Появлялись все новые и новые исследования генов-кандидатов, дающие положительные результаты: вариации в гене
COMT оказались связанными с показателями когнитивных тестов, вариации в гене 5
-HTTLPR – с депрессией, а в гене
BDNF – с шизофренией, и это лишь несколько хорошо изученных примеров. Накапливались сотни и сотни исследований [466]. Обнаруживаемые эффекты часто впечатляли: так, в одной статье из престижного журнала
Nature Neuroscience в 2003 году утверждалось, что способность запоминать у людей с одним конкретным вариантом гена 5
-HT2
A на 21 % ниже [467]. С такими большими эффектами мы уверенно продвигались к пониманию генетических основ важных признаков. Еще генетики начали прояснять биологические “пути” между генами и признаками: например, было установлено, что ген 5
-HTTLPR связан с депрессией за счет того, что делает миндалину (область мозга, связанную с эмоциями) более реактивной, когда ее владельцу угрожает опасность [468].
В пору моего студенчества, с 2005 по 2009 год, исследования генов-кандидатов были предметом бурных обсуждений. К тому времени, как я получил ученую степень в начале 2014-го, они были уже почти полностью дискредитированы. Как так случилось? Основным фактором послужило то, что технология усовершенствовалась и изучать генотипы людей стало гораздо дешевле [469]. А значит, в генетических исследованиях теперь возможно было использовать куда большие выборки – размером во много тысяч или десятков тысяч образцов. К тому же генетики начали применять другой подход: теперь вместо только одного или горстки генов-кандидатов они одновременно изучали многие тысячи участков ДНК, различающихся у разных людей, проверяя, какие из них теснее всего связаны с рассматриваемыми признаками. Такой подход называется полногеномным поиском ассоциаций (GWAS, Genome-Wide Association Study), и подобные исследования имели куда большую статистическую мощность, а следовательно, позволяли найти генетические варианты, оказывающие гораздо меньшее влияние на признаки, в дополнение к существенному влиянию уже хорошо известных генов-кандидатов [470].
Вот только полногеномный поиск ассоциаций не выявил для прежних генов-кандидатов больших эффектов [471]. И негде было их дальше искать: будь они реальны, выделялись бы. Вместо этого новейшие исследования с высокой статистической мощностью по поиску полногеномных ассоциаций продемонстрировали, что сложные признаки у человека связаны, как правило (за несколькими крайне редкими исключениями), со многими тысячами генетических вариантов, и каждый оказывает, похоже, лишь крошечный эффект [472]. Неоткуда было взяться большим эффектам для единичных генов, что шло вразрез с результатами всех предыдущих прославленных работ о генах-кандидатах. С тех пор усилия, направленные на повторение исследований генов-кандидатов при высокой статистической мощности, дали ровнехонькие отрицательные результаты для показателей тестов на коэффициент интеллекта, для депрессии и для шизофрении [473].
По прошествии времени кажется, что вся литература о генах-кандидатах – какой-то сюрреалистический опыт: ученые выстраивали величественное здание детальных исследований на шатком фундаменте – на основаниях, как мы теперь знаем, совершенно неверных. Вот как сказал об этом Скотт Александер в блоге Slate Star Codex: “Это не просто путешественник, вернувшийся с Востока и утверждающий, что там водятся единороги. Это путешественник, который описывает жизненный цикл единорогов, их рацион, все различные подвиды этих животных, какие куски единорожьего мяса самые вкусные и дает детальнейший отчет о схватке единорогов и снежного человека” [474].
Вся эта печальная история – хрестоматийный пример, предупреждающий об опасностях низкой статистической мощности. Исходные исследования генов-кандидатов, будучи мелкомасштабными, могли выявить лишь большие эффекты, а значит, о них и сообщали. Теперь понятно, что те большие эффекты были резко выделяющимися, нелепыми случайностями из-за ошибки выборки. Ожидалось, что в последующих работах тоже обнаружатся большие эффекты, поэтому размер выборок оставался довольно скромным. Так исследования выезжали на случайных результатах – и выстроилась цепь недостоверных открытий, ставших мейнстримом, золотым научным стандартом в этой области. Разумеется, какие-то отрицательные результаты проскакивали, а некоторые специалисты по метаанализу били тревогу по поводу низкой статистической мощности [475]. Но большинство исследователей генов-кандидатов упорствовали. Знай эти генетики историю своей дисциплины, они крайне настороженно относились бы к генам “большого эффекта”: Рональд Фишер, статистик, популяризовавший p-значение и идею “статистической значимости”, понял, что сложные признаки должны быть полигенны, то есть зависеть от многих тысяч генов “малого эффекта”, еще в 1918 году [476].
К счастью для генетиков, технологические усовершенствования, благодаря которым цена генотипирования снизилась, привели к тому, что их идеи насчет генов-кандидатов в итоге были проверены в исследованиях по полногеномному поиску ассоциаций с надлежащей статистической мощностью – и не осталось сомнений, на правильном ли пути они были (нет, не на правильном). С тех пор генетики перешли к рутинному использованию больших выборок, и, хотя все еще существует несколько оплотов веры в гены-кандидаты, такой тип исследований почти вымер [477]. Но представьте, сколько других научных областей еще не столкнулись с подобным главным испытанием. Целые пласты научной литературы – базирующиеся на малых исследованиях с неправдоподобно большими эффектами – вполне могут оказаться столь же ошибочными и наполненными миражами, как и исследования генов-кандидатов.
Справедливо ли с моей стороны называть ученых, которые проводят исследования с недостаточной статистической мощностью, недобросовестными или даже некомпетентными? Специалисты по нейронауке, например, могут возразить, что их исследования очень дороги, учитывая, что им часто приходится платить за лабораторных животных и их содержание или использовать непомерно дорогое оборудование вроде МРТ-сканеров мозга. При таких расходах небольшие исследования – это все, что они вправе себе позволить. Более того, многие исследования проводятся аспирантами и молодыми учеными, недавно получившими ученую степень, у которых не так много грантовых денег, если таковые вообще имеются. Когда я делал замечания по поводу низкой статистической мощности на научных семинарах, часто звучали ответы в таком духе: “Моим студентам нужно публиковать статьи, чтобы быть конкурентоспособными на рынке труда, и они не могут позволить себе проводить крупномасштабные исследования. Им приходится довольствоваться тем, что у них есть”. Это ярчайший образчик того, как ученых с благими намерениями систематически поощряют – кто-то сказал бы “заставляют” – идти на компромиссы, которые в конечном счете делают их работу ненаучной.
Как бы там ни было, объяснение, почему проводятся исследования с низкой статистической мощностью, их не оправдывает. Мы вернемся к вопросу о том, кто (или что) виноват в такой недобросовестности, позже. А пока нам нужно признать, что, когда научное сообщество дало свое коллективное согласие на проведение таких исследований, оно пренебрегло одной из своих основных обязанностей – или даже отреклось от нее. Тенденция таких исследований вводить в заблуждение означает, что они активно отнимают у нас знание: зачастую было бы лучше, если бы их вообще никогда не проводили. Ученые, сознательно занимающиеся исследованиями