* * *
До сих пор это верно, далее — нет: границы
р-значения
Как правило, выбирается определенное p-значение, чаще всего 5 %, и если полученное на практике p-значение оказалось меньше, то нулевая гипотеза отвергается, в противном случае — нет. Это значение называется уровнем значимости.
Конечно, всем нам нравятся четкие и простые правила, но было бы неразумно выбрать одно универсальное значение и применять его всегда вне зависимости от контекста. Выбор граничного значения равносилен выбору вероятности того, что мы ошибочно отвергнем нулевую гипотезу. Вероятность ошибки, которую будет разумно выбрать, зависит от ситуации и возможных последствий ошибки.
Предположим, как-то утром, выходя из дома, мы смотрим прогноз погоды и решаем, что вероятность дождя равна 10 %. Стоит ли взять с собой зонтик? Если мы не возьмем с собой зонтик и примем 10-процентный риск попасть под дождь, никому из нас это не покажется неразумным. Если мы ошибемся, то потеряем немного (разве что слегка намокнем). Также следует учесть, что ходить весь день с зонтиком достаточно неудобно.
Другой пример. Мы едем по второстепенной дороге, на которой очень мало машин. Мы замечаем, что на подъеме, где не видно встречную полосу, есть небольшая выбоина. Ее можно объехать, приняв немного левее. Однако мы не станем этого делать. Вероятность того, что по встречной полосе этой пустынной дороги проедет автомобиль, невелика, а вероятность того, что мы встретимся точно на подъеме, — еще меньше. Однако мы не станем выезжать на встречную полосу: несмотря на то что вероятность столкновения крайне мала, если оно все же произойдет, то ущерб будет значительным. Если мы проедем по выбоине, то почувствуем лишь легкое неудобство.
Очевидно, что вероятность ошибки, к которой мы готовы при принятии решения, зависит от обстоятельств и от возможных последствий этой ошибки.
Приведем другой пример, также связанный с дорожным движением, а именно с радарами для измерения скорости проезжающих машин. Хорошо известно, что эти радары, как и любые другие приборы, имеют определенную погрешность измерения. Если они показывают, что скорость машины равна 120 км/ч, возможно, что фактическая скорость равна 119 или 122 км/ч. По этой причине, если на дороге установлено ограничение скорости в 120 км/ч, водителей штрафуют только тогда, когда их скорость превышает ограничение на определенную величину. Это делается для того, чтобы исключить возможное влияние погрешности измерения и гарантировать, что водитель действительно ехал с превышением. Если будет выбрано значение, для которого доля ошибочных значений будет равна 5 % (таким образом, в 5 % случаев будут оштрафованы водители, которые не превышали скорость), это вызовет жаркие споры, ведь каждый день сотни людей будут незаслуженно получать штрафы.
Подведем итог. Выбор граничного значения нельзя делать только с помощью методов статистики; нужно рассматривать конкретную ситуацию. Когда проводится эксперимент, в котором сравнивается эффективность нового и существующего лекарств, выбор граничного значения 0,05 означает, что с вероятностью в 5 % будет сделан ошибочный вывод об эффективности лекарства. Какие последствия это повлечет? Имеет ли новое лекарство серьезные побочные эффекты? Дороже ли новое лекарство, чем то, что уже используется? Ответы на эти вопросы крайне важны при выборе оптимального граничного значения.
Однако верно и то, что во многих случаях значение 0,05 выбирается без какого-либо анализа. Это происходит потому, что для этого значения уже рассчитаны различные статистические показатели, которые можно найти в справочных таблицах. Когда много лет назад эти величины рассчитывались с помощью примитивных средств, в таблицы заносились лишь значения, соответствующие определенным вероятностям, в частности 0,001; 0,005; 0,01; 0,05; 0,10. Из возможных табличных значений в качестве границы, отделяющей «обычное» от «необычного», чаще всего выбиралось именно 0,05. Преимущество этого значения в том, что это круглое число в нашей десятичной системе счисления. Если бы у нас на руках было по шесть пальцев, то в качестве граничного значения было бы естественно выбрать 0,06.
Глава 5
Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы
Статистику необходимо использовать тогда, когда для ответа на вопрос нужно собрать и проанализировать данные. К таким вопросам относятся, например, вопросы об эффективности вакцины или лекарства, о прочности нового способа сварки и другие.
Как правило, сбор данных — трудоемкая и дорогостоящая операция. Следует тщательно продумать, каков оптимальный способ решения этой задачи, позволяющий потратить минимум ресурсов. Кроме того, почти никогда не удается получить все необходимые данные и нужно знать, как извлечь из них максимальную выгоду. Не стоит забывать и о вариации данных, которые не подчиняются строгим математическим законам, и при одних и тех же исходных данных результаты могут различаться.
Если нужно ответить на вопрос, снижает ли регулярный прием определенной дозы аспирина вероятность инфаркта, это можно сделать на основе рассуждений о действии аспирина на организм, однако во многих случаях реальность преподносит немало сюрпризов. Точнее всего на этот вопрос можно ответить, если собрать экспериментальные данные. Нужно сформировать две группы людей, обладающих как можно более схожими признаками, одной группе прописать аспирин, другой — нет, после чего сравнить результаты. Нам известно, что не все участники исследования одинаковы, поэтому реакция на аспирин у них будет различаться. Нужно учесть все эти факторы и сделать корректные выводы, указав степень их надежности. Именно этим и занимается статистика.
Крупномасштабное исследование: вакцина против полиомиелита
Возможность сделать прививку и обезопасить себя от инфекционного заболевания, вне всяких сомнений, стала одним из решающих этапов в борьбе с болезнями, помогла улучшить здоровье людей и повысить ожидаемую продолжительность жизни.
Однако для каждого заболевания требуется особая вакцина, и найти ее иногда бывает непросто. Лабораторные тесты, тесты на животных, на добровольцах помогают собрать достаточно информации об эффективности вакцины. Однако прежде чем одобрить и рекомендовать ее к массовому применению, нужно тщательно проверить, скомпенсируют ли ее преимущества затраты и неизбежные риски. Здесь на сцену выходит статистика.
В 1954 году было проведено масштабное исследование по оценке эффективности вакцины против полиомиелита (вакцины Солка, созданной эпидемиологом Джонасом Солком). Оно очень подробно описано в книге Statistics: A Guide to the Unknown, где рассказывается о 29 случаях применения статистики в самых разных областях. Каждая глава написана специалистом, глубоко разбирающимся в соответствующей теме. Глава об анализе эффективности вакцины написана профессором Чикагского университета Полом Мейером.
Полиомиелит и его особенности
Благодаря эффективности прививок полиомиелит исчез практически полностью, но еще не так давно он входил в число самых опасных болезней. Им болели преимущественно дети, многие оставались парализованы или всю жизнь страдали от серьезных осложнений болезни. Кроме того, масштабные эпидемии полиомиелита возникали неожиданно. Что любопытно, от них в большей степени страдали социальные группы с лучшими условиями жизни, а наиболее бедные страны и слои населения оказывались практически не затронутыми. Причиной этому был тот факт, что в менее благополучных слоях населения дети заражались раньше, когда они еще находились под защитой иммунитета матери, поэтому вирус не приводил к развитию заболевания. Кроме того, у детей вырабатывался иммунитет к полиомиелиту. Дети, жившие в более благоприятных условиях, заболевали позже, когда их уже не защищал материнский иммунитет. Борьбе с этой болезнью способствовал и тот факт, что сам президент Рузвельт переболел полиомиелитом и всячески поддерживал исследования в этой области.
В начале 1950-х годов руководство системы здравоохранения США посчитало, что новая вакцина, созданная Джонасом Солком, является эффективной, что было доказано исследованиями, проведенными в небольших масштабах. Однако перед тем как рекомендовать массовое применение вакцины, требовалось получить неопровержимые доказательства ее эффективности и отсутствия негативных побочных эффектов. Было решено провести эксперимент, ставший самым крупным в истории системы здравоохранения.
Контрольная группа
Допустим, что результаты испытаний нового лекарства от определенной болезни показывают, что любой, кто принял это лекарство, излечивается за 7 дней. Можно ли говорить об эффективности этого лекарства?