Почему происходит регрессия? Результат любого испытуемого можно рассматривать как сумму двух компонентов — «истинного результата», или фактического значения измеряемого параметра, и погрешности, обусловленной несовершенством измерения. Ясно, что «погрешность» — это еще один способ описания надежности: абсолютная надежность подразумевает отсутствие погрешностей; и наоборот, чем больше погрешность, тем ниже надежность. В отношении погрешности обычно бывают оправданны два допущения. Первое — среди истинных показателей погрешность распределена по закону нормального распределения. Это означает, что небольшие погрешности встречаются чаще, чем существенные; это также означает, что погрешности с равной вероятностью могут привести как к завышению, так и к занижению индивидуальной оценки каждого испытуемого. Второе допущение — погрешности случайным образом распределены между испытуемыми и между тестовыми ситуациями. Это означает, что погрешность в результатах определенного испытуемого в одном тесте не коррелирует с погрешностью этого же испытуемого в другом тесте; погрешность в первом тесте не связана погрешностью во втором тесте.
Рассмотрим теперь результаты, изображенные на рис. 4.2. Каким образом на них отразились погрешности измерения? В частности, как повлияли на полученное распределение существенные погрешности, то есть те, которые приводят к значительному завышению или занижению результата? Справедливо допустить, что низкие показатели (пустые кружочки), в целом, явились следствием непропорционального количества отрицательных погрешностей; это одна из причин низких результатов части детей. Аналогично справедливо допустить, что высокие показатели, в целом, явились следствием непропорционального количества положительных погрешностей; это одна из причин высоких результатов другой части детей. Но что происходит при повторном тестировании? Вспомним, что погрешности результатов одного тестирования не связаны с погрешностями результатов другого. Поэтому маловероятно, что существенные погрешности изменят результаты тех же детей и в том же направлении. Скорее всего, результаты каждого ребенка затронет относительно небольшая погрешность, которая равно вероятно может исказить истинный показатель, как в сторону повышения, так и в сторону понижения. Это «выравнивание» погрешностей при повторном тестировании обусловливает тенденцию низких показателей к повышению, а высоких — к понижению; иными словами, обусловливает регрессию к среднему.
Основная проблема, которую ставит регрессия перед исследователем, очевидна. Как и недостаточная надежность в целом, регрессия представляет угрозу для валидности исследования. Более того, поскольку регрессия — систематический феномен, она может явиться причиной систематически неверных выводов. Предположим, что в описанном ранее исследовании IQ мы не только повторно протестировали детей, но и включили между первым и вторым тестированием новую образовательную программу. Получив результаты, указанные на рисунках 4.2 и 4.3, мы могли бы заключить, что эффект нашей программы зависит от изначального уровня способностей: программа привела к повышению IQ слабоодаренных детей, но фактически снизила IQ у одаренных. Очевидно, что в подобном случае регрессия может произвести ложное впечатление изменения. Или же регрессия может маскировать истинное изменение; к примеру программа действительно развивает у детей способности, однако истинное улучшение показателей делается незаметным из-за потерь, обусловленных регрессией.
Исследования программ вмешательства, таких как описанные выше, являются наиболее типичным контекстом проявления эффекта регрессии, так как выборкой для них обычно служат дети с низкой успеваемостью. Этому недостатку подвержены также определенного вида планы уравненных групп. Рассмотрим несколько измененную схему описанного в главе 3 исследования лиц, окончивших и не окончивших школу. Представьте теперь, что вас интересует стабильность IQ во времени. Сохраняются ли способности у окончивших школу лучше, чем у не окончивших ее? Вы уравниваете группы по показателю IQ, среднему между показателями обеих групп (скажем, 97) и проводите повторное тестирование 10 лет спустя, Принимая во внимание лишь регрессию, мы можем предположить, что средний показатель тех, кто окончил школу, повысится (поскольку отобраны представители популяции, имевшие относительно низкие результаты), а средний показатель тех, кто не окончил школу, снизится (поскольку отобраны представители популяции, имевшие относительно высокие результаты). Вновь регрессия может произвести заметный эффект, который не имеет ничего общего с эффектом изучаемой независимой переменной.
Рис. 4.2. Гипотетическое распределение результатов при первом предъявлении теста IQ
Рис. 4.3. Гипотетическое распределение результатов при повторном предъявлении теста IQ
Прямое наблюдение поведения одновременно и наиболее ценный и наиболее сложный из методов психологического исследования. Поэтому я завершу эту главу обсуждением некоторых трудностей, связанных с наблюдением поведения.
Сначала нужно внести некоторую ясность. В определенном смысле, всякое исследование включает наблюдение поведения: как еще можно было бы оценить значение зависимой переменной? В ряде случаев регистрация поведения происходит практически, если не буквально, автоматическим образом. Реакции со стороны сердца могут фиксироваться на электрокардиограмме. Решая задачи, испытуемый может давать ответы, нажимая на кнопку, Достаточно взрослым испытуемым предлагаются опросники. Каковы бы ни были другие проблемы в таких исследованиях, проблема точности регистрации поведенческих реакций, как правило, не стоит.
При наблюдении точность регистрации определенно является проблемой. Обсервативное исследование обычно направлено на изучение довольно продолжительных эпизодов естественного поведения, которое невозможно зарегистрировать автоматически; от наблюдателя требуется вынесение суждений относительно наличия или отсутствия определенного поведения и о его значении. Поэтому центральный вопрос состоит в том, какова объективность решения наблюдателя. Разделим тему методов наблюдения на три основные проблемы: что наблюдать, как наблюдать и как определить точность результатов наблюдения. Более подробно с этими вопросами можно ознакомиться у Хартман и Вуд (Hartman & Wood, 1990), Одом и Огава (Odom & Ogawa, 1992), Сэкетт (Sackett, 1978), а также Йарроу и Уакслер (Yarrow & Waxier, 1979).
На определенном уровне ответы на вопрос «что» довольно очевидны. Понятно, что общие интересы исследователя ограничены поведением, которое можно наблюдать. Характер поведения, в свою очередь, определяет, насколько целесообразна та или иная стратегия наблюдения. Одни формы поведения легче изучать методом наблюдения, чем другие. Агрессия, к примеру, естественный претендент на обсервативную оценку: частое, наблюдаемое, «зримое» поведение. Хотя существуют и другие способы измерения (например, рейтинговые шкалы, изощренные экспериментальные тесты), они в меньшей степени отвечают целям исследования. И наоборот, частота сердечных сокращений и физиологические реакции не подходят в качестве объекта обсервативной оценки. Такие реакции трудно, а зачастую невозможно увидеть непосредственно, и применение других методов будет и более легким, и более разумным выбором.
Однако ситуация осложняется, когда исследователь выходит за рамки первоначального решения использовать методы наблюдения, пытаясь определить, какие именно аспекты поведения следует регистрировать. Предположим, мы изучаем стиль взаимодействия матери со своим младенцем. Для начала мы должны осознать, что все запротоколировать невозможно; наблюдение всегда связано с некоторым абстрагированием от конкретики каждого момента. Но до какого уровня конкретности следует абстрагироваться? Нужно ли отмечать тот факт, что мать подняла брови, широко раскрыла глаза, приподняла уголки рта, издала звук. Или мы должны работать на более глобальном, интерпретационном уровне, отмечая, что мать улыбнулась и заговорила с малышом? Или использовать еще более обобщенную систему интерпретации и указать на то, что мать поощряет только что произведенные действия младенца? Или мы должны перейти на еще более высокий уровень и отметить, что мать позитивно и доброжелательно относится к своему ребенку?
Проведенные выше разграничения обозначают как оппозицию микро- и макронаблюдения (Sackett, Ruppenthal & Gluck, 1978). Использование микросистемы наблюдения предполагает пристальное внимание к тонким деталям поведения, максимальную приближенность к фактическому поведению и практически нейтральное, четкое описание происходящего. Разумеется, некоторые детали все-таки опускаются и присутствует некоторая интерпретация; но даже в этих условиях целью является по возможности наиболее полное, конкретное и безоценочное описание. Макросистема наблюдения, напротив, предполагает некоторый отход от фактического описания, суммирование микроэлементов наблюдения, результатом которого становится формулирование определенной оценочной категории. «Улыбка» или «объятия» — примеры макрокатегорий на относительно специфическом уровне; «поощрение» и «отвлечение» — примеры более глобального, интерпретационного уровня.