Еще одна стратегия — сокрытие факта наблюдения. Можно, к примеру, использовать скрытую камеру или одностороннее зеркало. Конечно, такая возможность нередко отсутствует — эти методы применимы только в специальных условиях. Кроме того, скрытое наблюдение связано с этическими, а также материально-техническими ограничениями. Как мы увидим в главе 8, наблюдение за людьми без их на то согласия может рассматриваться как нарушение принципов этики.
Второй недостаток обсервативных исследований — вероятность необъективности наблюдателя, которая является лишь частным случаем более общей проблемы. Многочисленные исследования, начатые Робертом Розенталем (Robert Rosen-thai, 1976), свидетельствуют о том, что ожидания исследователей, которые они привносят в свое исследование, иногда ведут к искажению результатов в направлении ожидаемых или желательных. Более подробно об этом рассказано в главе 5. В обсервативном исследовании присутствует риск того, что наблюдатель будет видеть и заносить в протокол только то, что ожидает увидеть, а не то, что происходит на самом деле.
Одним из доказательств может служить исследование Кент, О'Лири, Дайамент и Дитц (Kent, O'Leary, Diament, & Dietz, 1974). Наблюдателям были продемонстрированы видеозаписи, как было сказано испытуемым, исходной фазы и фазы экспериментального воздействия некой программы, направленной на коррекцию агрессивного поведения в школе. Половине наблюдателей было сообщено, что прогнозируется снижение уровня агрессии; другой половине — что никаких изменений не предвидится. Фактически все наблюдатели смотрели одну и ту же видеозапись, в которой никаких изменений поведения не происходило. Оценивая затем эффективность программы, 9 из 10 наблюдателей, ожидавших снижения уровня агрессии, сообщали о том, что оно действительно произошло; а 7 из 10 наблюдателей, не ожидавших изменений, не отмечали никаких изменений. Интересно, что протоколы, которые вели участники обеих групп в процессе просмотра видеозаписи, были сходными, однако окончательные оценки свидетельствовали о влиянии ожидания.
Результаты этого исследования говорят о том, что для снижения вероятности необъективности наблюдателя необходимо сделать систему оценки максимально специфичной и объективной. Чем шире простор для интерпретации, тем больше у наблюдателя возможностей исказить результаты собственной предвзятостью. Еще один способ снижения вероятности необъективности — сделать так, чтобы наблюдатель не знал о выдвинутых гипотезах или о том, к какой группе принадлежат испытуемые. Сокрытие информации, которая может привести к необъективности, является условием так называемого наблюдения «вслепую». Мотив его использования очевиден: если нет никаких ожиданий, нет и опасности эффекта ожидания. К сожалению, проведение наблюдения «вслепую» затруднительно, а в некоторых случаях — невозможно. Кроме того, даже если проведение наблюдения «вслепую» возможно, к нему прибегают далеко не всегда.
Еще одного рода проблемы так или иначе связаны с понятием надежности. Как отмечалось ранее, надежность означает согласованность результатов измерения. При использовании методов наблюдения ключевым моментом является единодушие наблюдателей: могут ли двое или более наблюдателей прийти к единым выводам относительно некоторого поведения? Такое согласие является необходимым условием точности результатов наблюдения. Однако выполнения этого требования недостаточно, поскольку существует вероятность того, что оба исследователя пришли к единому, но ложному выводу. Это вновь частный случай общего принципа: надежность — это необходимое, но недостаточное условие валидности.
Существует множество способов расчета надежности. Для определенного вида данных подходит коэффициент корреляции. Чем выше коэффициент корреляции между результатами, полученными двумя независимыми наблюдателями, тем выше надежность. Еще один, часто используемый индекс — процент совпадений. Предположим, оценка определенного вида поведения происходит 20 раз. Совпадение мнений двух наблюдателей в 19 случаях из 20 соответствует 93 %, достаточно высокой надежности. Совпадение только в 13 случаях из 20 соответствует 65 %, что может рассматриваться как неудовлетворительная надежность. О других методах расчета надежности, а также сложностях, связанных с каждым из них см.: .Mitchell, 1979 и Hartmann, 1982.
Вопрос о том, как рассчитать надежность, встает сразу, как только исследователь осознал необходимость надежности своего исследования. При обзоре журнальных статей (см. табл. 1.3) учитывалось наличие или отсутствие рассчитанного коэффициента надежности там, где это было желательно. Результаты обзора свидетельствуют о достаточно высоком, но не полном осознании необходимости учета фактора надежности: данные о надежности были представлены в 91 % случаев из тех, где эти данные были вполне уместны. Одом и Огава (Odom & Ogawa, 1992) более подробно рассматривают расчет коэффициента надежности в обсервативных исследованиях, включая анализ типов статистических показателей и критерии их использования.
Приемы повышения надежности легко описать, но не всегда легко использовать. До начала процедуры сбора данных наблюдатели должны пройти тщательную подготовку. Система оценок должна быть максимально четкой и конкретной. Для подготовки наблюдателей и уточнений системы оценок может использоваться пилотажное исследование, в ходе которого категории редко встречающегося и трудно оцениваемого поведения либо исключаются, либо трансформируются в более удобные категории. Наконец, если есть возможность, для того чтобы иметь непрерывную и воспроизводимую запись, лучше снимать поведение видеокамерой.
Как следует из вышесказанного, при сборе данных нужно как можно раньше позаботиться о надежности. Желательно также контролировать ее на всем протяжении исследования. О целесообразности этого говорят исследования Рэйд (Reid, 1970; Taplin & Reid, 1973). В исследовании Тэплин и Рэйд наблюдатели прошли предварительную подготовку, в ходе которой достигли приемлемого уровня надежности. Затем одну группу наблюдателей проинформировали о том, что надежность оцениваться больше не будет; а участникам второй группы сообщили, что периодически, без предупреждения будет осуществляться проверка их надежности. В действительности записи всех наблюдателей продолжали сравни-вать с исходным уровнем. Результат был очевиден: наблюдатели, ожидавшие, что их оценки будут подвергаться проверкам, сохраняли более высокий уровень надежности. Данная тенденция к снижению надежности изначально надежных наблюдателей при отсутствии контроля называется дрейфом наблюдателя. Дрейф наблюдателя относится к категории искажающих валидность факторов, которую Кэмпбелл и Стэнли (Campbell & Stanley, 1966) называют инструментацией: непреднамеренным изменением измерительного инструмента в ходе исследования.
До этого момента о надежности говорилось так, будто есть некий единый индекс надежности, которому исследование либо соответствует, либо нет. В действительности, в типичном исследовании, как правило, существует множество видов надежности — для определенных форм поведения, определенных аспектов поведения, определенных периодов времени, определенных подгрупп испытуемых и т. д. Суть состоит в том, что надежность должна быть продемонстрирована на том уровне, на котором производится анализ данных. Если, к примеру, исследователь хочет оценить посттестовые различия, обусловленные неким воздействием, необходимо продемонстрировать надежность посттестовых данных; надежности, достигнутой на фазе претеста, будет недостаточно. Аналогично, если изучается частота агрессивных действий, надежности общих оценок уровня агрессии будет недостаточно, исследователь должен показать, что наблюдатели сходятся во мнении и относительно частоты случаев проявления агрессии.
Ярроу и Уакслер (Yarrow & Waxier, 1979) иллюстрируют это положение интересным и несколько менее очевидным примером. Эти авторы описывают ряд обсервативных исследований, в которых коэффициенты надежности недсчитывались отдельно для мальчиков и для девочек. В некоторых случаях оценка поведения представителей одного пола была более надежной, чем оценка поведения представителей противоположного пола. По крайней мере в этих исследованиях оценки агрессии мальчиков были надежнее оценок агрессии девочек. Кроме того, существенная связь индивидуальных различий в уровне агрессии с другими показателями наблюдалась только у мальчиков. Как отмечают Ярроу и Уакслер, этот результат может отражать действительно имеющие место различия между полами или всего лишь недостаточную надежность оценок агрессивного поведения девочек. В этом случае, как и в предыдущем, надежность необходима на уровне, на котором используются данные.
Ярроу и Уакслер (Yarrow & Waxier, 1979) также обсуждают плюсы и минусы возложения на наблюдателя функций измерительного инструмента. Их рассуждение может быть кратким выводом к этой главе: