Способы улучшения заданий выясняются как раз на этой стадии конструирования теста. Например, изменение формулировки ответа в задании с «иногда» на «всегда» может повысить показатель эффективности. Однако эти изменения во всех вопросах (утверждениях) могут повлиять на надежность и валидность теста. Процедура анализа заданий дает необходимую информацию относительно параметров каждого задания. Тем не менее только исследователь может вынести решение о том, какой из критериев наиболее важен для реализации цели создаваемого теста.
В начале 1980-х гг., помимо традиционных процедур анализа заданий, появляются более сложные, использование которых невозможно без достаточно мощного компьютерного обеспечения. К таковым прежде всего относится теория «задание-ответ» (item response theory, IRT). Технические приемы этой теории, несмотря на продолжающиеся дискуссии, сегодня включаются во вновь создаваемые тесты. Однако речь идет прежде всего о тестировании способностей. Наиболее сложные проблемы возникают в связи с попытками приложения ITR к тестам личности. Безусловно, нельзя утверждать, что процедуры из ITR неприменимы в оценке личности, однако требуется решение многих задач, прежде чем эта теория заменит традиционные процедуры анализа заданий (подробнее об этой теории см. в работах Клайна, 1994; Анастази и Урбина, 2001; и др.).
3.6. Определение надежности теста
Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
В психометрике термин надежность имеет два значения. На одном из них – надежности по внутренней согласованности – мы не будем останавливаться подробно, отсылая читателя к соответствующим справочникам и руководствам[66], отметив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности.
Надежность ретестовая – предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более или менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаивают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).
Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестирования варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумывать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.
Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.
Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблема, препятствующая широкому распространению этого способа определения надежности, – необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.
Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.
Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвященном анализу заданий. Для определения надежности частей теста ранее рассчитанный коэффициент произведения моментов Пирсона (между двумя половинами теста) используется в формуле Спирмена-Брауна. Формула Спирмена– Брауна имеет вид:
где r11 – надежность, оцененная для всего опросника; r1/21/2 – корреляция между двумя половинами опросника.
Например, если коэффициент корреляции произведения моментов Пирсона между двумя половинами теста равен 0,80, то:
Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы.
Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность – важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.
Во многих случаях перед разработчиком теста встает задача «сжатия» информации или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализ как раз и является методом снижения размерности изучаемого многомерного явления.
Напомним читателю, что факторный анализ зародился в психологической науке и связан в первую очередь с исследованиями Ч. Спирмена (Spearman, 1904). Последующими работами таких выдающихся психологов, как Т. Келли, Л. Терстоуна, Дж. Гилфорда и Р. Кэттелла, а также математиков К. Пирсона, К. Холзингера, Г. Хармана и др., был достигнут значительный успех в математическом обосновании факторного анализа, и этот метод начинает активно применяться в различных науках.
Как хорошо известно, одной из типичных форм представления экспериментальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки – отдельным результатам (значениям), полученным в результате их применения. Визуальный анализ сколь-нибудь значительной по величине матрицы невозможен, а поэтому требуется исходную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет коэффициентов корреляции).
Воспользуемся в качестве примера исследованием Л. Айкена (Aiken, 1996). В этом исследовании 90 студентов колледжа просили оценить преподавателя с помощью пятибалльной шкалы (1 – низший балл, 5 – высший) по 11 параметрам: тактичность, вежливость, креативность, доброжелательность, увлеченность своим предметом, знание предмета, способность мотивировать студентов, организованность, терпеливость, подготовленность и пунктуальность.
Если поделить матрицу корреляций рейтинговых оценок, данных студентами по списку качеств личности преподавателя (табл. 3.4) на два равных треугольника, проведя диагональ из левого верхнего угла в правый нижний угол, то можно увидеть, что это – симметричная матрица, в которой первая верхняя строка состоит из тех же оценок, что и первая колонка. Аналогично вторая строка включает те же самые элементы, что и вторая колонка, и т. д. Также нужно обратить внимание на то, что все числа на основной диагонали (начиная сверху слева вплоть до чисел внизу справа) равны +1,00 – это предполагаемая корреляция каждого задания шкалы с самим собой.
В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объясняли бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям. В вышерассмотренном примере – 11 переменных, поэтому для него задача факторного анализа заключается в том, чтобы найти матрицу факторных нагрузок или корреляции между факторами и заданиями шкалы. Существует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок (см. табл. 3.4).