Кроме того, с помощью сложных задач может быть проверена одна весьма важная для жизни вещь — способность к обучению и навык обучения. Задача может быть построена так, что для ее решения необходимо наличие этой способности. Разумеется, такое делается редко, но с тестами это сделать вообще вряд ли возможно, причем по принципиальной причине: тест не осуществляет обратной связи, испытуемый не должен знать, правильно ли он решил задачу.
А нельзя ли совместить плюсы одного метода с плюсами другого? Один метод — найти некоторый промежуточный вариант, из средних по объему задач. Второй метод, который применили мы и независимо от нас применяют во многих тестах в США: «тест» содержит как типичные тестовые задачи, так и «большие» задачи. Возможно, что при создании системы тестов имело бы смысл изучить опыт педагогических систем, давно применяющих тестирование. Целью нашей работы не является критика ЕГЭ: во-первых, потому, что критика содержания ЕГЭ гораздо более увлекательна, нежели критика формального подхода, а во-вторых, потому, что решение о внедрении ЕГЭ принимается из совершенно иных соображений. Поэтому мы лишь предельно кратко остановимся на объЕГЭнии российского школьного образования.
При ознакомлении с заданиями ЕГЭ возникает ощущение, что некоторые из составителей отчасти понимали ограничения, свойственные разным типам задач и пытались включить в задания как одноходовки с выбором ответа из списка, так и некое слабое подобие творческих задач. Задачи того и другого типа составляют в заданиях ЕГЭ отдельные блоки, и внесение в итоговый документ оценок по каждому блоку позволило бы потребителю оценок (например, вузу) устанавливать более сложные и содержательные критерии. Логика использования таких двумерных оценок совершенно очевидна и мы не будем на ней останавливаться. Однако составители не пошли по этому пути (наверное потому, что он увеличивает на несколько процентов расход типографской краски на печать дипломов) и предпочли заняться формалистической игрой в «веса», которая позволяет — если задачи одного блока слишком просты, а другого слишком сложны — путем подбора «весов» придать общей функции распределения цивилизованный вид.
Данные о результатах ЕГЭ-2003 по всем предметам, причем не только отдельно по частям А+В и по части С («творческие» задачи), но и по корреляции этих результатов, приведены в издании «Новости образования». 17–18 за 2003 год. Мы воспользовались этими данными, чтобы ответить на вопрос — задания частей С по каким именно предметам ЕГЭ являются более и менее творческими по сравнению с частью А+В.
В названном выше издании результаты экзаменов приведены в форме изоуровней плотности распределения оценок в координатах (балл за А+В) — (балл за С). То есть для каждого сочетания оценок «А+В» и «С» указано, сколько экзаменующихся получили именно это сочетание. В общем случае изолинии должны иметь вид эллипсов (при неправильно выбранном среднем уровне сложности задач — урезанных вплоть до половины). По мере усиления корреляции эллипсы должны делаться более узкими, а при полной корреляции вырождаться в прямые линии — каждой оценке за «А+В» соответствует одна оценка за «С», отклонений нет. По мере ослабления корреляции эллипсы делаются относительно шире, а при ее отсутствии превращаются в окружности — изменение одной оценки не отражается на среднем значении другой.
Если посмотреть на опубликованные данные, то видно, что по отношению осей эллипсов предметы распадаются на две группы. Для русского языка, обществознания, математики и физики это отношение лежит в пределах от 2 до 3, а для географии, истории России, биологии и химии — в пределах от 4 до 5. Это означает, что для первых четырех предметов степень «творческости» в задачах блока С по отношению к А+В больше, чем для остальных предметов. Что касается сравнения наших тестов и ЕГЭ, то в тестах по математике за указанный год средний балл составляет по A+B около 20 из 30 (относительно терпимо), по С — меньше 3 из 16 — (плохо), а ширина функции распределения составляет около трети максимальной оценки, что несколько хуже, чем у нас.
Деление задач на «творческие» и «нетворческие» является экстремально примитивным. Можно, наверное, увидеть несколько параметров задач и построить выделить систему (или несколько независимых систем) параметров. Создание системы параметров плавно перетекает в создание модели явления. На этом пути мы могли бы понять, что такое задача. С другой стороны, имея систему параметров, мы могли бы попытаться составлять задачи, зондирующие способности экзаменующегося по каждому параметру или по заданным их сочетаниям. Пока же мы этого не умеем, надо пользоваться задачами, приближенными к жизни. Помните — «некто купил пять аршин синего сукна по три копейки и три аршина…»
Кто-то скажет, что в век компьютеров оно выглядит смешно. Может быть. Но много смешнее абитуриент вуза, не умеющий складывать дроби.
Ашкинази Л.А., Гайнер М.Л., Чернацкий С.Г., Физико-математическая школа МИЭМ
Наконец, упомянем оригинальный метод обработки данных, изложенный в частности в книге Франселла Ф. и Баннистер Д. Новый метод исследования личности.
В этом методе строится таблица, в которой по столбцам расположены элементы: люди, предметы, понятия, звуки, цвета, а по строкам расположены «конструкты»: параметры, шкалы, биполярные отношения, с точки зрения метрологии все это просто шкалы. Примеры конструктов: приятный-противный, хозяин-слуга, здесь-там, прошлое-будущее, уродливый-красивый. В клетках таблицы респондент отмечает, какое место на данной шкале (в данном конструкте) занимает тот или иной элемент, если он вообще может быть расположен на этой шкале. Так мы получаем, например, распределение по приятности людей, распределение по приятности цветов, распределение по близости к нам понятий и опять же людей и так далее. Исследователь может сам указывать респонденту конструкты-шкалы, а может в ходе интервью выявлять шкалы, которыми пользуется испытуемый, то есть выяснять, как он упорядочивает мир, в каких понятиях и терминах он мыслит. С точки зрения метрологии мышление «в шкалах» — продвинутое: мы не просто говорим, что политик M. - жулик, а точно определяем, что он чуть менее жулик, нежели N., но более жулик, чем P.
Далее можно самыми разнообразными способами исследовать стабильность конструктов во времени — дрейф сам по себе или в процессе терапевтического взаимодействия. Или связь конструктов между собой — и выявить, например, что для данного человека связаны конструкты прошлое-будущее и лучше-хуже, причем чем дальше в прошлое, тем лучше.
Близко к вопросу об индексах лежит вопрос о кластерах. Ибо если кластеры — это ассоциации в пространстве переменных, то кластеры — это ассоциации в пространстве объектов. Но в индекс объединяют по определенным правилам иногда говорящие нечто близкое величины, а иногда — говорящие нечто противоположное. Например, можно назвать индексом качества изделия сумму очков, набираемых им по шкалам нескольких параметров, а упомянутая выше «оценка экономического положения страны» — индекс, составленный и из говорящих и нечто близкое, и нечто противоположное. В кластер же объединяют всегда нечто схожее.
Классический кластер в социологии — поколения. Но существуют ли они реально, или это имя без денотата? Формально это можно определить по функции распределения значений некоторого параметра по возрасту — если оно не унимодально, то кластеры существуют. По существу же можно спросить, есть ли причина, серьезно влияющая на параметры объекта и такая, что она по-разному действуют для части группы. Например, какие-то пережитые исторические события, повлиявшие на людей. «Послевоенное поколение» — 23, «Потерянное поколение» — 19, «Военное поколение» — 13, «Предвоенное поколение» — 0,7, «Поколение исхода» — 0,5 и, — о, мой личный восторг! — «Поколение П» — 180! Числа — это мощности кластеров в тысячах ссылок Google (тсG) — новых единицах, которые я предлагаю ввести…
Специфической проблемой социологии является составление выборки, то есть определение, кого обмерять. Бюст, талию, бедра и так далее. В технике этот вопрос возникает два раза — при периодическом контроле и при выборочном контроле. Станок, поточная линия, вообще то или иное производство выпускает какие-то изделия и у каждого десятого, сотого или какого-то иного изделия контролируется некий параметр. Выбор частоты контроля определяется просто — прогнозом скорости дрейфа данного параметра, вызванного дрейфом параметров технологического процесса. Ну и, как всегда, стоимостью контроля и «стоимостью» пропуска какого-то количества бракованных изделий. Выборочный контроль — это скорее контроль не изготовителя, а получателя. Выбор из партии изделий производится случайным образом (если нет подозрений, что бракованные располагаются детерминировано — как хорошая хозяйка покупает на рынке?), а количество определяется ровно так, как сказано выше.