Валидизация контрольных измерительных материалов Единого государственного экзамена Полежаева Мария Викторовна, к.п.н., ведущий научный сотрудник Федерального института педагогических измерений
Валидизация сбор и предъявление научно обоснованных доказательств приемлемости используемых измерительных материалов для решения поставленных задач процедура улучшения валидности теста по результатам оценки валидности («Педагогические тесты. Термины и определения. Отраслевой стандарт Министерства образования РФ. - М, 2001 г.») 2
Цели и задачи исследования Анализ существующих технологий валидизации измерительных материалов широкомасштабных аттестационных процедур в форме тестирования и разработка рекомендаций по совершенствованию системы валидизации КИМ ЕГЭ 3
Этапы исследования 1. Анализ зарубежного и отечественного опыта валидизации измерительных материалов для процедур широкомасштабного тестирования (США, Великобритания, Голландия, TIMSS, PISA, региональные мониторинговые исследования в РФ) 2. Анализ существующей технологии разработки и оценки качества КИМ ЕГЭ 3. Разработка рекомендаций по ее совершенствованию 4
Валидность Валидность является наиболее важным аспектом качества теста и определяется для образовательного и психологического тестирования как «приемлемость, осмысленность, полезность выводов, которые могут быть сделаны по результатам тестирования». Ее можно рассматривать как интегрированное оценивающее суждение относительно того, в какой мере эмпирические доказательства и теоретические объяснения подтверждают адекватность и уместность выводов и следствий, которые базируются на тестовых баллах или других результатах оценивания. 5
6 Виды валидности Внутренняя Критериальная Текущая (конвергентная, диагностическая) Конструктная Прогностическая Очевидная Содержательная Дискриминантная Конкурентная Внешняя Валидность по отношению к образовательным стандартам и программам Консеквентная
7 ВАЛИДИЗАЦИЯ Критериальная Сравнение содержания теста со спецификацией Опросные листы, интервью с «экспертами» по спецификации КИМ Экспертная оценка заданий относительно определенного списка критериев Выявление корреляции тестовых баллов испытуемых с их баллами по другим независимым измерениям Выявление корреляций тестовых баллов испытуемых с их успеваемостью в школе Выявление корреляций тестовых баллов испытуемых с другими мерами их способностей Выявление корреляций тестовых баллов испытуемых с результатами более поздних измерений Определение корреляций между субтестами Определение корреляции между субтестом и тестом в целом Выявление корреляций тестовых баллов испытуемых с успешностью реализаций ими учебных программ Оценка квалиметрической валидности(тестоло- гический анализ) Факторный анализ Текущая Конструктная Прогностическая Содержательная
Существующая система валидизации КИМ ЕГЭ позволяет: оценить качество как отдельных тестовых заданий и вариантов КИМ, так и в целом соответствие заявленным целям процедуры проведения государственной (итоговой) аттестации выпускников общеобразовательных учреждений; выявить несоответствующие заявленным содержательным и статистическим критериям задания, своевременно скорректировать их либо удалить из базы. 8
В результате исследования проанализирован отечественный и зарубежный опыт по организации валидизации измерительных материалов, выявлены сильные и слабые стороны существующих технологий; были доработаны инструкции по проведению содержательной и тестологической экспертизы; даны рекомендации по организации дальнейших исследований. 9
Предложения по совершенствованию существующей системы валидизации Технология должна носить комплексный характер, соотноситься с целью проводимых оценочных процедур и технологией разработки измерительных материалов, используемых при проведении государственной (итоговой) аттестации выпускников общеобразовательных учреждений. Исследования критериальной валидности проводились в начале эксперимента по введению ЕГЭ, потом были организованы в отдельных регионах в рамках мониторинговых исследований либо в конкретных образовательных учреждениях, но необходимы более масштабные эксперименты в связи с переходом в штатный режим. Есть положительный опыт использования результатов международных исследований (TIMSS, PISA) для валидизации измерительных материалов, используемых для национальных экзаменов. 10
Предложения по совершенствованию существующей системы валидизации (продолжение) Профессиональные этические кодексы большинства организаций, проводящих педагогическое тестирования не просто требуют всеобъемлющего исследования валидности используемых инструментов и процедур, но и ознакомление с результатами валидизационных исследований всех заинтересованных сторон. Одним из направлений дальнейших исследований может стать оценка консеквентной валидности – определение значимости последствий применения оценочных процедур для преподавания и обучения, а более широко - для общества в целом. 11
Спасибо за внимание Полежаева Мария Викторовна, к.п.н., ведущий научный сотрудник Федерального института педагогических измерений