Влияние характеристик образовательной среды на результаты обучения в начальной школе (на основе SAM - Student Achievement Monitoring) Карданова Е.Ю. НИУ ВШЭ 2013
Цели презентации Рассказать про SAM Представить психометрические характеристики тестовых заданий и тестов Представить свидетельства валидности Описать методику оценивания и шкалирования участников тестирования SAM Проанализировать факторы, влияющие на результаты
Цель SAM: оценивание предметных компетенций учащихся начальной школы по математике и русскому языку Отличительная черта SAM : модель оценивания основана на теории Л. Выготского и предполагает оценивание компетенций учащихся на трех базовых уровнях: формальном, рефлексивном и функциональном
Особенности инструмента SAM: SAM выполняет две функции: а) измерения учебной успешности и б) диагностики уровня освоения материала Для каждого раздела учебного предмета разрабатываются задачи, соответствующие критериям трех уровней (формального, рефлексивного и функционального) Каждый такой блок выполняет функцию детектора, определяющего качественный уровень усвоения соответствующего раздела учебной программы Разработка блоков опирается на систему индикаторов (типологию задач), соответствующую обобщенным критериям уровней освоения способа действия
Реализация теоретической модели SAM В рамках модели SAM разработаны тесты по двум предметам – математике и русскому языку – имеющие общую структуру Тесты рассчитаны на выпускников начальной школы и могут выполняться учащимися 4-го и 5-го классов. Тест включает основные разделы содержания, представленные в программах для начальной школы Структурной единицей теста является блок из трех заданий (1 го, 2 го и 3 го уровня), соответствующий одному разделу предметного содержания. Задачи предъявляются блоками. Используются задания открытой формы с кратким ответом, закрытой с выбором одного ответа из 4-5 предложенных, задания на установление соответствия, требующие построений и другие. Для оценивания заданий используется дихотомическая оценка: за правильный ответ ученик получает 1 балл, за неправильный ответ (или отсутствие ответа) – 0 баллов.
Структура теста
Проверка качества: апробационное тестирование Цель – проверка функционирования заданий (анализ тестовых заданий) и всего теста в целом, исследование системообразующих свойств теста, оценивание его надежности и валидности
Характеристики заданий в классической теории тестирования Трудность задания (коэффициент решаемости): доля испытуемых, выполнивших задание верно (получивших 1 балл за выполнение задания для дихотомических заданий определяется) Дискриминативность (дифференцирующая способность задания): способность задания различать испытуемых с различным уровнем подготовки.
Связь между надежностью и валидностью Надежность – характеристика точности и устойчивости результатов оценки Валидность – характеристика пригодности оценочной информации для принятия правильных решений на ее основе
Анализ данных апробации (весна 2012 г.) (КТТ, Математика, бланковая форма, более 5000 учащихся) все задания имеют удовлетворительные показатели коэффициенты решаемости заданий находятся в промежутке от 0,16 до 0,98 4 задания 1-го уровня обладают низкой дискриминативностью (это объясняется их легкостью - эти задания выполняют более 90% испытуемых). 1 вариант2 вариант Число испытуемых Средний первичный балл2627 Стандартное отклонение Коэффициент асимметрии Коэффициент эксцесса Средний коэффициент решаемости Средний индекс дискриминативности Средний скор. коэф. точ.-бис. корреляции0.39 Показатель надежности (KR20) Стандартная ошибка измерения2.61
Иерархия заданий по уровню трудности (математика) Задания трех уровней, относящиеся к одному блоку, должны образовывать иерархию по трудности
Коэффициенты решаемости тестовых заданий в зависимости от их уровня (математика) Кол-во заданий Уровень трудности Среднее значение Ст. отклон. Миним. значение Максим. значение Задания 1-го уровня150,860,070,730,98 Задания 2-го уровня150,600,090,460,73 Задания 3-го уровня150,300,090,160,45 Всего450,590,250,160,98 Содержательная областьВесь тест1-й уровень2-й уровень3-й уровень Числа и вычисления 0,610,910,640,29 Измерение величин 0,590,850,580,35 Закономерности 0,590,860,610,29 Зависимости 0,580,850,640,25 Элементы геометрии 0,510,820,490,20
Совместное распределение коэффициентов решаемости и показателей дискриминативности (математика, вариант 1)
Анализ дистракторов заданий закрытой формы с выбором ответа Задание М-М Варианты ответов АБ*ВГ Распределение ответов испытуемых 11%66%7%6% Коэффициент корреляции -0,220,54-0,29-0,23 Задание L- F Варианты ответов АБВ*Г Распределение ответов испытуемых 17%8%61%12% Коэффициент корреляции -0,09-0,290,250,01
Анализ в современной теории тестирования IRT тесты могут быть признаны существенно одномерными тесты оптимальны по трудности и хорошо центрированы относительно контингента тестируемых абсолютное большинство заданий демонстрируют хорошие психометрические показатели и хорошее согласие с используемой моделью измерения Таким образом, тесты SAM могут быть признаны качественными измерительными инструментами математической и языковой компетенций учащихся начальной школы.
Карта переменных (математика, вариант 1)
Характеристические кривые двух заданий Задание 2-го уровня, средней трудности Задание очень трудное, 3-го уровня (выполнили 19% участников тестирования)
Выравнивание вариантов Метод общих заданий Процедура: отдельная калибровка с фиксацией общих параметров и отражением всех параметров на общей шкале
Обоснование валидности SAM: основные направления Валидность по содержанию, Валидность конструкта Критериальная валидность (текущая и прогностическая)
Характеристика различных показателей валидности показатель валидности по содержанию характеризует меру адекватности тестовых материалов проверяемой компетенции показатель валидности конструкта устанавливает меру согласованности результатов тестирования с психологической моделью тестируемой способности показатель критериальной валидности фиксирует меру согласованности результатов тестирования с известными объективными критериями
Валидность конструкта В модели SAM основным конструктом, подлежащим верификации, является трехуровневая таксономия освоения учебного содержания, вписанная в возрастной контекст. Этот конструкт связан как минимум с двумя гипотетическими утверждениями, требующими проверки: 1) Задания трех уровней, относящиеся к одному блоку и отвечающие теоретически заданным критериям трех уровней, должны обнаруживать соответствующую иерархию по трудности. 2) В начальной школе предметный материал в норме может и должен усваиваться на втором (рефлексивном) уровне, т.е. на уровне понимания. Освоение этого материала на третьем (функциональном) уровне может и должно происходить в рамках основной школы.
Проверка второй гипотезы Исследование проводилось в гг. В 2011 г. тесты по математике и русскому языку были предложены учащимся 4-х возрастных групп – 4-х, 6-х, 8-х и 10-х классов (тестировались по две параллели в каждой школе). Через год, в 2012 г. те же тесты были предложены тем же учащимся, которые в тот момент были учащимися 5-х, 7-х, 9- х и 11-х классов. Тестирование проходило весной, в конце учебного года Выборка включала около 100 человек в каждой параллели
Оценивание участников тестирования: ступени мастерства Ниже первой ступени – не освоен даже первый: учащийся выполняет менее 50% заданий 1-го уровня Первая ступень – освоен первый уровень: учащийся выполняет не менее 50% заданий 1-го уровня Вторая ступень – освоен второй уровень: учащийся выполняет не менее 50% заданий 2-го уровня Третья ступень – освоен третий уровень: учащийся выполняет не менее 50% заданий 3-го уровня
Распределение участников тестирования по ступеням достижений в зависимости от класса (математика)
Распределение участников тестирования по ступеням достижений в зависимости от класса (русский язык)
Исследование прогностической валидности SAM Исследование проводилось на базе данных апробации тестов SAM в одном из регионов РФ весной 2011 г. Общий объем выборки составил 941 человек из 12 школ. Тестирование проходило в конце 4-го класса, т.е. по окончании начальной школы. Были собраны оценки по математике этих же учащихся в 5-м классе (т.е. через год после проведения тестирования). Распределение участников тестирования по ступеням достижений (математика)
Распределение оценок учащихся в зависимости от ступени достижений (математика) Коэффициенты корреляции между тестовым баллом учащихся и их школьными оценками, а также между ступенью, к которой был отнесен учащийся, и его школьной оценкой соответственно равны 0,6 и 0,56. Распределение учащихся по ступеням достижений в зависимости от оценки (математика)
Оценивание участников тестирования Нормативно-ориентированный подход позволяет сравнить результаты различных участников между собой, а также с ранее полученными результатами. С этой целью каждому участнику тестирования в результате математической обработки результатов присваивается интегральный тестовый балл. Тестовые баллы всех участников тестирования находятся на единой шкале, независимо от времени прохождения теста и конкретного набора выполненных заданий. Критериально-ориентированный подход – обеспечивает возможность качественной оценки усвоения предметного содержания через указание ведущего типа ориентировки в решении задач. Для его реализации был разработан ступенчатый вариант шкалы достижений, основанный на интегральных баллах участников тестирования и пороговых значениях, делящих всех участников на группы, соответствующие различным качественным ступеням достижений.
Разработка методики оценивания участников тестирования Выбор модели для оценивания участников тестирования Выбор базовой выборки для создания единой шкалы представления результатов тестирования Создание единой шкалы для представления результатов тестирования Установление пороговых оценок (benchmarks) и интерпретация отдельных уровней достижений Выравнивание результатов последующих тестирований (нанесение всех результатов на созданную ранее единую шкалу) Представление результатов тестирования
Создание единой шкалы для представления результатов тестирования Специальное исследование (объем выборки 939 учащихся) Получение оценок мер испытуемых в логитах Выбор подходящего линейного преобразования для перехода на 1000-балльную шкалу Все результаты будущих тестирований будут преобразовываться на эту шкалу с помощью того же линейного преобразования
Шкала математической компетенции Ступень 3 Ожидается, что ученик А выполнит, по крайней мере, 50% заданий 3-го уровня Ученик A Ступень 2 Ступень1 Ниже 1-ой ступени Ожидается, что ученик В выполнит, по крайней мере, 50% заданий 2-го уровня Ученик B Ожидается, что ученик С выполнит, по крайней мере, 50% заданий 1-го уровня Ученик C Ожидается, что ученик D не сможет выполнить даже 50% заданий 1-го уровня Ученик D Задания 3-го уровня Задания 1-го уровня Задания 2-го уровня
Интерпретация пороговых оценок Пороги: 430 (граница между 0 и 1 ступенями) 500 (граница между 1 и 2 ступенями) 570 (граница между 1 и 2 ступенями)
Распределение участников апробации 2012г. по ступеням достижений (математика, около 5000 человек) В настоящее время установлены следующие пороговые оценки для математики: переход со ступени 0 на ступень 1 – 430 баллов; со ступени 1 на ступень 2 – 500 баллов; со ступени 2 на ступень 3 – 570 баллов.
Различная степень достижения ступеней Степень достижения ступени может быть различной: учащийся может только-только достигнуть ступени, «зацепиться» за нее, а может уже ее освоить, т.е. стоять на ней уверенно. Ступень считается достигнутой, если, по крайней мере, 50% заданий данного уровня выполнены правильно. Будем считать, что ступень не только достигнута, но и освоена, если правильно выполнены не менее 75% заданий данного уровня. Такая интерпретация результатов тестирования позволит выделить учащихся, уверенно стоящих на ступени и готовых к переходу на следующую ступень.
Распределение участников тестирования по ступеням (математика) Ступень Всего человек Процент Степень освоения Всего человек Процент от общего Процент от ступени достиг освоил достиг освоил достиг освоил
Первичный анализ данных тестирования - был проведен на базе данных апробации тестов SAM в одном из регионов РФ весной 2012 г. - были протестированы практически все учащиеся 4-го класса начальной школы данного региона: общий объем выборки составил 4406 человек по математике и 4385 по русскому языку.
Распределение учащихся по ступеням достижений в зависимости от предмета Профиль образовательных результатов по математике для данной выборки учащихся (средние проценты решенных задач в зависимости от уровня).
Нормы выполнения теста Среднестатистическая групповая норма – средний по школам показатель выполнения теста и его стандартное отклонение Социокультурная норма – средний показатель группы школ-лидеров Среднее значениеСтандартное отклонение Математика51734 Русский язык49936 Тестовый балл Математика561 Русский язык543
Сравнение показателей школ Descriptives РУССКИЙ ЯЗЫКМАТЕМАТИКА социокультурная норма остальные школы социокультурная норма остальные школы тестовый балл МАТЕМАТИКА Mean Std. Deviation 29,831,120,727,0 Minimum 491,5429,1543,0429,1 Maximum 639,1584,0639,1542,3 тестовый балл РУССКИЙ Mean 549,9483,3541,2486,2 Std. Deviation 16,630,325,933,8 Minimum 532,6338,0480,0338,0 Maximum 606,1531,8606,1576,7
Распределение учащихся разных школ по ступеням достижений (математика)
Некоторые результаты исследования : Результат SAM статистически значимо зависит от типа населенного пункта: учащиеся городов и поселков выполняют тест лучше, чем учащиеся сельской местности Результат SAM статистически значимо зависит от пола участника: девочки выполняют тест лучше, чем мальчики Результат SAM статистически значимо зависит от типа учебного заведения: учащиеся гимназий выполняют тест лучше, чем учащиеся общеобразовательных школ
Русский язык (вверху) Математика (справа) Сравнение достижений учащихся различных классов одной школы
Исследование характеристик образовательной среды Выборка: Один регион РФ весна 2012 Учащиеся 4-го класса: Математика Русский язык
Размер класса и образовательные результаты Малые классы более однородны – больший процент учащихся на ступенях 1 и 2 Большие классы имеют больший процент в крайних категориях
Correlation -,204** is significant at the 0.05 (2- tailed) Traditional Constructivist Конструкти- висткий Традицион- ный Задания2216 KR-20 надежность0,820,69 Среднее значение1,54-,23 Станд. отклонение1,075,667 Педагогические подходы к преподаванию
Педагогические подходы и образовательные результаты Pearson Correlation Test score Russian language Test score Mathematics Below 1 level 2 level3 level Constructivist,235 **,256 ** -,117-,226 **,065,294 ** Traditional-,163 * -,110,006,138 * -,079-,126 **. Correlation is significant at the 0.01 (2-tailed) *. Correlation is significant at the 0.05 (2-tailed) Конструктивистский подход ассоциируется с лучшими образовательными результатами Традиционный подход имет отрицательную связь или не имеет связи с результатами
Кластеризация классов Кластер ПодходКластер 3 > Constructivist, < Traditional 2 > Constructivist1 Малые классы 2 > Constructivist1 =Малые классы 1 = *. The mean difference is significant at the 0.05 level Сравнение кластеров
Благодарю за внимание! Карданова Елена Юрьевна: