Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемinformatika.socio.msu.ru
1 4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г. Лекция 12. Непараметрические критерии. Ранговая корреляция Ранговая корреляция. Коэффициент Спирмена Ранговая корреляция. Коэффициент Кендалла
2 2 Иванов О.В., 2005 Две порядковые переменные Порядковая шкала означает, что категории могут быть упорядочены по возрастанию. Пример. Отметки по математике 2 < 3 < 4 < 5 В случае двух порядковых переменных для каждого объекта измеряются значения двух признаков: (x, y). Пример. Для каждого ученика пара (x, y) может означать отметки по математике и физике.
3 3 Иванов О.В., 2005 Если есть полная связь? Полная связь между признаками означает, что для любых двух объектов если x 1
4 4 Иванов О.В., 2005 Постановка проблемы Полная связь между признаками встречается редко! Однако, значения двух признаков могут быть пусть и не полностью, но все-таки более или менее сильно связаны между собой. Как померить степень этой связи?
5 5 Иванов О.В., 2005 Основная идея - коэффициент Спирмена ШтангистМесто (толчок) Место (рывок) Видно, что связь есть! (штангисты 1,2,3 – призеры и по толчку и по рывку!) 2. Видно, что связь неполная (была бы полной – то места совпадали бы!) 3. Идея: чем сильнее места различаются, тем слабее связь!
6 6 Иванов О.В., 2005 Альтернативный подход - коэффициент Кендалла ШтангистМесто (толчок) Место (рывок) Строим все возможные пары из 2 штангистов (15 пар) 2. Если порядок мест в паре по рывку и толчку совпадает, то называем пару проверсией. 3. Если связь полная, то все 15 пар – проверсии. 4. Идея: чем меньше проверсий, тем слабее связь!
7 4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г Коэффициент Спирмена Проверка связи для порядковых переменных
8 8 Иванов О.В., Полная связь ШтангистМесто (толчок) Место (рывок) Толчок Рывок Точки с координатами (место в толчке, место в рывке) лежат на одной прямой!
9 9 Иванов О.В., Неполная связь Толчок Рывок Точки с координатами (место в толчке, место в рывке) НЕ лежат на одной прямой, но тенденция есть! ШтангистМесто (толчок) Место (рывок)
10 10 Иванов О.В., Коэффициент корреляции Таким образом, связь тем полнее, чем лучше «облако точек» можно представить одной прямой, а это, как мы знаем, измеряется коэффициентом корреляции:
11 11 Иванов О.В., 2005 Считаем... ШтангистМесто (толчок) x i x i -x(x i -x) 2 Место (рывок) y i y i -y(y i -y) 2 (x i -x)(y i -y) Итого
12 12 Иванов О.В., Оказывается, можно проще... Коэффициент ранговой корреляции Спирмена Если переменные – это места, занятые n объектами, то обе переменные принимают значения от 1 до n. В этом случае формулу для коэффициента корреляции можно упростить: где d i – это «разность мест в рывке и толчке», то есть
13 13 Иванов О.В., 2005 Считаем... ШтангистМесто (толчок) Место (рывок) Разность мест di2 di Итого010
14 14 Иванов О.В., 2005 Схитрили... Итак, мы посчитали корреляцию для двух порядковых шкал так же, как считали корреляцию для двух интервальных шкал. Почему это допустимо? Потому что коэффициент линейной корреляции Пирсона для интервальных шкал оценивает, насколько близка зависимость между признаками к линейной. Так как в случае полной связи двух порядковых переменных пары (x i,y i ) лежат также на одной прямой, то степень связи между порядковыми переменными можно оценить на основании того, насколько она близка к линейной, т.е. воспользовавшись коэффициентом Пирсона. Но на самом деле, мы схитрили! В общем случае, если связь полная, то пары (x i,y i ) не обязательно лежат на одной прямой!
15 15 Иванов О.В., 2005 Пример: Физика и Математика УченикТест по математике (баллы, x i ) Тест по физике (баллы, y i ) балл по математике балл по физике
16 16 Иванов О.В., 2005 Пример (продолжение) УченикТест по математике (баллы, x i ) Тест по физике (баллы, y i ) Ранг («место») по математике (rx i ) Ранг («место») по физике (ry i ) ранг по математике ранг по физике
17 17 Иванов О.В., Коэффициент ранговой корреляции Спирмена Итак, если связь полная, то, хотя пары (x i,y i ) не обязательно лежат на одной прямой, пары (rx i,ry i ) лежат на одной прямой. То есть коэффициент связи для двух порядковых переменных вычисляем как коэффициент линейной корреляции для их рангов: где Этот коэффициент ранговой корреляции Спирмена. В примере со штангистами мы обошлись без ранжирования, потому что значения совпадали с их рангами.
18 18 Иванов О.В., 2005 Еще пример: Опять эта Математика!!! Уф…. Ученик (i) x i : тест по математике y i : тест по статистике rx i : ранг по математике ry i : ранг по статистике d i :разность рангов di2di Итого026
19 19 Иванов О.В., 2005 Проверка значимости Обозначения: Выборочный коэффициент корреляции Спирмена r s Коэффициент корреляции генеральной совокупности s Требуется: Проверить гипотезу о равенстве нулю коэффициента ранговой корреляции генеральной совокупности на основании значения коэффициента ранговой корреляции выборки: H 0 : s = 0 H 1 : s 0
20 20 Иванов О.В., 2005 Критические значения 1. Если n 30, то критические значения находятся по таблице A Если n>30, то критические значения находятся по формуле:
21 21 Иванов О.В., 2005 Пример. Конкурс красоты Два эксперта - мужчина и женщина, познакомились с фотографиями десяти участниц конкурса красоты и выставили им оценки. Единицу получила лучшая модель, оценку десять – наименее привлекательная. Проанализировать результаты оценок и на уровне значимости 0,05 сделать вывод, существует ли связь между мнениями мужчины и женщины по поводу привлекательности участниц. Мужчина Женщина d d2d
22 22 Иванов О.В., 2005 Таблица A-10 Критическое значение для =0,05 и объема выборки n=10 находим в таблице и оно равно 0,648.
23 23 Иванов О.В., 2005 Решение. Сумма квадратов разностей рангов равна 74. Вычисляем коэффициент ранговой корреляции Спирмена: По таблице А-10 получаем критическое значение 0.648, (соответствует уровню значимости 0,05 и n=10). Вывод. Коэффициент, близкий к 1 означает большую связь между переменными. В нашем случае это не так. Это означает, что мы не принимаем основную гипотезу.
24 24 Иванов О.В., 2005 Другие формулы Поскольку существует несколько способов нахождения границ критической области, мы рассмотрим еще один.
25 25 Иванов О.В., 2005 Для проверки гипотезы используется t-критерий с df = n – 2 степенями свободы (n – объем выборки): Границы двусторонней критической области находятся при помощи таблиц значений t-распределения: Статистика и критическая область
26 26 Иванов О.В., 2005 В примере с математикой... Шаг 1. Н 0 : s = 0 Н 1 : s 0 Шаг 2. Критическая область: α = 0,05, df = 8 – 2 = 6. Критические значения по таблице равны ±2,45. Шаг 3. Статистика по выборке: Шаг 4. Значение 2,34 не попадает в критическую область. Шаг 5. У нас нет достаточных оснований, чтобы отвергнуть гипотезу о независимости оценок по статистике и по математике!
27 4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г Коэффициент Кендалла Проверка связи для порядковых переменных
28 28 Иванов О.В., Строим пары Возвращаемся к штангистам... Строим все возможные пары штангистов. В общем случае их всего n(n-1)/2. В примере их всего 15: ШтангистМесто (толчок) Место (рывок)
29 29 Иванов О.В., Считаем проверсии и инверсии Считаем количество проверсий P и инверсий I. Что это такое?
30 30 Иванов О.В., 2005 А. Согласованные пары (проверсии) Рассмотрим пару (2,4): ШтангистМесто (толчок) Место (рывок) И в толчке, и в рывке штангист 2 занял более высокое место, чем штангист 4. Такая пара называется согласованной (проверсией). Еще пример: пара (5,6): ШтангистМесто (толчок) Место (рывок)
31 31 Иванов О.В., 2005 Б. Несогласованные пары (инверсии) Рассмотрим пару (2,3): ШтангистМесто (толчок) Место (рывок) В толчке штангист 2 занял более высокое место, чем штангист 3, а в рывке – наоборот. Такая пара называется несогласованной (инверсией). Еще пример: пара (4,5): ШтангистМесто (толчок) Место (рывок)
32 32 Иванов О.В., Коэффициент Кендалла Находим коэффициент корреляции по формуле
33 33 Иванов О.В., 2005 Подсчет проверсий и инверсий Упорядочиваем штангистов по возрастанию первой переменной (месту в толчке): ШтангистМесто (толчок) Место (рывок) ШтангистМесто (толчок) Место (рывок)
34 34 Иванов О.В., 2005 Подсчет проверсий и инверсий (продолжение) На первом месте штангист с номером 2. Его место в рывке – третье. Считаем количество штангистов в последующих строках, у которых место в рывке >3 (получаем 3 проверсии). Те, у которых место
35 35 Иванов О.В., 2005 Подсчет проверсий и инверсий (окончание) Повторяем подсчет для остальных строк. Сравниваем место в рывке только с последующими строками, так как с предыдущими уже сравнили раньше. Получаем: ШтангистМесто (толчок) Место (рывок) ПроверсийИнверсийВсего Итого11415 Итак: проверсий 11, инверсий 4, всего 15.
36 36 Иванов О.В., 2005 Считаем коэффициент Кендалла: или по альтернативной формуле:
37 37 Иванов О.В., 2005 Еще один пример. СтудентПиво л/день Тест по статистике ПроверсийИнверсийВсего 10, , , , , , , , , , Итого83745 Есть ли связь между количеством выпитого пива (средн. л/день) и количеством баллов, набранных в контрольной по статистике?
38 38 Иванов О.В., 2005 Вывод говорит о том, что наблюдается сильно выраженная негативная зависимость, то есть: чем больше студент потребляет пива в течение семестра, тем меньше баллов он набирает в тесте по статистике.
39 39 Иванов О.В., 2005 Проверка значимости Обозначения: Выборочный коэффициент корреляции Кендалла τ выб Коэффициент корреляции генеральной совокупности τ ген Требуется: Проверить гипотезу о равенстве нулю коэффициента ранговой корреляции генеральной совокупности τ ген на основании значения коэффициента ранговой корреляции выборки τ выб.
40 40 Иванов О.В., 2005 Для проверки гипотезы используется z-критерий: Границы двусторонней критической области находятся при помощи таблиц нормального распределения: Статистика и критическая область
41 41 Иванов О.В., 2005 Подсчет проверсий и инверсий ШтангистМесто (толчок) Место (рывок) ПроверсийИнверсийВсего Итого11415 Итак: проверсий 11, инверсий 4, всего 15
42 42 Иванов О.В., 2005 В нашем примере... Шаг 1. Н 0 : τ ген = 0 Н 1 : τ ген 0 Шаг 2. Критическая область: α = 0,05. Критические значения по таблице равны ±1,96. Шаг 3. Статистика по выборке: Шаг 4. Значение 1,32 не попадает в критическую область. Шаг 5. У нас нет достаточных оснований, чтобы отвергнуть гипотезу о независимости мест в рывке и толчке!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.