27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г. Тема 15. Непараметрические критерии. Ранговая корреляция 15.1. Ранговая корреляция.

Презентация:



Advertisements
Похожие презентации
4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г. Лекция 12. Непараметрические критерии. Ранговая корреляция Ранговая корреляция.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
1. Определить последовательность проезда перекрестка
Урок повторения по теме: «Сила». Задание 1 Задание 2.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Школьная форма Презентация для родительского собрания.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 2. Доверительные интервалы 2-1. Доверительный интервал для доли 2-2. Доверительный.
Разработал: Учитель химии, биологии высшей квалификационной категории Баженов Алексей Анатольевич.
Рисуем параллелепипед Известно, что параллельная проекция тетраэдра, без учета пунктирных линий, однозначно определяется заданием проекций его вершин (рис.
1 Знаток математики Тренажер Таблица умножения 3 класс Школа России Масько Любовь Георгиевна Муниципальное общеобразовательное учреждение средняя общеобразовательная.
Путешествие с любознательным дымком! 19, 29, 39, 11, 22, 33,. 49, 59, 69, 79 44, 55, 66, 77.
Урок-обобщение (7 класс – алгебра) МОУ "СОШ 45 г. Чебоксары" Кабуркина М. Н.1.

Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Зачет по теме "Квадратные уравнения" Автор составитель: Попова Виктория Юрьевна, учитель математики высшей категории, заместитель директора МОУ гимназии.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
Транксрипт:

27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г. Тема 15. Непараметрические критерии. Ранговая корреляция Ранговая корреляция. Коэффициент Спирмена Ранговая корреляция. Коэффициент Кендалла

2 Иванов О.В., 2004 Две порядковые переменные Порядковая шкала означает, что категории могут быть упорядочены по возрастанию. Пример. Отметки по математике 2 < 3 < 4 < 5 В случае двух порядковых переменных для каждого объекта измеряются значения двух признаков: (x, y). Пример. Для каждого ученика пара (x, y) может означать отметки по математике и физике.

3 Иванов О.В., 2004 Если есть полная связь? Полная связь между признаками означает, что для любых двух объектов если x 1

4 Иванов О.В., 2004 Постановка проблемы Полная связь между признаками встречается редко! Однако, значения двух признаков могут быть пусть и не полностью, но все-таки более или менее сильно связаны между собой. Как померить степень этой связи?

5 Иванов О.В., 2004 Основная идея - коэффициент Спирмена ШтангистМесто (толчок) Место (рывок) Видно, что связь есть! (штангисты 1,2,3 – призеры и по толчку и по рывку!) 2. Видно, что связь неполная (была бы полной – то места совпадали бы!) 3. Идея: чем сильнее места различаются, тем слабее связь!

6 Иванов О.В., 2004 Альтернативный подход - коэффициент Кендалла ШтангистМесто (толчок) Место (рывок) Строим все возможные пары из 2 штангистов (15 пар) 2. Если порядок мест в паре по рывку и толчку совпадает, то называем пару проверсией. 3. Если связь полная, то все 15 пар – проверсии. 4. Идея: чем меньше проверсий, тем слабее связь!

27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Коэффициент Спирмена Проверка связи для порядковых переменных

8 Иванов О.В., 2004 Полная связь ШтангистМесто (толчок) Место (рывок) Толчок Рывок Точки с координатами (место в толчке, место в рывке) лежат на одной прямой!

9 Иванов О.В., 2004 Неполная связь Толчок Рывок Точки с координатами (место в толчке, место в рывке) НЕ лежат на одной прямой, но тенденция есть! ШтангистМесто (толчок) Место (рывок)

10 Иванов О.В., 2004 Коэффициент корреляции Таким образом, связь тем полнее, чем лучше «облако точек» можно представить одной прямой, а это, как мы знаем, измеряется коэффициентом корреляции:

11 Иванов О.В., 2004 Считаем... ШтангистМесто (толчок) x i x i -x(x i -x) 2 Место (рывок) y i y i -y(y i -y) 2 (x i -x)(y i -y) Итого

12 Иванов О.В., 2004 Оказывается, можно проще... Если переменные – это места, занятые n объектами, то обе переменные принимают значения от 1 до n. В этом случае формулу для коэффициента корреляции можно упростить: где d i – это «разность мест в рывке и толчке», то есть

13 Иванов О.В., 2004 Считаем... ШтангистМесто (толчок) Место (рывок) Разность мест di2 di Итого010

14 Иванов О.В., 2004 Схитрили... Итак, мы посчитали корреляцию для двух порядковых шкал так же, как считали корреляцию для двух интервальных шкал. Почему это допустимо? Потому что коэффициент линейной корреляции Пирсона для интервальных шкал оценивает, насколько близка зависимость между признаками к линейной. Так как в случае полной связи двух порядковых переменных пары (x i,y i ) лежат также на одной прямой, то степень связи между порядковыми переменными можно оценить на основании того, насколько она близка к линейной, т.е. воспользовавшись коэффициентом Пирсона. Но на самом деле, мы схитрили! В общем случае, если связь полная, то пары (x i,y i ) не обязательно лежат на одной прямой!

15 Иванов О.В., 2004 Пример УченикТест по математике (баллы, x i ) Тест по физике (баллы, y i ) балл по математике балл по физике

16 Иванов О.В., 2004 Пример (продолжение) УченикТест по математике (баллы, x i ) Тест по физике (баллы, y i ) Ранг («место») по математике (rx i ) Ранг («место») по физике (ry i ) ранг по математике ранг по физике

17 Иванов О.В., 2004 Коэффициент ранговой корреляции Спирмена Итак, если связь полная, то, хотя пары (x i,y i ) не обязательно лежат на одной прямой, пары (rx i,ry i ) лежат на одной прямой. То есть коэффициент связи для двух порядковых переменных вычисляем как коэффициент линейной корреляции для их рангов: где Этот коэффициент ранговой корреляции Спирмена. В примере со штангистами мы обошлись без ранжирования, потому что значения совпадали с их рангами.

18 Иванов О.В., 2004 PER-интерпретация коэффициента Спирмена Так как коэффициент Спирмена – это не что иное, как коэффициент линейнои корреляции для рангов, то отсюда следует: где: E1 – ошибка прогноза ранга объекта по второй переменной без информации о ранге объекта по первой переменной ( т.е. когда предсказываем место штангиста в рывке, не зная его места в толчке ) E2 – ошибка прогноза ранга объекта по второй переменной, полученного на основании информации о ранге объекта по первой переменной ( т.е. когда предсказываем место штангиста в рывке, зная, какое место он занял в толчке )

19 Иванов О.В., 2004 Еще один пример. Ученик (i) x i : тест по математике y i : тест по статистике rx i : ранг по математике ry i : ранг по статистике d i :разность рангов di2di Итого026

20 Иванов О.В., 2004 Проверка значимости Обозначения: Выборочный коэффициент корреляции Спирмена r s Коэффициент корреляции генеральной совокупности s Требуется: Проверить гипотезу о равенстве нулю коэффициента ранговой корреляции генеральной совокупности на основании значения коэффициента ранговой корреляции выборки: H 0 : s = 0 H 1 : s 0

21 Иванов О.В., 2004 Критические значения 1. Если n 30, то критические значения находятся по таблице A Если n>30, то критические значения находятся по формуле:

22 Иванов О.В., 2004 Пример. Конкурс красоты Два эксперта - мужчина и женщина, познакомились с фотографиями десяти участниц конкурса красоты и выставили им оценки. Единицу получила лучшая модель, оценку десять – наименее привлекательная. Проанализировать результаты оценок и на уровне значимости 0,05 сделать вывод, существует ли связь между мнениями мужчины и женщины по поводу привлекательности участниц. Мужчина Женщина d d2d

23 Иванов О.В., 2004 Таблица A-9 Критическое значение для =0,05 и объема выборки n=10 находим в таблице и оно равно 0,648.

24 Иванов О.В., 2004 Решение. Сумма квадратов разностей рангов равна 74. Вычисляем коэффициент ранговой корреляции Спирмена: По таблице А-9 получаем критическое значение 0.648, (соответствует уровню значимости 0,05 и n=10). Вывод. Коэффициент, близкий к 1 означает большую связь между переменными. В нашем случае это не так. Это означает, что мы не принимаем основную гипотезу.

25 Иванов О.В., 2004 Другие формулы Поскольку существует несколько способов нахождения границ критической области, мы рассмотрим еще один.

26 Иванов О.В., 2004 Для проверки гипотезы используется t-критерий с df = n – 2 степенями свободы (n – объем выборки): Границы двусторонней критической области находятся при помощи таблиц значений t-распределения: Статистика и критическая область

27 Иванов О.В., 2004 В примере с математикой... Шаг 1. Н 0 : s = 0 Н 1 : s 0 Шаг 2. Критическая область: α = 0,05, df = 8 – 2 = 6. Критические значения по таблице равны ±2,45. Шаг 3. Статистика по выборке: Шаг 4. Значение 2,34 не попадает в критическую область. Шаг 5. У нас недостаточно оснований, чтобы отвергнуть гипотезу о независимости оценок по статистике и по математике!

27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Коэффициент Кендалла Проверка связи для порядковых переменных

29 Иванов О.В., 2004 Возвращаемся к штангистам... Шаг первый. Строим все возможные пары штангистов. В общем случае их всего n(n-1)/2. В примере их всего 15: ШтангистМесто (толчок) Место (рывок)

30 Иванов О.В., 2004 Шаг второй... Считаем количество проверсий P и инверсий I. Что это такое?

31 Иванов О.В., 2004 Согласованные пары (проверсии) Рассмотрим пару (2,4): ШтангистМесто (толчок) Место (рывок) И в толчке, и в рывке штангист 2 занял более высокое место, чем штангист 4. Такая пара называется согласованной (проверсией). Еще пример: пара (5,6): ШтангистМесто (толчок) Место (рывок)

32 Иванов О.В., 2004 Несогласованные пары (инверсии) Рассмотрим пару (2,3): ШтангистМесто (толчок) Место (рывок) В толчке штангист 2 занял более высокое место, чем штангист 3, а в рывке – наоборот. Такая пара называется несогласованной (инверсией). Еще пример: пара (4,5): ШтангистМесто (толчок) Место (рывок)

33 Иванов О.В., 2004 Коэффициент Кендалла Шаг третий. Находим коэффициент корреляции по формуле

34 Иванов О.В., 2004 Альтернативные формулы

35 Иванов О.В., 2004 Подсчет проверсий и инверсий Упорядочиваем штангистов по возрастанию первой переменной (месту в толчке): ШтангистМесто (толчок) Место (рывок) ШтангистМесто (толчок) Место (рывок)

36 Иванов О.В., 2004 Подсчет проверсий и инверсий (продолжение) На первом месте штангист с номером 2. Его место в рывке – третье. Считаем количество штангистов в последующих строках, у которых место в рывке >3 (получаем 3 проверсии). Те, у которых место

37 Иванов О.В., 2004 Подсчет проверсий и инверсий (окончание) Повторяем подсчет для остальных строк. Сравниваем место в рывке только с последующими строками, так как с предыдущими уже сравнили раньше. Получаем: ШтангистМесто (толчок) Место (рывок) ПроверсийИнверсийВсего Итого11415 Итак: проверсий 11, инверсий 4, всего 15.

38 Иванов О.В., 2004 Считаем коэффициент Кендалла: или по альтернативной формуле:

39 Иванов О.В., 2004 PER-интерпретация коэффициента Кендалла Для произвольной пары штангистов пытаемся предсказать, кто занял более высокое место в рывке. Ошибаемся в половине случаев: E 1 =15/2. Теперь пытаемся предсказать, кто из них занял более высокое место в рывке, зная, кто занял более высокое место в толчке. Используем правило: тот, кто лучше в толчке, тот же лучше и в рывке. В 11 случаях предсказываем правильно, в 4 ошибаемся: E 2 =4. Итого:

40 Иванов О.В., 2004 Итак,... И коэффициент Спирмена, и коэффициент Кендалла можно проинтерпретировать в рамках модели улучшения прогноза. В первом случае – прогнозируем ранг («место») каждого объекта по второй переменной. Во втором случае – прогнозируем порядок следования объектов по второй переменной для каждой пары объектов.

41 Иванов О.В., 2004 Еще один пример. СтудентПиво л/день Тест по статистике ПроверсийИнверсийВсего 10, , , , , , , , , , Итого83745 Есть ли связь между количеством выпитого пива (средн. л/день) и количеством баллов, набранных в контрольной по статистике?

42 Иванов О.В., 2004 Вывод говорит о том, что наблюдается сильно выраженная негативная зависимость, то есть: чем больше студент потребляет пива в течение семестра, тем меньше баллов он набирает в тесте по статистике.

43 Иванов О.В., 2004 Проверка значимости Обозначения: Выборочный коэффициент корреляции Кендалла τ выб Коэффициент корреляции генеральной совокупности τ ген Требуется: Проверить гипотезу о равенстве нулю коэффициента ранговой корреляции генеральной совокупности τ ген на основании значения коэффициента раноговой корреляции выборки τ выб.

44 Иванов О.В., 2004 Для проверки гипотезы используется z-критерий: Границы двусторонней критической области находятся при помощи таблиц нормального распределения: Статистика и критическая область

45 Иванов О.В., 2004 Подсчет проверсий и инверсий ШтангистМесто (толчок) Место (рывок) ПроверсийИнверсийВсего Итого11415 Итак: проверсий 11, инверсий 4, всего 15

46 Иванов О.В., 2004 В нашем примере... Шаг 1. Н 0 : τ ген = 0 Н 1 : τ ген 0 Шаг 2. Критическая область: α = 0,05. Критические значения по таблице равны ±1,96. Шаг 3. Статистика по выборке: Шаг 4. Значение 1,32 не попадает в критическую область. Шаг 5. У нас недостаточно оснований, чтобы отвергнуть гипотезу о независимости мест в рывке и толчке!

47 Иванов О.В., 2004 Решаем в SPSS

48 Иванов О.В., 2004 Решаем в SPSS

49 Иванов О.В., 2004 Коэффициенты Спирмена и Кендалла

50 Иванов О.В., 2004 Коэффициенты Спирмена и Пирсона совпали

51 Иванов О.В., 2004 Понятия и термины

52 Иванов О.В., 2004 Задание на 5 минут Что предполагает гипотеза об однородности?

53 Иванов О.В., 2004 Задачи Родители и подростки. Восемь музыкальных фильмов были проранжированы подростками и их родителями по стилю и ясности (1 – самый высокий ранг). На уровне значимости = 0,05 есть ли связь между этими данными? Музыкальный фильм Подростки Родители

54 Иванов О.В., 2004 Задачи Тренеры и комментаторы. 9 игроков в теннис ранжированы спортивными комментаторами и тренерами (1 – высший ранг). На уровне значимости = 0,05 есть ли связь между этими данными? ИгрокиA B C D E F G HI Тренеры Комментаторы

55 Иванов О.В., 2004 Задачи Кто смотрит телевизор? Исследователь хочет определить, существует ли связь между возрастом человека и тем, сколько часов в день он (или она) смотрит телевизор. Возраст Количество часов 3,9 2,622,31,2

56 Иванов О.В., 2004 Задачи IQ мальчиков и девочек. Психолог отбирает шесть семей с двумя детьми в каждой, мальчиком и девочкой. Ее цель – сопоставить IQ детей обоего пола, чтобы определить, существует ли зависимость между коэффициентом интеллекта детей одной семьи. IQ девочек, х IQ мальчиков, у