25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г. Тема 16. Непараметрические критерии. Факторный анализ Однофакторный непараметрический анализ. Критерий Краскела-Уоллиса Двухфакторный непараметрический анализ. Критерий Фридмана
2 Иванов О.В., 2004 Параметрические и непараметрические критерии Такие статистические критерии, как z, t и F называются параметрическими. Параметрические критерии предназначены для проверки гипотез о параметрах генеральной совокупности - среднем, дисперсии, доли; либо гипотез о типе распределения. Кроме этого, статистики разработали направление, которое развивает непараметрические критерии. В этом случае вид и параметры распределения не рассматриваются. Эти критерии используют, в частности, для исследования генеральных совокупностей, которые не распределены нормально.
25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Критерий Краскела-Уоллиса Kruskal-Wallis Test
4 Иванов О.В., 2004 Пример данных Имеется ли разница в среднем возрасте учителей, администрации и обслуживающего персонала школы? Взяты выборки из трех генеральных совокупностей. УчителяАдминистрация Обслуживающий персонал
5 Иванов О.В., 2004 Критерий Краскела-Уоллиса В дисперсионном анализе используется F-критерий, чтобы сравнивать средние трех и более совокупностей. Для критерия ANOVA предполагается, что совокупности нормально распределены и что дисперсии совокупностей равны. Когда эти условия не выполняются, то для сравнения трех и более средних может использоваться непараметрический критерий Краскeла– Уоллиса. Критерий Краскела-Уоллиса – непараметрический тест, который использует ранги трех и более независимых выборок. Применяется для проверки гипотезы о том, что выборки получены из генеральных совокупностей, имеющих одинаковый закон распределения: H 0 : распределения генеральных совокупностей совпадают H 1 : распределения отличаются
6 Иванов О.В., 2004 Условия применения 1.Выборки независимы и получены случайным образом. 2.Размер каждой выборки должен быть не меньше пяти. В этом случае исследуемое распределение приближается к 2 -распределению с (k – 1) степенями свободы, где k – число градаций признака. 3.Для выборок меньшего размера требуются специальные таблицы. 4.Нет ограничений на то, что генеральная совокупность имеет нормальный закон распределения или любой иной определенный закон.
7 Иванов О.В., 2004 Суть критерия 1. В критерии Краскела–Уоллиса все выборки перемешиваются и значения ранжируются. Далее вычисляются средние ранги для каждой выборки и средний ранг по всем данным. 2. Если выборки взяты из различных совокупностей, средние ранги выборок будут сильно различаться, значение Н будет велико, нулевая гипотеза будет отвергнута. 3. Для двух выборок критерий совпадает с критерием Вилкоксона.
8 Иванов О.В., 2004 Вычисления в таблице УчителяРангиАдм.Ранги Обсл. персонал Ранги ,5294, ,5358, Объемы выборок676 Суммы рангов Средние ранги8,1712,718,67
9 Иванов О.В., 2004 Критическая область Критерий использует правостороннюю критическую область. Для нахождения критических значений используем таблицу 2 -распределения с количеством степеней свободы df = (k – 1). 2 ( ; k -1)
10 Иванов О.В., 2004 Статистика Формула статистики Краскела-Уоллиса: где: – средние ранги выборок (i = 1,2,3,…,k) – средний ранг по всем выборкам: – объемы выборок
11 Иванов О.В., 2004 Вычисляем значение статистики
12 Иванов О.В., 2004 Находим границу критической области Снова воспользуемся таблицами EXCEL для нахождения границы критической области: ХИ2ОБР (0,05; 2) = 5,991
13 Иванов О.В., 2004 Сравниваем и делаем вывод Полученное значение статистики не попало в критическую область: Вывод. Мы не имеем оснований отклонить основную гипотезу. Значит, не существует значимого различия между выборками. 5,9912,602
14 Иванов О.В., 2004 Находим в SPSS Kruskal-Wallis Test Значение критерия Имеется небольшое отличие от вычисленного нами вручную 2,602
15 Иванов О.В., 2004 Статистика – вторая формула Формула статистики Краскела-Уоллиса: где: R i – сумма рангов i-ой выборки (i = 1,2,3,…,k) n i – размер i-ой выборки k – количество уровней фактора
16 Иванов О.В., 2004 Вычисления в таблице Ранжируем выборки от 1 до 19 и затем суммируем ранги каждой выборки отдельно. УчителяРангиАдминистрацияРанги Обслуживающий персонал Ранги ,5294, ,5358, n 1 =6Σ=49n 2 =7Σ=89n 3 =6Σ=52
17 Иванов О.В., 2004 Вычисляем значение статистики Очевидно, мы получили то же самое значение статистики H.
25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Критерий Джонкхиера Jonckheere Test
19 Иванов О.В., 2004 Критерий Джонкхиера Не изучаем! Ура!
25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Критерий Фридмана Friedman Test
21 Иванов О.В., 2004 Факторы A и B На результаты наблюдений могут оказывать два и более факторов. Рассмотрим двухфакторную модель. Будем считать, что: A – главный фактор B – мешающий фактор Уровни основного фактора – обработки уровни мешающего фактора – блоки Влияние основного фактора – эффекты обработки Влияние мешающего фактора – эффекты блоков
22 Иванов О.В., 2004 Таблица двухфакторного анализа Фактор А имеет n уровней, фактор В имеет k уровней. Таблица содержит nk наблюдений – по одному наблюдению в каждой клетке. Фактор A (Обработки) Фактор B (Блоки) 123…k 1 x 11 x 12 x 13 … x 1k 2 x 21 x 22 x 23 … x 2k … …………… n x n1 x n2 x n3 … x nk
23 Иванов О.В., 2004 Модель двухфакторного анализа Результат наблюдения является суммой самостоятельных вкладов соответствующих уровней каждого фактора и случайности эксперимента: Влияние фактора B Влияние фактора A Среднее Влияние случайности
24 Иванов О.В., 2004 Гипотезы Проверяемая гипотеза: H 0 : влияние фактора A отсутствует H 1 : влияние фактора имеется В другой формулировке: H 0 : 1 = 2 = … = k = 0 H 1 : не все i равны нулю
25 Иванов О.В., 2004 Переход к таблице рангов Ранжируем значения в каждой строке. Переходим к таблице рангов. Фактор A (Обработки) Фактор B (Блоки) 123…k 1 r 11 r 12 r 13 … r 1k 2 r 21 r 22 r 23 … r 2k … …………… n r n1 r n2 r n3 … r nk
26 Иванов О.В., 2004 Суть критерия При ранжировании результатов наблюдений по строкам, мы устраняем влияние мешающего фактора В, значение которого для каждой строки таблицы постоянно. Если гипотеза верна и воздействие фактора А отсутствует, то любая последовательность рангов в строке одинаково вероятна.
27 Иванов О.В., 2004 Статистика Фридмана Формула статистики Фридмана: где: – средние ранги по столбцу (i = 1,2,3,…,k) – средний ранг по таблице рангов:
28 Иванов О.В., 2004 Статистика Фридмана – вторая формула Формула статистики Фридмана: где: – все ранги в таблице
29 Иванов О.В., 2004 Пример Коробка передач Марка автомобиля РучнаяTipTronicMultiTroinc BMW9,211,610,3 AUDI9,711,29,29,2 MERSEDES9,512,310,1 FORD10,111,111,8 TOYOTA10,810,110,2 На уровне =0,05 проверить влияние каждого из факторов на результаты измерений.
30 Иванов О.В., 2004 Решение. Ранжируем по строкам Коробка передач Марка автомобиля РучнаяTipTronicMultiTroinc BMW9,211,610,3 ранги132 AUDI9,711,29,29,2 ранги231 MERSEDES9,512,310,1 ранги132 FORD10,111,111,8 ранги123 TOYOTA10,810,110,2 ранги312
31 Иванов О.В., 2004 Хорошо ли перемешаны ранги? Коробка передач Марка автомобиля РучнаяTipTronicMultiTroinc BMW9,211,610,3 ранги132 AUDI9,711,29,29,2 ранги231 MERSEDES9,512,310,1 ранги132 FORD10,111,111,8 ранги123 TOYOTA10,810,110,2 ранги312 Сумма рангов81210 Средний ранг1,62,42,0
32 Иванов О.В., 2004 Находим средние ранги по столбцам Коробка передач Марка автомобиля РучнаяTipTronicMultiTroinc BMW9,211,610,3 ранги132 AUDI9,711,29,29,2 ранги231 MERSEDES9,512,310,1 ранги132 FORD10,111,111,8 ранги123 TOYOTA10,810,110,2 ранги312 Сумма рангов81210 Средний ранг1,62,42,0
33 Иванов О.В., 2004 Хорошо ли перемешаны ранги? Это покажет критерий!
34 Иванов О.В., 2004 Вычисляем статистику
35 Иванов О.В., 2004 Считаем в SPSS Критическое значение равно 5,99. Это означает, что нет оснований отвергать основную гипотезу. Мы получили, что такой фактор как «тип коробки передач» не оказывает существенного влияния на время разгона автомобилей. Задача составлена в учебных целях. Данные взяты «с потолка». Friedman Test
36 Иванов О.В., 2004 Вторая проверка Критерий Фридмана используется для второй проверки. В этом случае, мы считаем уже, что: A – мешающий фактор B – главный фактор Ранжирование приводим по столбцам, чтобы устранить влияние мешающего фактора.
37 Иванов О.В., 2004 Решение. Ранжируем по столбцам Марка автомобиля РучнаярангиTipTronicрангиMultiTroincранги Сумма рангов Средний ранг BMW9,2111,6410,3493 AUDI9,7311,239,29,2172,3 MERSEDES9,5212,3510,1293 FORD10,1411,1211,85113,7 TOYOTA10,8510,1110,2393
38 Иванов О.В., 2004 Решение. Ранжируем по столбцам Марка автомобиля РучнаярангиTipTronicрангиMultiTroincранги Сумма рангов Средний ранг BMW9,2111,6410,3493 AUDI9,7311,239,29,2172,3 MERSEDES9,5212,3510,1293 FORD10,1411,1211,85113,7 TOYOTA10,8510,1110,2393 Далее как обычно
25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г. 17. Как проводить исследование Классификация методов курса
40 Иванов О.В., 2004 Выбор метода Какой тип данных? Какой тип данных? Интервальные данные Интервальные данные Порядковые данные Порядковые данные Номинальные данные Номинальные данные 1.1. Одна совокупность 1.2. Две совокупности 1.3. Более двух 2.2. Одна совокупность 2.3. Две совокупности 2.4. Более двух 3.1. Таблицы сопряженности 3.2. Доли признака
41 Иванов О.В., Интервальные данные, одна совокупность 1.1. Одна совокупность Среднее Дисперсия Доверительный интервал Доверительный интервал Проверка гипотезы Проверка гипотезы Доверительный интервал Доверительный интервал Проверка гипотезы Проверка гипотезы
42 Иванов О.В., Интервальные данные, одна совокупность 1.1. Одна совокупность Среднее Дисперсия Доверительный интервал Доверительный интервал Проверка гипотезы Проверка гипотезы Доверительный интервал Доверительный интервал Проверка гипотезы Проверка гипотезы
43 Иванов О.В., Интервальные данные, две совокупности 1.2. Две совокупности Средние Дисперсии Корреляция, регрессия Корреляция, регрессия
44 Иванов О.В., Интервальные данные, две совокупности 1.2. Две совокупности Средние Дисперсии Корреляция, регрессия Корреляция, регрессия
45 Иванов О.В., 2004 Порядковые данные Порядковые данные Порядковые данные 2.2. Одна совокупность 2.3. Две совокупности 2.4. Более двух Независимые выборки Парные выборки
46 Иванов О.В., 2004 Порядковые данные Порядковые данные Порядковые данные 2.2. Одна совокупность 2.3. Две совокупности 2.4. Более двух Независимые выборки Парные выборки
47 Иванов О.В., 2004 Номинальные данные Номинальные данные Номинальные данные 3.1. Таблицы сопряженности 3.2. Доли признака Две совокупности Одна совокупность
48 Иванов О.В., 2004 Номинальные данные Номинальные данные Номинальные данные 3.1. Таблицы сопряженности 3.2. Доли признака Две совокупности Одна совокупность
49 Иванов О.В., 2004 Понятия и термины
50 Иванов О.В., 2004 Задание на 5 минут Чем коэффициент Спирмена отличается от коэффициента Пирсона?
51 Иванов О.В., 2004 Задачи Измеряется самооценка в трех различных выборках индивидов по порядку рождения. Количество набранных баллов ранжируется от 0 до 50. Существует ли разница в количестве набранных баллов на уровне значимости = 0,05? Старшие дети Дети среднего возраста Младшие дети
52 Иванов О.В., 2004 Задачи Крупный овощной магазин решает начать рекламировать продукт тремя различными способами: по радио, по телевидению, в газетах. По результатам продаж в течение одной недели в случайно выбранных магазинах были получены следующие данные. Существует ли разница в продажах в связи с типом рекламирования товара на уровне значимости = 0,01? РадиоТелевидениеГазета $832$1024$
53 Иванов О.В., 2004 Задачи Клубнику выращивают на трех различных типах почвы. Урожай (в квартах) на одинаковых участках представлен ниже. Существует ли различие в количестве урожая для трех участков на уровне значимости = 0,01? Почва АПочва ВПочва С
54 Иванов О.В., 2004 Задачи Недавно проведенное исследование установило количество предложений о работе, принимаемых выпускниками инженерами-химиками в трех различных колледжах. Существует ли на уровне значимости = 0,01 различие между средним количеством принятых предложений о работе в этих колледжах ? Колледж АКолледж ВКолледж С