Тестирование гипотез в статистике. Критерии Стьюдента Занятие 2
Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ
Описательная статистика (descriptive statistics): ОПИСЫВАЕМ ВЫБОРКУ на основе свойств частотного распределения. « Количественный результат» Индуктивная статистика (inferential statistics): на основе свойств выборки (параметров выборки) делаем заключения о СВОЙСТВАХ ПОПУЛЯЦИИ. « Качественный результат» выборка популяция (генеральная совокупность)
Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…). Тестирование гипотезы (hypothesis testing) – – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject). Предполагается, что мы формулируем гипотезу ДО сбора данных. Пример: Мы хотим знать, являются ли аспиранты ИПЭЭ случайной выборкой из популяции с IQ μ=100. ? Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть. Тестирование гипотез в статистике
Очевидно, ДА Очевидно, НЕТ Различия неочевидны Аспиранты ИПЭЭ – случайная выборка из популяции с IQ = 100? Надо бы придумать какой- то критерий, когда сказать ДА, когда - НЕТ
Тестирование гипотез в статистике Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о самой выборке легко проверить без статистики). Опровергнуть гипотезу в принципе легче, чем подтвердить (пример с IQ=100,2: может, верна наша гипотеза, а может – другая, близкая). Формулируем ДВЕ взаимоисключающие гипотезы: H 0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений… H 1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H 0.
Тестирование гипотез в статистике Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic) – характеристики выборки. Видов нулевых гипотез не так уж много, и для каждой придумана своя статистика. На самом деле, правды мы никогда не узнаем! Итак, нужен критерий, который позволит нам решить, отвергнуть ли Н 0, имея в руках нашу выборку.
Тестирование гипотез в статистике Пример. Мы хотим узнать, отличается ли IQ аспирантов ИПЭЭ от 100 – среднего уровня в стране? H 0 H 0 : μ = 100; H 1 H 1 : μ 100 г μ – среднее в популяции аспирантов ИПЭЭ, которая, как мы думаем, отличается от 100 г
Тестирование гипотез в статистике Заметим: ошибку 1-го рода можно сделать только отвергая Н 0, а ошибку 2-го рода – только «принимая» Н 0 (нельзя сделать одновременно обе ошибки). И мощность нас интересует, в первую очередь, если мы не отвергли Н 0 1- β β α 1- α
Тестирование гипотез в статистике ОШИБКА 1 рода: вероятность найти различия, где их нет. (IQ аспирантов ИПЭЭ такое же, как у всех. Но нам показалось, глядя на выборку, что они отличаются от остальных). Это – нездоровые сенсации, которые могут принести большой вред. ОШИБКА 2 рода: вероятность не увидеть различий, где они есть. (На самом деле аспиранты ИПЭЭ намного умнее других! Но мы были слишком строги к себе и посчитали, что этих различий недостаточно.) Это «близорукость», или «слепота» критерия, вред от неё не очень большой. Её контролировать мы не можем*. * Ошибку 2-го рода можно минимизировать корректным подбором статистической процедуры
Тестирование гипотез в статистике Ошибка 1-го рода (уровень значимости α ): Мы можем её КОНТРОЛИРОВАТЬ, например, можем задать минимальное различие между средними значениями, меньше которого, мы будем считать, что их нет, а больше - есть А задать такое расстояние нам помогают свойства нормального распределения (и его площади), см. занятие 1. Обычно принимают α = Мощность (Power): Вероятность НАЙТИ различия, когда они ЕСТЬ, что сродни мощности микроскопа. Пример с судом или с шизофренией
Тестирование гипотез в статистике Итак, позволяют ли наши данные отвергнуть Н 0 ? СТАТИСТИКИ КРИТЕРИЯ Это мы решаем на основе СТАТИСТИКИ КРИТЕРИЯ (test statistic). Понятие точечной оценки параметров популяции через параметры выборки ( μ через Х, σ через s ). Статистика критерия рассчитывается на основе параметров ВЫБОРКИ, и её распределение известно (и соотношение площадей под ним).
Тестирование гипотез в статистике Заметим, что в некоторых случаях нас интересуют отличия среднего значения от теоретического только в одну сторону (большую или меньшую). Например, аспиранты прошли специальный курс занятий, и нет оснований предполагать, что они могут ухудшить знания. Односторонняя альтернатива (one-tailed hypothesis) H 0 H 0 : μ 100 г; H 1 H 1 : μ > 100 г Двусторонняя альтернатива (two-tailed hypothesis) H 0 H 0 : μ = 100; H 1 H 1 : μ 100 Применение односторонней альтернативы должно быть до сбора данных теоретически обосновано исходя из свойств переменной! Недолив в бутылках кока-колы, концентрация СО, при которой срабатывает детектор и т.д.
Тестирование гипотез в статистике Общий принцип формирования статистики критерия: Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки Параметр популяции – определяется гипотезой Н 0. Параметр выборки – оценка этого параметра. Стандартная ошибка этого параметра выборки. Она определяет, насколько большими могут быть СЛУЧАЙНЫЕ отличия между параметром выборки и популяции. Статистики критериев: z, t, F, U, χ 2 …
Одновыборочные критерии сравнивающие среднее значение с заданным числом. Мы хотим узнать, отличается ли средняя масса землероек, содержащихся в неволе, от массы землероек = 90 г, заявленной в Mammalian species. Мы знаем, что μ=90, σ=20; собираемся поймать 25 зверьков. 1. Формулируем Н 0 и Н 1 : Теперь отстраняемся от реальной выборки, оставляем в голове только её размер, и смотрим только на Н 0 Рисуем 3 распределения: просто масса землероек этого вида со средним=90 г. распределение выборочных средних для выборок N=25 распределение статистики критерия z
Одновыборочные критерии Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего Всё это мы производим ДО взвешивания землероек! Это пока распределения возможных результатов взвешивания
2. Устанавливаем условия, при которых мы отвергнем Н 0 Одновыборочные критерии сравнивающие среднее значение с заданным числом. 3. Считаем реальные и z Критическое значение – начало критической области (rejection region) α = 0.05
Одновыборочные критерии сравнивающие среднее значение с заданным числом. 4. Интерпретируем результаты Мы не отвергаем Н 0, т.е., мы не нашли достоверных различий по массе между землеройками. В статьях приводят точное р-значение (оно означает, что Н 0 будет отвергнуто при любом α, большем, чем это р)
Одновыборочные критерии сравнивающие среднее значение с заданным числом. Односторонняя альтернатива (например, землеройкам давали специальную питательную еду, и нет оснований ожидать их похудение) (one-tailed hypothesis) H 0 H 0 : μ 90 г; H 1 H 1 : μ > 90 г Мы отвергаем Н 0, т.е., масса землероек, которых подкармливали, достоверно (с уровнем значимости 0.05) отличается от 90 г.
Общая схема тестирования гипотезы: 1. Формулируем Н 0 и Н Формулируем Н 0 и Н 1. Строим распределения такие, как будто Н 0 верна : распределение исследуемой переменной; распределение параметра выборки; распределение статистики критерия. 2. Устанавливаем условия, при которых мы отвергнем Н 0 2. Устанавливаем условия, при которых мы отвергнем Н 0 – определяем: уровень значимости; односторонний или двусторонний будет тест; критическое значение статистики критерия. 3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями. 4. Интерпретируем результаты: Можем ли мы отвергнуть Н 0 ? Т.е., достоверны ли результаты статистически? Если да, достоверны ли они ПРАКТИЧЕСКИ? это делает человек, а не компьютер
Хорошая практика при изложении результатов в публикации – Приводить точную оценку вероятности ошибки 1-го рода p (например, р=0.025, р=0.0001). Тогда читатель может сам выбирать уровень значимости. * - достоверные различия – р
Одновыборочные критерии сравнивающие среднее значение с заданным числом. Одновыборочный t-критерий (в случае, если дисперсия в популяции неизвестна) Превышает ли масса землероек на специальном корме 90 г? Мы знаем, что μ=90, но не знаем σ ; исследовали 25 зверьков. Формулируем Н 0 и Н 1, создаём распределения выборочных средних. Оно не будет нормальным! Его форма – t- распределение. Статистика критерия - t William Sealy Gosset (1876–1937) = Student Дисперсию в популяции мы оцениваем дисперсией в выборке
Одновыборочные критерии сравнивающие среднее значение с заданным числом. df = n-1 Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего Мы не отвергаем Н 0 ! (Критическое значение t превышает критическое значение z).
Одновыборочные критерии сравнивающие среднее значение с заданным числом. На основе критического значения t (или другой статистики критерия) можно определить 95% доверительный интервал для популяционного параметра (в данном случае, для среднего значения μ ). Его середина – выборочное среднее. с вероятностью 95% Про нулевое значение, обрезающее распределение
Одновыборочный t-критерий
В данном случае нам пришлось отвергнуть гипотезу о том, что масса тела у землероек = 90 г.
Одновыборочные критерии сравнивающие среднее значение с заданным числом. Ещё раз про параметры разброса в статье: цель – описать популяцию (показать изменчивость в ней) : выборочное среднее (стандартное отклонение) ; цель – показать точность оценки популяционного среднего μ: Важно везде указывать: N (чтобы читатель при желании мог перевести SD в SE и обратно); какой показатель разброса используется (особенно в таблицах). Для распределений, отличных от нормального, лучше приводить медиану и межквартильный размах как показатели центра распределения и разброса в нём.
Одновыборочные критерии проверяют гипотезы относительно: Медианы Дисперсии Коэффициента вариации Симметрии Эксцесса
Двухвыборочные критерии. Сравнение между собой средних значений 2-х выборок Зависимая переменная Зависимая переменная – собственно та, которая нас интересует (dependent variable). Независимая Независимая – определяет нахождение в той или иной группе. В статистике – grouping variable = factor.
самка самец по массе Различаются ли по массе тигры-самцы и тигры-самки в зоопарке? Сравниваем средние массы наших зверьков. поламассу тигров Мы анализируем влияние пола на массу тигров. Зависимая переменная Зависимая переменная – масса. Независимая (группирующая) Независимая (группирующая) – пол (группы: 1. самцы; 2. самки) Двухвыборочные критерии.
Критерий Стьюдента для независимых выборок (t-test for independent samples) Общий вопрос: получены ли выборки из одной популяции? равны средние Частный вопрос: равны ли средние значения между собой? Двухвыборочные критерии.
Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочных средних ошибка Ошибка считается из средних квадратов стандартных отклонений в выборках Основное распределение - t-распределение (Стьюдента) * Это статистика для двустороннего критерия Двухвыборочные критерии.
Стандартная ошибка РАЗНОСТИ между средними Взвешенная по размерам выборок средняя дисперсия Показать картинку с распределениями Идея в том, что стандартная ошибка разности средних определяется дисперсиями в обеих выборках и размерами этих выборок
От чего будет зависеть, отвергнем ли мы гипотезу Н 0 или нет? 1. Непосредственно от различий в средних значениях; 2. От изменчивости в обеих группах; 3. От размера выборок. Двухвыборочные критерии.
t-test for independent samples Двухвыборочные критерии.
Итак, 1. В соответствии с уровнем значимости 0.05 отвергаем Н 0 ; 2. Однако, гипотеза о равенстве дисперсий в выборках тоже отвергнута; 3. Поскольку размеры выборок одинаковы, и всем остальным требованиям выборки удовлетворяют, мы можем этим фактом пренебречь (!); Средняя масса тигров-самцов и тигров-самок неодинакова. 4. Для разрешения всех сомнений можно воспользоваться непараметрической статистикой. Двухвыборочные критерии.
Что ещё можно сравнить у 2-х выборок: Медианы (занятие 6) Дисперсии – нужно сравнивать перед тем, как сравнивать средние! Индексы разнообразия (занятие 6) …
Критерий Стьюдента для связанных выборок (t-test for dependent samples) К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса. служителя массу тигров-самцов Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная Зависимая переменная – масса. Независимая Независимая – группы: 1. до нового служителя; 2. после) Двухвыборочные критерии. Пример с левой и правой ногами
Каждый тигр два раза участвует в наблюдениях: он входит в обе группы. ДО ПОСЛЕ 1 тигр тигр тигр тигр тигр тигр Таких D столько, сколько пар. У них есть среднее. Статистика: Тест может быть односторонним и двусторонним Идентично одновыборочному t-критерию! Двухвыборочные критерии.
t-test for dependent samples Двухвыборочные критерии.
Отвергаем Н 0 : Масса тигров в среднем достоверно увеличилась после прихода нового служителя. Двухвыборочные критерии.
В принципе, можно использовать тест для независимых выборок и для связанных выборок. Но мы рискуем не увидеть существующих различий, особенно при большой изменчивости в выборках! Тесты для связанных выборок как раз для того и существуют, чтобы исключить из анализа внутригрупповую изменчивость.
В некоторых журналах даже требуют приводить размер эффекта. Размер эффекта и практическая значимость результатов купить» статистическую значимость размер выборки Мы всегда можем «купить» статистическую значимость, увеличив размер выборки, ведь Н 0 не может быть верна в точности! Маловероятно, чтобы среднее в популяции равнялось ТОЧНО 100, или разница в популяционных средних была = 0. Чтобы проверить, имеют ли статистические результаты какой-то биологический смысл, придуманы индексы размера эффекта (effect size index). Cohens d Одновыборочный тест Двухвыборочный тест
не зависит от размера выборки d похоже на t, но не зависит от размера выборки, в отличие от t! Размер эффекта и практическая значимость результатов d =0.20 – маленький размер эффекта; d =0.50 – средний; d = большой; (Cohen, 1988)
близки по размеру 1.Желательно, чтобы выборки были близки по размеру. Чем больше различия по размеру, тем меньше мощность (в 10 раз – уже слишком); нормальное распределение 2. Выборки должны иметь нормальное распределение, и это следует проверять специальными критериями; 3. Дисперсии равны 3. Дисперсии в популяциях должны быть равны, и это тоже следует проверять. 4. Ограничение на размер выборки: N 10 в каждой группе. 5. Критерий может быть односторонним и двусторонним, но для одностороннего должно быть теоретическое обоснование; односторонний очень чувствителен к отклонениям от нормального распределения. Требования, которым должны удовлетворять выборки для применения критерия Стьюдента:
Для публикаций В секции методов следует указать: 1. Что выборки удовлетворяли критериям нормального распределения и то, каким тестом это было установлено (например, … conform to the assumptions of normality (Shapiro-Wilks W test, p
Задания 1. охарактеризовать распределения: Длины травинок на только что покошенном газоне Массы детёнышей при рождении Массы всех зверьков в популяции Размера выводков в популяции Длины картошинок-фри в Мак-Дональдсе принадлежности учеников в школе к классам 2. В институте каждый год проводят экзамен по статистике, и средний результат = 80 баллов. Преподаватель решил удвоить количество домашних заданий и посмотреть, повлияло ли это на знания учеников на экзамене. Какими будут нулевая и альтернативная гипотезы? Альтернатива в тесте односторонняя или двусторонняя? Предположим, учитель проводит статистический анализ и отвергает нулевую гипотезу. Возможна ли при этом ошибка 1-го рода? 2-го рода? Что будут представлять из себя эти ошибки в данном случае?
2. Д-р Симонс решил узнать, как утренняя зарядка влияет на самочувствие людей. Он померил ЧСС у 52 человек и заставил их 8 недель каждое утро делать зарядку, после чего померил ЧСС вновь. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа? 3. зоолог обнаружил две изолированные популяции белок – северную и южную. Ему кажется, что в северной популяции белки крупнее (различается их масса). Он хочет проверить своё предположение статистически. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест учёный будет использовать для анализа?