Тестирование гипотез в статистике. Критерии Стьюдента Занятие 2.

Презентация:



Advertisements
Похожие презентации
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Advertisements

Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Мощность статистического теста. Дисперсионный анализ ANOVA Занятие 3.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Статистические гипотезы Лекция 2.
Статистическая гипотеза. Нулевая гипотеза Кошкарова М.
Дисперсионный анализ. Основной целью дисперсионного анализа является исследование значимости различия между средними. Установить различаются ли три группы.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Статистические оценки параметров распределения Доверительные интервалы.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Дисперсионный анализ Врач-ординатор: Чайкисов Ю.С. Иркутский Государственный Медицинский Университет Кафедра Факультетской терапии Иркутск 2007 г.
Транксрипт:

Тестирование гипотез в статистике. Критерии Стьюдента Занятие 2

Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ

Описательная статистика (descriptive statistics): ОПИСЫВАЕМ ВЫБОРКУ на основе свойств частотного распределения. « Количественный результат» Индуктивная статистика (inferential statistics): на основе свойств выборки (параметров выборки) делаем заключения о СВОЙСТВАХ ПОПУЛЯЦИИ. « Качественный результат» выборка популяция (генеральная совокупность)

Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…). Тестирование гипотезы (hypothesis testing) – – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject). Предполагается, что мы формулируем гипотезу ДО сбора данных. Пример: Мы хотим знать, являются ли аспиранты ИПЭЭ случайной выборкой из популяции с IQ μ=100. ? Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть. Тестирование гипотез в статистике

Очевидно, ДА Очевидно, НЕТ Различия неочевидны Аспиранты ИПЭЭ – случайная выборка из популяции с IQ = 100? Надо бы придумать какой- то критерий, когда сказать ДА, когда - НЕТ

Тестирование гипотез в статистике Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о самой выборке легко проверить без статистики). Опровергнуть гипотезу в принципе легче, чем подтвердить (пример с IQ=100,2: может, верна наша гипотеза, а может – другая, близкая). Формулируем ДВЕ взаимоисключающие гипотезы: H 0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений… H 1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H 0.

Тестирование гипотез в статистике Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic) – характеристики выборки. Видов нулевых гипотез не так уж много, и для каждой придумана своя статистика. На самом деле, правды мы никогда не узнаем! Итак, нужен критерий, который позволит нам решить, отвергнуть ли Н 0, имея в руках нашу выборку.

Тестирование гипотез в статистике Пример. Мы хотим узнать, отличается ли IQ аспирантов ИПЭЭ от 100 – среднего уровня в стране? H 0 H 0 : μ = 100; H 1 H 1 : μ 100 г μ – среднее в популяции аспирантов ИПЭЭ, которая, как мы думаем, отличается от 100 г

Тестирование гипотез в статистике Заметим: ошибку 1-го рода можно сделать только отвергая Н 0, а ошибку 2-го рода – только «принимая» Н 0 (нельзя сделать одновременно обе ошибки). И мощность нас интересует, в первую очередь, если мы не отвергли Н 0 1- β β α 1- α

Тестирование гипотез в статистике ОШИБКА 1 рода: вероятность найти различия, где их нет. (IQ аспирантов ИПЭЭ такое же, как у всех. Но нам показалось, глядя на выборку, что они отличаются от остальных). Это – нездоровые сенсации, которые могут принести большой вред. ОШИБКА 2 рода: вероятность не увидеть различий, где они есть. (На самом деле аспиранты ИПЭЭ намного умнее других! Но мы были слишком строги к себе и посчитали, что этих различий недостаточно.) Это «близорукость», или «слепота» критерия, вред от неё не очень большой. Её контролировать мы не можем*. * Ошибку 2-го рода можно минимизировать корректным подбором статистической процедуры

Тестирование гипотез в статистике Ошибка 1-го рода (уровень значимости α ): Мы можем её КОНТРОЛИРОВАТЬ, например, можем задать минимальное различие между средними значениями, меньше которого, мы будем считать, что их нет, а больше - есть А задать такое расстояние нам помогают свойства нормального распределения (и его площади), см. занятие 1. Обычно принимают α = Мощность (Power): Вероятность НАЙТИ различия, когда они ЕСТЬ, что сродни мощности микроскопа. Пример с судом или с шизофренией

Тестирование гипотез в статистике Итак, позволяют ли наши данные отвергнуть Н 0 ? СТАТИСТИКИ КРИТЕРИЯ Это мы решаем на основе СТАТИСТИКИ КРИТЕРИЯ (test statistic). Понятие точечной оценки параметров популяции через параметры выборки ( μ через Х, σ через s ). Статистика критерия рассчитывается на основе параметров ВЫБОРКИ, и её распределение известно (и соотношение площадей под ним).

Тестирование гипотез в статистике Заметим, что в некоторых случаях нас интересуют отличия среднего значения от теоретического только в одну сторону (большую или меньшую). Например, аспиранты прошли специальный курс занятий, и нет оснований предполагать, что они могут ухудшить знания. Односторонняя альтернатива (one-tailed hypothesis) H 0 H 0 : μ 100 г; H 1 H 1 : μ > 100 г Двусторонняя альтернатива (two-tailed hypothesis) H 0 H 0 : μ = 100; H 1 H 1 : μ 100 Применение односторонней альтернативы должно быть до сбора данных теоретически обосновано исходя из свойств переменной! Недолив в бутылках кока-колы, концентрация СО, при которой срабатывает детектор и т.д.

Тестирование гипотез в статистике Общий принцип формирования статистики критерия: Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки Параметр популяции – определяется гипотезой Н 0. Параметр выборки – оценка этого параметра. Стандартная ошибка этого параметра выборки. Она определяет, насколько большими могут быть СЛУЧАЙНЫЕ отличия между параметром выборки и популяции. Статистики критериев: z, t, F, U, χ 2 …

Одновыборочные критерии сравнивающие среднее значение с заданным числом. Мы хотим узнать, отличается ли средняя масса землероек, содержащихся в неволе, от массы землероек = 90 г, заявленной в Mammalian species. Мы знаем, что μ=90, σ=20; собираемся поймать 25 зверьков. 1. Формулируем Н 0 и Н 1 : Теперь отстраняемся от реальной выборки, оставляем в голове только её размер, и смотрим только на Н 0 Рисуем 3 распределения: просто масса землероек этого вида со средним=90 г. распределение выборочных средних для выборок N=25 распределение статистики критерия z

Одновыборочные критерии Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего Всё это мы производим ДО взвешивания землероек! Это пока распределения возможных результатов взвешивания

2. Устанавливаем условия, при которых мы отвергнем Н 0 Одновыборочные критерии сравнивающие среднее значение с заданным числом. 3. Считаем реальные и z Критическое значение – начало критической области (rejection region) α = 0.05

Одновыборочные критерии сравнивающие среднее значение с заданным числом. 4. Интерпретируем результаты Мы не отвергаем Н 0, т.е., мы не нашли достоверных различий по массе между землеройками. В статьях приводят точное р-значение (оно означает, что Н 0 будет отвергнуто при любом α, большем, чем это р)

Одновыборочные критерии сравнивающие среднее значение с заданным числом. Односторонняя альтернатива (например, землеройкам давали специальную питательную еду, и нет оснований ожидать их похудение) (one-tailed hypothesis) H 0 H 0 : μ 90 г; H 1 H 1 : μ > 90 г Мы отвергаем Н 0, т.е., масса землероек, которых подкармливали, достоверно (с уровнем значимости 0.05) отличается от 90 г.

Общая схема тестирования гипотезы: 1. Формулируем Н 0 и Н Формулируем Н 0 и Н 1. Строим распределения такие, как будто Н 0 верна : распределение исследуемой переменной; распределение параметра выборки; распределение статистики критерия. 2. Устанавливаем условия, при которых мы отвергнем Н 0 2. Устанавливаем условия, при которых мы отвергнем Н 0 – определяем: уровень значимости; односторонний или двусторонний будет тест; критическое значение статистики критерия. 3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями. 4. Интерпретируем результаты: Можем ли мы отвергнуть Н 0 ? Т.е., достоверны ли результаты статистически? Если да, достоверны ли они ПРАКТИЧЕСКИ? это делает человек, а не компьютер

Хорошая практика при изложении результатов в публикации – Приводить точную оценку вероятности ошибки 1-го рода p (например, р=0.025, р=0.0001). Тогда читатель может сам выбирать уровень значимости. * - достоверные различия – р

Одновыборочные критерии сравнивающие среднее значение с заданным числом. Одновыборочный t-критерий (в случае, если дисперсия в популяции неизвестна) Превышает ли масса землероек на специальном корме 90 г? Мы знаем, что μ=90, но не знаем σ ; исследовали 25 зверьков. Формулируем Н 0 и Н 1, создаём распределения выборочных средних. Оно не будет нормальным! Его форма – t- распределение. Статистика критерия - t William Sealy Gosset (1876–1937) = Student Дисперсию в популяции мы оцениваем дисперсией в выборке

Одновыборочные критерии сравнивающие среднее значение с заданным числом. df = n-1 Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего Мы не отвергаем Н 0 ! (Критическое значение t превышает критическое значение z).

Одновыборочные критерии сравнивающие среднее значение с заданным числом. На основе критического значения t (или другой статистики критерия) можно определить 95% доверительный интервал для популяционного параметра (в данном случае, для среднего значения μ ). Его середина – выборочное среднее. с вероятностью 95% Про нулевое значение, обрезающее распределение

Одновыборочный t-критерий

В данном случае нам пришлось отвергнуть гипотезу о том, что масса тела у землероек = 90 г.

Одновыборочные критерии сравнивающие среднее значение с заданным числом. Ещё раз про параметры разброса в статье: цель – описать популяцию (показать изменчивость в ней) : выборочное среднее (стандартное отклонение) ; цель – показать точность оценки популяционного среднего μ: Важно везде указывать: N (чтобы читатель при желании мог перевести SD в SE и обратно); какой показатель разброса используется (особенно в таблицах). Для распределений, отличных от нормального, лучше приводить медиану и межквартильный размах как показатели центра распределения и разброса в нём.

Одновыборочные критерии проверяют гипотезы относительно: Медианы Дисперсии Коэффициента вариации Симметрии Эксцесса

Двухвыборочные критерии. Сравнение между собой средних значений 2-х выборок Зависимая переменная Зависимая переменная – собственно та, которая нас интересует (dependent variable). Независимая Независимая – определяет нахождение в той или иной группе. В статистике – grouping variable = factor.

самка самец по массе Различаются ли по массе тигры-самцы и тигры-самки в зоопарке? Сравниваем средние массы наших зверьков. поламассу тигров Мы анализируем влияние пола на массу тигров. Зависимая переменная Зависимая переменная – масса. Независимая (группирующая) Независимая (группирующая) – пол (группы: 1. самцы; 2. самки) Двухвыборочные критерии.

Критерий Стьюдента для независимых выборок (t-test for independent samples) Общий вопрос: получены ли выборки из одной популяции? равны средние Частный вопрос: равны ли средние значения между собой? Двухвыборочные критерии.

Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочных средних ошибка Ошибка считается из средних квадратов стандартных отклонений в выборках Основное распределение - t-распределение (Стьюдента) * Это статистика для двустороннего критерия Двухвыборочные критерии.

Стандартная ошибка РАЗНОСТИ между средними Взвешенная по размерам выборок средняя дисперсия Показать картинку с распределениями Идея в том, что стандартная ошибка разности средних определяется дисперсиями в обеих выборках и размерами этих выборок

От чего будет зависеть, отвергнем ли мы гипотезу Н 0 или нет? 1. Непосредственно от различий в средних значениях; 2. От изменчивости в обеих группах; 3. От размера выборок. Двухвыборочные критерии.

t-test for independent samples Двухвыборочные критерии.

Итак, 1. В соответствии с уровнем значимости 0.05 отвергаем Н 0 ; 2. Однако, гипотеза о равенстве дисперсий в выборках тоже отвергнута; 3. Поскольку размеры выборок одинаковы, и всем остальным требованиям выборки удовлетворяют, мы можем этим фактом пренебречь (!); Средняя масса тигров-самцов и тигров-самок неодинакова. 4. Для разрешения всех сомнений можно воспользоваться непараметрической статистикой. Двухвыборочные критерии.

Что ещё можно сравнить у 2-х выборок: Медианы (занятие 6) Дисперсии – нужно сравнивать перед тем, как сравнивать средние! Индексы разнообразия (занятие 6) …

Критерий Стьюдента для связанных выборок (t-test for dependent samples) К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса. служителя массу тигров-самцов Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная Зависимая переменная – масса. Независимая Независимая – группы: 1. до нового служителя; 2. после) Двухвыборочные критерии. Пример с левой и правой ногами

Каждый тигр два раза участвует в наблюдениях: он входит в обе группы. ДО ПОСЛЕ 1 тигр тигр тигр тигр тигр тигр Таких D столько, сколько пар. У них есть среднее. Статистика: Тест может быть односторонним и двусторонним Идентично одновыборочному t-критерию! Двухвыборочные критерии.

t-test for dependent samples Двухвыборочные критерии.

Отвергаем Н 0 : Масса тигров в среднем достоверно увеличилась после прихода нового служителя. Двухвыборочные критерии.

В принципе, можно использовать тест для независимых выборок и для связанных выборок. Но мы рискуем не увидеть существующих различий, особенно при большой изменчивости в выборках! Тесты для связанных выборок как раз для того и существуют, чтобы исключить из анализа внутригрупповую изменчивость.

В некоторых журналах даже требуют приводить размер эффекта. Размер эффекта и практическая значимость результатов купить» статистическую значимость размер выборки Мы всегда можем «купить» статистическую значимость, увеличив размер выборки, ведь Н 0 не может быть верна в точности! Маловероятно, чтобы среднее в популяции равнялось ТОЧНО 100, или разница в популяционных средних была = 0. Чтобы проверить, имеют ли статистические результаты какой-то биологический смысл, придуманы индексы размера эффекта (effect size index). Cohens d Одновыборочный тест Двухвыборочный тест

не зависит от размера выборки d похоже на t, но не зависит от размера выборки, в отличие от t! Размер эффекта и практическая значимость результатов d =0.20 – маленький размер эффекта; d =0.50 – средний; d = большой; (Cohen, 1988)

близки по размеру 1.Желательно, чтобы выборки были близки по размеру. Чем больше различия по размеру, тем меньше мощность (в 10 раз – уже слишком); нормальное распределение 2. Выборки должны иметь нормальное распределение, и это следует проверять специальными критериями; 3. Дисперсии равны 3. Дисперсии в популяциях должны быть равны, и это тоже следует проверять. 4. Ограничение на размер выборки: N 10 в каждой группе. 5. Критерий может быть односторонним и двусторонним, но для одностороннего должно быть теоретическое обоснование; односторонний очень чувствителен к отклонениям от нормального распределения. Требования, которым должны удовлетворять выборки для применения критерия Стьюдента:

Для публикаций В секции методов следует указать: 1. Что выборки удовлетворяли критериям нормального распределения и то, каким тестом это было установлено (например, … conform to the assumptions of normality (Shapiro-Wilks W test, p

Задания 1. охарактеризовать распределения: Длины травинок на только что покошенном газоне Массы детёнышей при рождении Массы всех зверьков в популяции Размера выводков в популяции Длины картошинок-фри в Мак-Дональдсе принадлежности учеников в школе к классам 2. В институте каждый год проводят экзамен по статистике, и средний результат = 80 баллов. Преподаватель решил удвоить количество домашних заданий и посмотреть, повлияло ли это на знания учеников на экзамене. Какими будут нулевая и альтернативная гипотезы? Альтернатива в тесте односторонняя или двусторонняя? Предположим, учитель проводит статистический анализ и отвергает нулевую гипотезу. Возможна ли при этом ошибка 1-го рода? 2-го рода? Что будут представлять из себя эти ошибки в данном случае?

2. Д-р Симонс решил узнать, как утренняя зарядка влияет на самочувствие людей. Он померил ЧСС у 52 человек и заставил их 8 недель каждое утро делать зарядку, после чего померил ЧСС вновь. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа? 3. зоолог обнаружил две изолированные популяции белок – северную и южную. Ему кажется, что в северной популяции белки крупнее (различается их масса). Он хочет проверить своё предположение статистически. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест учёный будет использовать для анализа?