4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г. Лекция 3. Проверка статистических гипотез 3-1. Общий принцип проверки гипотез 3-2. Гипотеза о среднем 3-3. Гипотеза о среднем ( не известно)
2 Иванов О.В., 2005 Статистическая гипотеза Статистической гипотезой (statistical hypothesis) мы называем любое предположение о свойствах и характеристиках исследуемых генеральных совокупностей, которое может быть проверено на основе анализа выборок.
4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г Общий принцип проверки статистических гипотез Основная и альтернативная гипотеза Уровень значимости Статистика Критическая область Этапы проверки гипотезы
4 Иванов О.В., 2005 Как проверяют статистические гипотезы Проверка статистических гипотез состоит из шести этапов. Нам необходимо изучить каждый сначала теоретически, а затем применять в различных задачах.
5 Иванов О.В., Основная и альтернативная гипотезы Проверяемая гипотеза в статистике называется основной (или нулевой) гипотезой. Основная гипотеза H 0 подлежит проверке, по результатам которой ее можно принять либо отклонить. «Принять» означает «не получить убедительных аргументов для отклонения гипотезы». Альтернативная гипотеза H 1 принимается только тогда, когда есть убедительное статистическое доказательство для отклонения основной гипотезы. Принять основную гипотезу H 0 Принять основную гипотезу H 0 Принять альтернативную гипотезу H 1
6 Иванов О.В., 2005 Ситуация А. Новая методика преподавания Исследователь хочет проверить, повлияет ли новая методика преподавания на уровень успеваемости студентов. Повысится или понизится успеваемость у студентов, прослушавших курс по новой методике? Исследователю известно, что средняя успеваемость без нововведений составляет 4,23 балла. Гипотезы в этом случае будут сформулированы следующим образом: Н 0 : µ = 4,23 Н 1 : µ 4,23
7 Иванов О.В., 2005 Ситуация Б. Аккумуляторы для ноутбуков Производители аккумуляторных батарей для ноутбуков утверждают, что разработали принципиально новый тип батареи, которая существенно дольше может работать без подзарядки. Из предыдущих исследований известно, что среднее время работы существующих аккумуляторов составляет 2,5 часа, после чего их требуется заряжать. Гипотезы будут сформулированы так: Н 0 : µ 2,5 Н 1 : µ > 2,5
8 Иванов О.В., 2005 Ситуация В. Расходы на канцелярию Менеджер бюро переводов хочет снизить расходы компании на канцелярские принадлежности. В среднем эти расходы составляют рублей в неделю. После принятия определенных мер по экономии бумаги и скрепок менеджер хотел бы проверить, снизились ли расходы или остались на прежнем уровне. Гипотезы будут записаны так: Н 0 : µ 5300 Н 1 : µ < 5300
9 Иванов О.В., 2005 Три вида критериев От решаемой задачи зависит, какой из критериев будет выбран: ДвустороннийЛевосторонний Правосторонний Н 0 : =Н 0 : Н 0 : Н 1 : Н 1 :
10 Иванов О.В., 2005 Ошибки первого и второго рода Ошибка первого рода (type I error) происходит, если мы отвергаем верную нулевую гипотезу. Ошибка второго рода (type II error) происходит, если мы принимаем нулевую гипотезу, когда она неверна. Основная гипотеза верна Основная гипотеза неверна Мы приняли основную гипотезу Верное решениеОшибка II рода Мы отклонили основную гипотезу Ошибка I родаВерное решение
11 Иванов О.В., Уровень значимости гипотезы Уровнем значимости (level of significance) гипотезы называют вероятность совершить ошибку первого рода, то есть отклонить верную нулевую гипотезу. Обозначение:. Значение обычно выбирается небольшим: 10%, 5% или 1%.
12 Иванов О.В., Статистика - критерий проверки гипотезы Статистика (критерий, statistical test) есть специальная функция от элементов выборки, по значениям которой принимают решение о принятии или отклонении основной гипотезы. Статистика зависит от выборки, поэтому является случайной функцией.
13 Иванов О.В., Критическая область Множество значений статистики включает две области: Область принятия гипотезы, то есть множество тех значений статистики, при которых гипотеза H 0 принимается, Критическую область, то есть множество тех значений статистики, при которых гипотеза H 0 отклоняется и принимается альтернативная гипотеза. Область принятия гипотезы Критическая область Возможные значения статистики
14 Иванов О.В., 2005 Критические значения Критические значения (critical value(s)) отделяют критическую область от области принятия гипотезы. Область принятия гипотезы Критическая область Возможные значения статистики Критические значения
15 Иванов О.В., 2005 Вид критической области Двусторонняя критическая область Левосторонняя критическая область Правосторонняя критическая область Критическая область строится, исходя из имеющихся знаний о законе распределения статистики, и зависит от: объема выборки, уровня значимости, задаваемого исследователем, вида альтернативной гипотезы.
16 Иванов О.В., Вычисление статистики и вывод После построения критической области вычисляют значение статистики по выборке и сравнивают его с критической областью. Если значение статистики попало в область принятия гипотезы, то гипотеза H 0 принимается Если значение статистики попало в критическую область, то гипотеза H 0 отклоняется и принимается альтернативная гипотеза H 1
17 Иванов О.В., 2005 Последовательность действий Шаг 1. Сформулировать основную и альтернативную гипотезы. Шаг 2. Задать уровень значимости. Шаг 3. По таблице найти критические значения и построить критическую область. Шаг 4. По выборке сосчитать значение статистики. Шаг 5. Сравнить полученное значение с критической областью. Если значение попало в критическую область – отклонить основную гипотезу, не попало – принять. Шаг 6. Написать ответ.
4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г Гипотеза о среднем Случай известно или n 30
19 Иванов О.В., 2005 Постановка задачи Имеется генеральная совокупность с нормальным законом распределения. Параметры (, ). Требуется на основе анализа простой случайной выборки проверить гипотезу о среднем значении генеральной совокупности.
20 Иванов О.В., 2005 Метод Используем общий принцип проверки статистических гипотез.
21 Иванов О.В., 2005 Гипотезы Нулевая и альтернативная гипотезы могут быть трех разных видов: IIIIII Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза:
22 Иванов О.В., 2005 Статистика ( известно) В качестве статистики выбираем следующую функцию: где - выборочное среднее - гипотетическое генеральное среднее - генеральное стандартное отклонение - объем выборки
23 Иванов О.В., 2005 Распределение статистики Формула для статистики представляет собой выражение: Используемая статистика имеет нормальное распределение. При проверке гипотезы пользуемся известными нам свойствами нормального закона.
24 Иванов О.В., 2005 I – Левосторонняя критическая область Альтернативная гипотеза: Критическое значение находим по таблице z-значений Уравнение критической области:
25 Иванов О.В., 2005 II – Правосторонняя критическая область Уравнение критической области: Альтернативная гипотеза: Критическое значение находим по таблице z-значений
26 Иванов О.В., 2005 III – Двусторонняя критическая область Уравнение критической области: Альтернативная гипотеза: Критическое значение находим по таблице z-значений
27 Иванов О.В., 2005 Пример. Чем занимаются старшеклассники В одном из журналов утверждается, что старшеклассники смотрят телевизор меньше других. Известно, что люди проводят перед телевизором в среднем 29,4 часа в неделю со стандартным отклонением 2 часа. Случайная выборка из 25 старшеклассников имеет среднее 27 часов. Необходимо проверить утверждение на уровне значимости = 0,01.
28 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Н 0 : μ 29,4 Н 1 : μ < 29,4 Шаг 2. Задан уровень значимости = 0,01. Шаг 3. По таблице находим критическое значение z = -2,33. Критическая область левосторонняя. Шаг 4. По выборке вычисляем значение статистики:
29 Иванов О.В., 2005 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Отклоняем основную гипотезу. Шаг 6. Старшеклассники значимо меньше смотрят телевизор, чем обычные жители.
4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г Гипотеза о среднем Случай неизвестно и n < 30
31 Иванов О.В., 2005 Если неизвестно … Предыдущая проверка гипотезы о среднем проводилась при условии, что нам известно стандартное отклонение генеральной совокупности. Теперь рассмотрим проверку гипотезы, если стандартное отклонение неизвестно.
32 Иванов О.В., 2005 Постановка задачи… … осталась прежней:
33 Иванов О.В., 2005 Гипотезы … тоже прежние:
34 Иванов О.В., 2005 Метод Используем общий принцип проверки статистических гипотез.
35 Иванов О.В., 2005 Статистика ( неизвестно) В качестве статистики выбираем следующую функцию: где - выборочное среднее - гипотетическое генеральное среднее - выборочное стандартное отклонение - объем выборки
36 Иванов О.В., 2005 Распределение статистики Используемая статистика имеет t-распределение c количеством степеней свободы df = n – 1: Критические значения будем искать при помощи таблиц распределения Стьюдента.
37 Иванов О.В., 2005 I – Левосторонняя критическая область Уравнение критической области: Альтернативная гипотеза: Критическое значение находим по таблице t-значений.
38 Иванов О.В., 2005 II – Правосторонняя критическая область Уравнение критической области: Альтернативная гипотеза: Критическое значение находим по таблице z-значений
39 Иванов О.В., 2005 III – Двусторонняя критическая область Уравнения критической области: Альтернативная гипотеза: Критическое значение находим по таблице z-значений
40 Иванов О.В., 2005 Пример. Уровень преступности За последние 20 лет средний уровень преступности в городе N составляет 399,40 преступлений на 100 тысяч жителей. Руководство города заявило в печати, что преступность находится на среднем региональном уровне. Если известно, что средний уровень преступности в регионе составляет 394,82 со стандартным отклонением 8,93, требуется проверить справедливость утверждения на уровне значимости 5%.
41 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Н 0 : μ 394,82 Н 1 : μ > 394,82 Шаг 2. Задан уровень значимости = 0,05. Шаг 3. По таблице находим критическое значение t = 2,093. Критическая область левосторонняя. Шаг 4. По выборке вычисляем значение статистики:
42 Иванов О.В., 2005 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение 2,234 статистики попало в критическую область. Отклоняем основную гипотезу. Шаг 6. Отличие в уровне преступности от регионального является статистически значимым на уровне 5%.