Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6
2 Статистическая гипотеза Любое утверждение о виде или свойствах закона распределения наблюдаемых случайных величин Всякий раз предполагаем, что у нас имеются две взаимоисключающие гипотезы: основная и альтернативная 2
3 Нулевой (основной) гипотезой - H 0 называют какое-либо конкретное предположение о теоретической функции распределения или предположение, влекущее за собой важные практические последствия Альтернативная гипотеза H 1 - любая гипотеза, исключающая нулевую 3
4 Задача проверки статистической гипотезы состоит в том, чтобы, используя статистические данные (выборку) X 1, X 2, …, X n, принять или отклонить нулевую гипотезу 4
5 Нулевые и альтернативные гипотезы формулируются как утверждение о принадлежности функций распределения некоторой случайной величины определенному классу распределений 5
6 Гипотеза называется простой, если соответствующий класс распределений содержит лишь одно распределение, в противном случае гипотеза будет сложной. Гипотезы о параметрах распределений называются параметрическими 6
7 значение которой для заданной выборки служит основанием принятия или отклонения основной гипотезы Статистикой критерия называется функция от выборки 7
8 Статистический критерий - правило, позволяющее только по результатам наблюдений X 1, X 2, …, X n принять или отклонить нулевую гипотезу H 0 8
9 Каждому критерию отвечает разбиение области значений статистики критерия на две непересекающихся части: критическую область 1 область принятия гипотезы 0 9
10 Критические области Односторонние ct c t c1c1 t c2c2 10 Двусторонняя Неправдоподобно маленькие значения Неправдоподобно большие значения Приемлемые значения
11 Если значение статистики критерия попадает в область принятия гипотезы 0, то принимается нулевая гипотеза, в противном случае она отвергается (принимается альтернативная гипотеза) 11
12 Задать статистический критерий значит: задать статистику критерия задать критическую область 12
13 В ходе проверки гипотезы H 0 можно прийти к правильному выводу, либо совершить два рода ошибок: ошибку первого рода -- отклонить H 0, когда она верна ошибку второго рода -- принять H 0, когда она не верна. 13
14 Так как статистика критерия есть случайная величина со своим законом распределения, то попадание её в ту или иную область характеризуется соответствующими вероятностями: вероятностью ошибки первого рода вероятностью ошибки второго рода
15 Ошибку первого рода ещё называют уровнем значимости критерия. Часто пользуются понятием мощности критерия W -- вероятности попадания в критическую область при условии справедливости альтернативной гипотезы 15
16 В общем случае вводят функцию мощности 16
17 При разработке статистического критерия невозможно одновременно минимизировать обе ошибки. Поэтому поступают следующим образом: при заданном числе испытаний n устанавливается верхняя граница для ошибки первого рода Выбирается тот критерий, у которого наименьшая ошибка второго рода. 17
18 Распределение статистики критерия для нулевой и альтернативной гипотез (односторонний критерий)
19 Уровень значимости устанавливается из значений следующего ряда: 0.05, 0.01, 0.005, … события с такими вероятностями считаются практически невозможными. Допустимая величина уровня значимости определяется теми последствиями, которые наступают после совершения ошибки. 19
20 Примеры формулировок статистических гипотез Гипотеза о виде распределения: произведено n независимых измерений случайной величины с неизвестной функцией распределения F(x). Следует проверить гипотезу : 20
21 Гипотеза однородности Произведено k серий независимых испытаний Можно ли с достаточной надежностью считать, что закон распределения наблюдений от серии к серии не менялся? Если это так, то статистические данные однородны. Проверяется гипотеза однородности: 21
22 Гипотеза независимости Наблюдается двухмерная случайная величина = ( 1, 2 ) с неизвестной функцией распределения F (x, y) и есть основания полагать, что компоненты 1, 2 -- независимы. В этом случае проверяется гипотеза независимости:
23 1 шаг – выдвигается основная гипотеза H 0 2 шаг – задается уровень значимости α 3 шаг – задается статистика критерия T(X) с известным законом распределения Пять шагов проверки гипотезы 23
24 4 шаг – из таблиц распределения статистики критерия находятся квантили, соответствующие границам критической области 5 шаг – для данной выборки рассчитывается значение статистики критерия
25 Если значение статистики критерия попадает в область принятия гипотезы, то нулевая гипотеза принимается на уровне значимости α. В противном случае принимается альтернативная гипотеза (отвергается нулевая гипотеза)
26 Среди критериев выделяются такие, которые улавливают любые отклонения от нулевой гипотезы. Они называются « критерии согласия »
Критерий согласия Колмогорова Применяется для проверки гипотезы о виде распределения При условии, что теоретическая функция распределения непрерывная и полностью определена
28 Критерий согласия Колмогорова За меру близости распределений принимается максимальное отклонение эмпирической функции распределения F n (x) от теоретической F(x).
29
30 Распределение статистики Колмогорова не зависит от F (x). При больших n оно стремится к распределению Колмогорова. Статистика критерия
31
32 Критерий согласия χ 2 Пирсона (хи-квадрат) Первоначально разработан для дискретных распределений
33 Простейшие параметрические гипотезы Гипотезы о среднем значении гауссовской случайной величины Гипотезы о сравнении дисперсий 33