МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 2 Основные темы Проверка статистических гипотез Проверка статистических гипотез Критерии согласия:Критерии согласия: Критерий Пирсона (хи-квадрат), Критерий Пирсона (хи-квадрат), Критерий Колмогорова. Критерий Колмогорова. Параметрические критерии: Критерий Фишера (сравнение дисперсий);Критерий Фишера (сравнение дисперсий); Сравнение математических ожиданий Сравнение математических ожиданий при больших и малых объёмах выборок. Ранговые критерии Однофакторный дисперсионный анализ Однофакторный дисперсионный анализ Элементы теории корреляции Элементы теории корреляции
Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения. Проверяемую гипотезу называют нулевой (основной), обозначают её Н 0. Конкурирующей (альтернативной) называют гипо- тезу, которая противоречит нулевой, обозначают её Н 1. Задача: проверить, верна ли нулевая гипотеза Н 0 при альтернативной гипотезе Н 1 ? Проверка статистических гипотез § Основные сведения
Гипотеза Н 0 ПринимаетсяОтвергается Верна Неверна Правильное решениеОшибка 1-го рода Ошибка 2-го родаПравильное решение Вероятность допустить ошибку 1-го рода, то есть отвергнуть верную гипотезу Н 0, называют уровнем значимости. Обозначим через – вероятность допустить ошибку 1-го рода, через – вероятность ошибки 2-го рода.
1. Задаём уровень значимости. 2. Строим случайную величину K, называемую ста- тистическим критерием, для которой выполня- ются следующие условия: 1)она является функцией от выборочных данных: K=K(x 1,x 2,…,x n ); 2) её значения позволяют судить о «расхождении выборки с гипотезой Н 0 », то есть о том, надо при- нимать или отвергать гипотезу H 0 ; 3) распределение этой величины известно.
3. Вычисляем значения критерия, подставляя в него выборочные данные. Это число называют наблю- даемым значением критерия и обозначают K набл. 4. Находим критическую область данного критерия, то есть совокупность значений критерия, при которых нулевую гипотезу отвергают. Все остальные значения критерия образуют область, называемую областью принятия нулевой гипотезы. Если наблюдаемое значение критерия попадает в критическую область, то нулевую гипотезу отвергаем, в противном случае нулевую гипотезу принимаем. 5.
Точки, которые отделяют критическую область от области принятия гипотезы, называют критическими точками. Чаще всего встречаются следующие виды критических областей: а) левосторонняя K < k кр б) правосторонняя K > k кр в) двусторонняя K < k кр 1 K > k кр 2
Критическую область W целесообразно находить согласно следующим требованиям: вероятность ошибки 2-го рода – минимальная, то есть вероятность – максимальная Вероятность не допустить ошибку 2-го рода, то есть отвергнуть гипотезу H 0, когда она неверна, называется мощностью критерия. Мощность критерия – максимальная.
При разработке статистического критерия невозможно одновременно минимизировать обе ошибки. Поэтому поступают следующим образом: при заданном числе испытаний n устанавливается верхняя граница для ошибки первого рода. Выбирается тот критерий, у которого наименьшая ошибка второго рода.
Пять шагов проверки гипотезы 1. Сформулировать нулевую H 0 и альтернативную H 1 гипотезы. 2. Выбрать статистику критерия T ( X ) и уяснить её закон распределения. 3. Задать уровень значимости критерия. По таблицам квантилей распределения статистики найти критические точки и указать критическую область. 4. Подсчитать наблюдаемое значение статистики критерия и проверить условие его попадания в критическую область. 5. Сделать вывод о принятии нулевой или альтернативной гипотезы.
H 0 : генеральная совокупность имеет некоторое определённое распределение Параметрические критерии тестируют гипотезы о параметрах некоторого распределения : 1. Генеральная совокупность имеет биномиальное распределение с параметрами m = 10 и p = Генеральная совокупность распределена нормально с математическим ожиданием, равным 5 и дисперсией, равной 4. Критерии, с помощью которых проверяется гипотеза о теоретическом законе распределения, называются критериями согласия.
§ Критерий согласия Колмогорова Нулевая гипотеза: исследуемая случайная величина имеет заданный закон распределения. F(x) – теоретическая функция распределения F n (x) – эмпирическая функция распределения Обозначим – статистика критерия Колмогорова Критерий: Критическая область W – правосторонняя: Из требования для критической области:
13
Можно доказать, что при
15
§ Критерий согласия Пирсона (хи-квадрат) Найдём теоретические частоты вариант. 1. Распределение дискретное p(x). xixi x1x1 x2x2 …x l-1 xlxl pipi Теоретическая частота появления варианты x i – это 2. Распределение непрерывное F(x). xixi (x 1, x 2 )(x 2, x 3 )…(x l-1, x l )(x l, x l+1 ) pipi Теоретическая частота попадания в интервал (x i, x i+1 ) – это np i. p1=p(x1)p1=p(x1) p 2 =p(x 2 ) … p l-1 =p(x l-1 )p l =1-p 1 -p 2 -…-p l-1 p 1 =p(X< x 2 ) =F(x2)=F(x2) p 2 =p(x 2
Критерий: n i – эмпирические частоты np i – теоретические частоты При случайная величина имеет распреде- ление Пирсона с k степенями свободы, где k = l – r –1, l – число вариант (интервалов), r – число параметров предполагаемого распределения, оцениваемых по выборке.
Критическая область W – правосторонняя: Из требования для критической области:, F(x) – функция распределения F(x) – функция распределения Пирсона с k= l – r –1 степенями свободы, l – число вариант (интервалов), r – число параметров, оцениваемых по выборке.
Для нахождения критической области необходимо по заданной вероятности ошибки первого рода (уровню значимости критерия) найти квантиль хи-квадрат распределения на уровне C Критическая область Область принятия гипотезы 1-
Алгоритм применения критерия согласия Пирсона Подсчитываем значение статистики критерия и сравниваем его с критической точкой. Если статистика критерия попадает в критическую область, то нулевая гипотеза : исследуемая случайная величина имеет заданный закон распределения отвергается. В противном случае она принимается на уровне значимости Критерий легко приспосабливается и для непрерывных распределений путем их дискретизации. Проверку гипотезы удобно совмещать с построением гистограмм.
§ Критерий Фишера Две генеральные совокупности X и Y распределены нормально. Проверить гипотезу: Критерий: F имеет распределение Фишера с (n X –1) и (n Y –1) степенями свободы Критическая область строится в зависимости от вида конкурирующей гипотезы. Обозначим n X – объём выборки из совокупности X, n Y – объём выборки из совокупности Y, s 2 X и s 2 Y – исправленные выборочные дисперсии.
1. Критическая область W – правосторонняя: Из требования 1 для критической области: F(x) – функция распределения Фишера с (n X –1) и (n Y –1) степенями свободы, F(x) – функция распределения F Так как s 2 X >0 и s 2 Y >0, то F >0 положительная часть
2.2. Обозначим, F имеет распределение Фишера с (n Y –1) и (n X –1) степенями свободы предыдущий случай: функция распределения F, где F(x) –
Обозначим, тогда Таким образом, критическая область для критерия F имеет вид:, где F(x) – функция распределения Фишера с (n Y –1) и (n X –1) степенями свободы
3.3. Критическая область W – двусторонняя: Аналогично пунктам 1 и 2 получаем: Пусть где F 1 (x) – функция распределения Фишера с (n X –1) и (n Y –1) степенями свободы где F 2 (x) – функция распределения Фишера с (n Y –1) и (n X –1) степенями свободы
§ Критерий Стьюдента (t-критерий) Генеральная совокупность распределена нормально. Проверить гипотезу: a 0 – некоторое число Критерий: Т имеет распределение Стьюдента с (n-1) степенями свободы Критическая область строится в зависимости от вида конкурирующей гипотезы.
1. Критическая область W – правосторонняя: Из требования 1 для критической области: F(x) – функция распределения Стьюдента с (n-1) степенями свободы, F(x) – функция распределения T
2.2. Критическая область W – левосторонняя: Из требования 1 для критической области:, F(x) – функция распределения T, F(x) – функция распределения Стьюдента с (n-1) степенями свободы
Плотность распределения Стьюдента – чётная функция Критическая точка t пр,кр находится из требования: –t пр,кр является критической точкой для левосторонней области:
3. Критическая область W – двусторонняя: Пусть В силу чётности плотности распределения Стьюдента: Аналогично пунктам 1 и 2 получаем:, или,
2.2. Обозначим, F имеет распределение Фишера с (n Y –1) и (n X –1) степенями свободы предыдущий случай: функция распределения F, где F(x) –
Однофакторный дисперсионный анализ Средний объём Номер бригады Номер наблюдения Пример: выявить зависимость объёма выполненных на стройке работ за смену от работающей бригады.
X – случайная величина F – фактор, воздействующий на случайную величину X F 1, F 2, …, F p – уровни фактора a 1, a 2, …, a p – математические ожидания на уровнях F 1, F 2, …, F p соответственно H 0 : a 1 = a 2 = … = a p Дисперсионным анализом называется статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования эксперимента.
Критерий Бартлетта H 0 : D 1 (X) = D 2 (X) = … = D p (X) гипотеза о равенстве дисперсий на каждом уровне q 1, q 2, …, q p – количество наблюдений на уровнях F 1, F 2, …, F p соответственно s 1 2, s 2 2, …, s p 2 – исправленные выборочные дисперсии на уровнях F 1, F 2, …, F p соответственно,
Критерий: Если q 1, q 2, …, q p > 3, то критерий имеет распределение, близкое к распределению Пирсона с (p-1) степенями свободы. Критическая область – правосторонняя., где F(x) – функция распределения Пирсона с (p–1) степенями свободы.
ypyp …y2y2 y1y1 Среднее значение qpqp …q2q2 q1q1 Число наблюдений … x2px2p …x 22 x 21 2 x1px1p …x 12 x 11 1 FpFp …F2F2 F1F1 Уровень фактора F Номер наблюдения H 0 : a 1 = a 2 = … = a p Объём выборки: n =q 1 + q 2 +…+ q p
ypyp …y2y2 y1y1 Среднее значение qpqp …q2q2 q1q1 Число наблюдений … x2px2p …x 22 x 21 2 x1px1p …x 12 x 11 1 FpFp …F2F2 F1F1 Уровень фактора F Номер наблюдения 1-ая группа – уровень F 1 : x 11, x 21, …, 2-ая группа – уровень F 2 : x 21, x 22, …, p-ая группа – уровень F p : x 1p, x 2p, …, … D в = D межгр +D внгр
1-ая группа – уровень F 1 : x 11, x 21, …, 2-ая группа – уровень F 2 : x 21, x 22, …, p-ая группа – уровень F p : x 1p, x 2p, …, … 1.D межгр = Факторная сумма: 2.D внгр =, где D iгр – дисперсия i–той группы S факт =
i-тая группа: x 1i, x 2i, …,, групповая средняя: y i D iгр = D внгр = Остаточная сумма: S ост =
Факторная дисперсия: Остаточная дисперсия: – всегда – если несущественно влияние фактора H 0 : a 1 = a 2 = … = a p
Критерий: имеет распределение Фишера с (p–1) и (n–p) степенями свободы Критическая область W – правосторонняя: Из требования 1 для критической области: F(x) – функция распределения Фишера с (p–1) и (n –p) степенями свободы
Элементы теории корреляции Зависимость величины Y от X называется функцио- нальной, если каждому значению величины X соот- ветствует единственное значение величины Y. Зависимость величины Y от X называется стати- стической (вероятностной, стохастической), если каждому значению величины X соответствует не одно, а множество значений величины Y, причём сказать заранее, какое именно значение примет величина Y невозможно.
Среднее значение, которое принимает величина Y при X=x, называется математическим ожиданием случай- ной величины Y, вычисленным при условии, что X=x, или условным математическим ожиданием: М(Y|X=x) Если при изменении x условные математические ожидания М(Y|X=x) изменяются, то говорят, что имеет место корреляционная зависимость величины Y от X. При этом функцию f (x)=М(Y|X=x) называют функцией регрессии. f (x)=М(Y|X=x) – ?
Условным средним называют среднее арифмети- ческое наблюдавшихся значений Y, соответствующих X=x. Условное среднее является оценкой условного матема- тического ожидания: М(Y|X=x) Каждому x соответствует своё значение, следова- тельно, – есть функция от x: это уравнение называется выборочным уравнением регрессии, а функция f * (x) – выборочной функцией регрессии.
Если функция регрессии – линейная: f (x) = М(Y|X=x) = ax+b, то выборочное уравнение регрессии имеет вид: f (x)=М(Y|X=x) – ?, где – выбороч- ный коэффициент корреляции – выборочные средние – выборочные средние квадратические отклонения n xy – частота пары вариант (x, y)
n= nXnX 22–– – –50.4 nYnY XYXY Корреляционная таблица