АНАЛИЗ ВЫБОРОЧНОГО УРАВНЕНИЯ РЕГРЕССИИ
1, , , , , , , , ,144
Y = β 1 + β 2 *X + u Выборочное уравнение: Ŷ = -61,39 + 1,82*Х с.о. (44,99) (0,04) R 2 = 0,987 n=30
ПРОВЕРКА ГИПОТЕЗ О КОЭФФИЦИЕНТАХ РЕГРЕССИИ Y = β 1 + β 2 *X + u β 1 и β 2 неизвестны. Проверка Двусторонней Гипотезы По выборке (X i,Y i ), i=1, …, n, получаем оцененное уравнение: = b 1 + b 2 * X с.о.(b 1 ) с.о.(b 2 ) Формулируем гипотезу: H 0 : 2 = 0 H А : какое-то конкретное, фиксированное число.
(1) Рассчитываем статистику теста: t cтат = (b ) / с.о.(b 2 ) Если гипотеза H 0 истинна, то t cтат имеет t- распределение Стьюдента с n-2 степенями свободы.
(2) Определяем критическое значение t критическое. Сначала определяем параметры для поиска критического значения в таблице распределения Стьюдента. В тесте на значение коэффициента регрессии таких параметров два: уровень значимости и число степеней свободы чсс или dof или df. Задаем уровень значимости α. Уровень значимости – вероятность отвергнуть гипотезу H 0, когда она истинна. Поэтому значение α задается небольшим: 0,1, 0,05, 0,025, 0,001.
Число степеней свободы = размер выборки минус число оцениваемых параметров. То есть, чсс = dof = df = n-2. По таблице распределения Стьюдента находим критические точки: t критическое = t кр (n-2; α) (3) Принимаем решение о нулевой гипотезе H 0 : Если |t стат | < t кр, H 0 не отвергается при уровне значимости α. Если |t стат | > t кр, H 0 отвергается при уровне значимости α.
Графическое представление правила принятия решения о гипотезе Н 0. ________________________________________ t стат 0 - t крит t крит Область принятия гипотезы H 0 Область отвержения гипотезы H 0 α / 2 %
Пояснение: Если H 0 верна, то P{ | t стат | > t кр } = α. Т. е., если H 0 верна, то очень маловероятно (т.к. α - мала), что t стат примет значение, по модулю большее t кр. Поэтому, если такое маловероятное событие произошло, мы считаем, что это означает, что гипотеза H 0 ложная. Вероятность того, что мы ошибаемся, делая такой вывод, равна α.
Примеры: Пусть Y – ежегодный доход фирмы в тысячах долларов, Х – ежегодные затраты фирмы на рекламу в тысячах долларов. Модель Y = β 1 + β 2 *X + u оценивается для 29 фирм одной отрасли. Выборочное уравнение имеет вид: = 17,45 + 0,28*Х с.о. (6,02) (0,08) R 2 = 0.564, n = 29.
= 17,45 + 0,28*Х с.о. (6,02) (0,08) R 2 = 0.564, n = 29. Можно ли утверждать, что для фирм этой отрасли каждая затраченная на рекламу тысяча долларов ведет к увеличению дохода на 0,3 тысячи долларов? H 0 : 2 = 0,3 H А : 2 0,3 (1) t стат = (0,28 – 0,3)/0,08 = -0,25. (2) Выбираем α = 5%. чсс = 31 – 2 = 29. По таблице распределения Стьюдента находим критическое значение: t крит = 2,045. (3) Принимаем решение о нулевой гипотезе: так как | t стат | < t крит, гипотеза H 0 не отвергается при уровне значимости 5%. То есть с вероятностью ошибиться 5% делаем вывод о том, что каждая затраченная на рекламу тысяча долларов приводит к увеличению доходов на 0,3 тысячи долларов.
= 17,45 + 1,98*Х с.о. (7,02) (0,84) R 2 = 0.564, n = 29. Можно ли утверждать, что для фирм этой
Графическое представление правила принятия решения о гипотезе Н 0. ________________________________________ t стат 0 - 2,045 2,045 2,5 % -0,25
= 17,45 + 1,98*Х с.о. (6,02) (0,84) R 2 = 0.564, n = 29. Получают ли какой-нибудь доход фирмы, которые не делают затрат на рекламу? H 0 : 1 = 0 H А : 1 0 (1) t стат = (17,45 – 0) / 6,02 = 2,90. (2) Выбираем α = 1%. чсс = 31 – 2 = 29. По таблице распределения Стьюдента находим критическое значение: t крит = 2,756. (3) Принимаем решение о нулевой гипотезе: так как | t стат | > t крит, гипотеза H 0 отвергается при уровне значимости 5%. То есть делаем вывод о том, что фирмы, не производящие затрат на рекламу имеют отличный от нуля доход.
= 17,45 + 1,98*Х с.о. (7,02) (0,84) R 2 = 0.564, n = 29. Можно ли утверждать, что для фирм этой
Графическое представление правила принятия решения о гипотезе Н 0. ________________________________________ t стат 0 - 2,756 2,756 0,5 % 2,90
Проверка Односторонних Гипотез Y = β 1 + β 2 *X + u β 1 и β 2 неизвестны. Формулируем одну из следующих односторонних гипотез: Правосторонняя Левосторонняя гипотеза гипотез H 0 : β 2 = β 0 H 0 : β 2 = β H A : β 2 > β 0 H A : β 2 < β 0 (1) По выборке (X i,Y i ), i=1, …, n, получаем оцененное уравнение: = b 1 + b 2 *X с.о.(b 1 ) с.о.(b 2 ) (2) Рассчитываем t cтат = (b ) / с.о.(b 2 )
(3) Задаем уровень значимости α. Рассчитываем чсс = n – 2. По таблице распределения Стьюдента находим t одностороннее критическое = t од кр (n-2; ). (4)Принимаем решение о нулевой гипотезе H 0. Правосторонняя гипотеза: Если t стат < t одностор крит, H 0 не отвергается при уровне значимости α. Если t стат > t одностор крит, H 0 отвергается при уровне значимости α.
Графическое представление правила принятия решения о правосторонней гипотезе Н 0. ________________________________________ t стат 0 t одностор крит Область принятия правосторонней гипотезы H 0 Область отвержения правосторонней гипотезы H 0 α %
(4)Принимаем решение о нулевой гипотезе H 0. Левосторонняя гипотеза: Если t стат > - t одностор крит, H 0 не отвергается при уровне значимости α. Если t стат < - t одностор крит, H 0 отвергается при уровне значимости α.
Графическое представление правила принятия решения о левосторонней гипотезе Н 0. ________________________________________ t стат 0 - t одностор крит Область принятия левосторонней гипотезы H 0 Область отвержения левосторонней гипотезы H 0 α %
Аналогично проверяются гипотезы относительно β 1.
Y = β 1 + β 2 *X + u Первая гипотеза, которая проверяется после получения выборочного уравнение регрессии, это: H 0 : 2 = 0 H A : 2 0
Примеры: 1)Y – спрос на предмет роскоши, в сотнях тысяч $. X – цена на предмет роскоши, в сотнях тысячах $. Модель: Y = β 1 + β 2 *X + u По выборке для какой-то страны за 25 лет оцениваем уравнение регрессии: = 15,3 + 0,793*X (2,5) (0,223) R 2 = 0.857, n=25.
Примеры: = 15,3 + 0,793*X (2,5) (0,223) R 2 = 0.857, n=25. Вопрос: действительно ли с ростом цены на данный товар роскоши спрос на него увеличивается? H 0 : 2 = 0 H A : 2 > 0 (1)t стат = (0,793 – 0) / 0,223 = 3,56. (2)Пусть α = 0,05, чсс = 25 – 2 = 23. По таблице распределения Стьюдента находим t одностор крит = 1,714.
= 17,45 + 1,98*Х с.о. (7,02) (0,84) R 2 = 0.564, n = 29. Можно ли утверждать, что для фирм этой
Примеры: = 15,3 + 0,793*X (2,5) (0,223) R 2 = 0.857, n=25. Вопрос: действительно ли с ростом цены на данный предмет роскоши спрос на него увеличивается? H 0 : 2 = 0 H A : 2 > 0 (3) Принимаем решение о нулевой гипотезе. Так как t стат = 3,56 больше t одностор крит = 1,714, t стат > t одностор крит, гипотеза отвергается при уровне значимости 5%. То есть с вероятностью ошибиться 5% делаем вывод о том, что с ростом цены на данный предмет роскоши спрос на него увеличивается.
Графическое представление правила принятия решения о правосторонней гипотезе Н 0. ________________________________________ t стат 0 1,714 Область принятия правосторонней гипотезы H 0 Область отвержения правосторонней гипотезы H 0 5 % 3,56
2) p – годовой темп общей инфляции в %, w – годовой темп инфляции, вызванной ростом заработной платы. Модель: p = β 1 + β 2 *w + u. По данным для некоторой страны за 20 лет получается выборочное уравнение регрессии: = -1,21 + 0,82*w (0,05) (0,10) R 2 = 0.699, n = 20. Гипотеза: темпы инфляций обоих типов совпадают. H 0 : 2 = 1 H A : 2 < 1 - общая инфляция значимо ниже инфляции, вызванной ростом з/п
(1) t стат = (0,82 – 1) / 0,10 = -0,18/0,10 = -1,8 (2) Задаем α = 0,05. Чсс = 20 – 2 = 18. По таблице распределения Стьюдента находим t од кр (18; 0,05) = 1,734. (3) Так как t стат < - t од кр - H 0 отвергается при 5%-м уровне значимости. Т.е. общая инфляция значимо ниже инфляции, вызванной ростом з/п.
= 17,45 + 1,98*Х с.о. (7,02) (0,84) R 2 = 0.564, n = 29. Можно ли утверждать, что для фирм этой
Графическое представление правила принятия решения о левосторонней гипотезе Н 0. ________________________________________ t стат 0 - 1,734 Область принятия левосторонней гипотезы H 0 Область отвержения левосторонней гипотезы H 0 5 % -1,8
Замечание: Проверка гипотез проводится обычно не при одном, а при нескольких уровнях значимости, например, α = 0,05 и 0,01. Почему?
Причина заключается в том, что таким образом пытаются найти баланс между риском допущения ошибок I и II рода. Ошибка I рода имеет место тогда, когда Вы отвергаете истинную нулевую гипотезу. Вероятность этой ошибки – уровень значимости α. Ошибка II рода имеет место тогда, когда Вы не отвергаете ложную нулевую гипотезу.
Чем меньше значение уровня значимости α мы выбираем, тем меньше риск получения ошибки I рода. Если α =5%, то истинная H 0 отвергается в 5% случаев. Если α =1%, то истинная H 0 отвергается только в 1% случаев, т.е. мы почти наверняка вправе отвергнуть эту гипотезу. НО, если H 0 ложна, то чем меньше значение α, тем больше область принятия этой гипотезы, т.е. больше вероятность совершить ошибку II рода.
Поэтому проверка гипотез часто проводится на двух уровнях значимости. Например, при α =0,05, когда как будто бы меньше риск ошибки II рода, и при α =0,01, когда низкий риск совершения ошибки I рода. Нетрудно понять, что могут возникать ситуации, когда нет необходимости представлять оба результата.
Доверительные Интервалы Для Коэффициентов Регрессии Модель: Y = β 1 + β 2 *X + u Пусть проверяется гипотеза H 0 : β 2 = β 0 H A : β 2 β 0 причем гипотеза H 0 истинная.
Тогда при уровне значимости α гипотеза H 0 будет отвергаться (ошибочно) с вероятностью α %, и не будет отвергаться с вероятностью (100 - α )%.
Т. е., если H 0 : β 2 = β 0 истинна, с вероятностью α% будет выполняться: а с вероятностью (100 - α )% будет выполняться:
То есть с вероятностью (100 - α )% будет выполняться: b 2 – с.о.(b 2 )*t кр (n-2; α) < 2 < b 2 + с.о.(b 2 )*t кр (n-2; α)
Интервал (b 2 – с.о.(b 2 )*t кр (n-2; α) ; b 2 + с.о.(b 2 )*t кр (n-2; α)) называется (100 - α )%- ым доверительным интервалом для коэффициента 2. 1-я интерпретация (100 - α)%-ого доверительного интервала: Двусторонняя гипотеза H 0 не будет отвергаться при уровне значимости для всех значений 0 из (100 - α)%-ого доверительного интервала (b 2 – с.о.(b 2 )*t кр (n-2; α) ; b 2 + с.о.(b 2 )*t кр (n-2; α)).
2-я интерпретация (100 - α)%-ого доверительного интервала: С вероятностью (100 - α)% истинное значение параметра 2 модели накрывается интервалом (b 2 – с.о.(b 2 )*t кр (n-2; α) ; b 2 + с.о.(b 2 )*t кр (n-2; α)).
ПРИМЕР: Y – ежегодный расходы на еду в млрд. $, Х – ежегодный располагаемый личный доход населения в млрд. $. Модель: Y = β 1 + β 2 *X + u оценивается по данным для США за гг. = 55,3 + 0,093*X (2,4) (0,003) R 2 = , n=25 t кр (23;0,05) = 2,069 95%-й доверительный интервал для 2 имеет вид: (0,093 – 0,003*2,069, 0,093+0,003*2,069) = ( 0,087, 0,099).
Т.е., 1)По имеющейся выборке при уровне значимости α не отвергается гипотеза H 0 : 2 = 0 при альтернативной гипотезе H A : 2 0 при всех таких значениях 0, которые принадлежат интервалу (0,087, 0,099). Например, не будут отвергаться двусторонние гипотезы H 0 : 2 =0,088, H 0 : 2 = 0,094, H 0 : 2 = 0,097 и т.д.
2) С вероятностью 0,95 (или 95%-в) истинное значение параметра 2 покрывается интервалом (0,087, 0,099).
Предсказания по уравнению регрессии. Доверительные интервалы для предсказаний По выборке (X i, Y i ), i=1, …, n, оценена модель Y = β *X + u и получено уравнение = b 1 + b 2 *X. (1) Тогда для любого значения независимой переменной X * по (1) можно получить предсказанное значение Y: Y * = b 1 + b 2 *X *
(100 - α )%-й доверительный интервал для предсказания С вероятностью (100 - α )%-в истинное значение Y, соответствующее данному значению X *, находится в интервале: Y * - t кр (n-2; α )*с.о.< Y < Y * + t кр (n-2; α )*с.о. Где:
t кр (n-2; α ) – находится по таблице t- распределения Стьюдента; с.о. – стандартная ошибка предсказания, равная:
ПРИМЕР: = 55,3 + 0,093*X, (2,4) (0,003) R 2 = 0,9775, n=25 Какими будут расходы на питание, если располагаемый личный доход будет равен 1100 млрд.долл.? X * =1100; Y * = 55,3 + 0,093*1100 = 172,6 млрд. долл.
95%-й доверительный интервал для предсказания: Y * = 172,6 t кр (23;0,05) = 2,069 с.о. = 3,08 172,6 - 2,069*3,08 < Y < 172, *3,08 166,2 < Y < 179,0. Т.е. в случае, когда располагаемый личный доход будет равен 1100 млрд. $, сумма затрат на питание с вероятностью 0,95 будет лежать в интервале от 166,2 до 179,0 млрд. долл.
F-тест на качество оценивания. Интерпретация R 2 : изменения (поведение) Y на R 2 %-в объясняются изменениями X. Гипотеза: R 2 незначимо отличен от нуля. H 0 : R 2 = 0 H A : R 2 > 0 Задается α - уровень значимости.
F-статистика = F стат = По таблице распределения Фишера находим F-критическое = F кр (1; n-2; α ). Если F стат > F кр, H 0 отвергается при уровне значимости α. Если F стат < F кр, H 0 не отвергается при уровне значимости α, т.е. по данной выборке мы не можем утверждать зависимость Y от X.
В парном линейном регрессионном анализе t- критерий для проверки двусторонней гипотезы H 0 : 2 = 0 и F– критерии для проверки гипотезы H 0 : R 2 = 0 идентичны. Т.е. при одном и том же уровне значимости обе эти гипотезы либо вместе отвергаются, либо вместе не отвергаются.
Между ними существует также следующая взаимосвязь: t 2 cтат = F стат. Более того, t 2 кр (n-2; α) = F кр (1;n-2; α ).
ПРИМЕР: = 55,3 + 0,093*X, R 2 = 0,9775 (2,4) (0,003) n=25 Проверяем гипотезу: H 0 : R 2 = 0 H A : R 2 > 0 F-статистика рассчитывается функцией ЛИНЕЙН и равна F стат = 1127.
Задаем уровень значимости α = 0,05. По таблице распределения Фишера находим критическое значение: F кр (1;23;0,05) = 4,28. Т.к. F стат = 1127 > F кр = 4,28, Гипотеза H 0 : R 2 = 0 отвергается при 5%-ом уровне значимости. Т.е. размер располагаемого дохода X оказывает значимое влияние на суммы расходов на питание Y.
И мы можем говорить, что на 97,75% изменения в суммах расходов на питание обуславливаются изменениями в размерах располагаемого личного дохода.