Лекция 2.1 Линейная регрессионная модель для случая одной объясняющей переменной. Метод наименьших квадратов (МНК)
Dictionary definition: Regression is a backward movement, a retreat, a return to an earlier stage of development. Sir Francis Galton ( ) ввел термин «регрессия», изучая зависимость роста детей от роста родителей. A regression of childrens height towards the average. 2
Регрессионный анализ объединяет широкий круг задач, связанных с построением зависимостей между двумя переменными: X и Y. X – независимая, объясняющая, экзогенная переменная, регрессор Y- зависимая, объясняемая, эндогенная переменная, regressand. На практике исследователь работает с данными (X i, Y i ), i = 1,…,n. 3
Пусть случайные величины Х и Y имеют совместное распределение Определение парной регрессии E(Y|X = X i ) = f(X i ), i = 1,…,n 7 Модель парной регрессии X XnXn X2X2 Y X1X1
Уравнение теоретической регрессии Y i = f(X i ) + u i,, i = 1,…,n т.к. при одном и том же Х, Y могут быть разные. Из случайной величины Y выделяем некоторую часть, которая детерминирована иксом, u i - случайная составляющая, добавка. 7 Модель парной регрессии X XnXn X2X2 Y X1X1
Y i = E(Y|X = X i ) + u i, i = 1,…,n – уравнение теоретической регрессии Какова причина появления случайной составляющей u i (возмущения)? В модели участвуют не все переменные, влияющие на поведение Y. Врожденная неопределенность поведения экономических агентов. Мы используем те величины, которые можем измерить, а не те, которые хотелось бы. Ошибки измерения. 8 Модель парной регрессии
Уравнение теоретической регрессии Y i = f(X i ) + u i в зависимости от f(X i ) может быть линейным, квадратичным, логарифмическим. Рассмотрим линейный случай: f(x) = β 1 + β 2 X – линейно по Х и по параметрам. 9 Модель парной регрессии
4 Y Предположим, что переменная Y является линейной функцией переменной X с неизвестными параметрами 1 и 2, которые мы хотим оценить. 1 X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
Если все точки расположены на одной прямой линии, то достаточно легко найти оценки параметров 1 и 2. Q1Q1 Q2Q2 Q3Q3 QnQn 5 1 Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Но на практике взаимоотношения между переменными X и Y не являются в точности линейными, т.е. пары наблюдений не располагаются на прямой линии. P3P3 P2P2 P1P1 Q1Q1 Q2Q2 Q3Q3 QnQn 6 1 Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Специфицируем модель следующим образом: Y = X + u, где u – возмущение. P3P3 P2P2 P1P1 Q1Q1 Q2Q2 Q3Q3 QnQn 10 1 Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Таким образом, каждое значение переменной Y можно разделить на две части: детерминированную, β 1 + β 2 X, и случайную u. P3P3 P2P2 P1P1 Q1Q1 Q2Q2 Q3Q3 QnQn u1u1 Модель парной регрессии 11 1 Y X X1X1 X2X2 X3X3 XnXn
PnPn Но на практике мы не имеем линии Y = β 1 + β 2 X, а имеем только n пар наблюдений. P3P3 P2P2 P1P1 Модель парной регрессии 12 Y X X1X1 X2X2 X3X3 XnXn
PnPn По n парам наблюдений мы должны построить оценки параметров β 1 и β 2 (соответственно b 1 и b 2 ). Тогда линия ^ Y = b 1 + b 2 X будет являться аппроксимацией линии Y = X. P3P3 P2P2 P1P b1b1 Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn На рисунке проведена линия выборочной регрессии, лежащие на ней точки R i называются оцененными значениями переменной Y. P3P3 P2P2 P1P1 R1R1 R2R2 R3R3 RnRn Модель парной регрессии 1414 b1b1 (оцененные значения) Y (реальные значения) Y X X1X1 X2X2 X3X3 XnXn
PnPn X X1X1 X2X2 X3X3 XnXn Разности между действительными и оцененными значениями переменной Y называются остатками регрессии. P3P3 P2P2 P1P1 R1R1 R2R2 R3R3 RnRn (остатки) e1e1 e2e2 e3e3 e4e b1b1 Y Y Модель парной регрессии
PnPn Серым цветом проведена линия теоретической регрессии, а черным – выборочной регрессии. P3P3 P2P2 P1P1 R1R1 R2R2 R3R3 RnRn b1b Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn На рисунке изображены возмущения u i (отклонения Y i от линии теоретической регрессии). P3P3 P2P2 P1P Q2Q2 Q1Q1 Q3Q3 QnQn 1 b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn На рисунке изображены остатки e i (отклонения от линии выборочной регрессии). P3P3 P2P2 P1P1 R1R1 R2R2 R3R3 RnRn b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Если качество подгонки регрессии хорошее, то остатки и значения возмущений близки, но они имеют разную природу. P3P3 P2P2 P1P1 R1R1 R2R2 R3R3 RnRn b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Существует два способа декомпозиции значений Y: с помощью теоретической регрессии и с помощью выборочной регрессии. 20 QnQn unun 1 b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn При использовании теоретической регрессии Y разлагается на детерминированную ( X ) и случайную(u) части QnQn unun 1 b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Это разложение является чисто теоретическим (т.к. параметров 1 и 2 мы не знаем) и будет использовано при анализе свойств оценок коэффициентов регрессии. 2 QnQn unun 1 b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
PnPn Другая декомпозиция легко выполнима на практике при известных b 1 и b enen RnRn 1 b1b1 Y Y X X1X1 X2X2 X3X3 XnXn Модель парной регрессии
Оценка коэффициентов выборочной регрессии Метод наименьших квадратов (МНК) оценки коэффициентов регрессии состоит в Минимизации суммы квадратов остатков регрессии RSS (residual sum of squares) 2424
Почему минимизируется сумма квадратов остатков, а не сумма остатков? МНК А не суммы остатков 25 Mинимизация RSS (residual sum of squares),
PnPn На примере горизонтальной линии легко увидеть, что сумма остатков равна 0, остатки разных знаков компенсируют друг друга, хотя и могут быть велики по абсолютной величине. Это будет иметь место и в общем случае. P3P3 P2P2 P1P1 Y 26 X X1X1 X2X2 X3X3 XnXn Y
P4P4 МНК является не единственным возможным критерием, но очень удобен для практического применения (обладая и другими замечательными свойствами). P3P3 P2P2 P1P1 27 X X1X1 X2X2 X3X3 X4X4 Y Y