Лекция 6 Метод наименьших квадратов Уравнение парной регрессии
В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили название регрессионного анализа Основными задачами регрессионного анализа являются установление зависимости между переменными и оценка (прогноз) значений зависимой переменной В экономических исследованиях часто заданному значению одной переменной может соответствовать множество значений другой переменной Другими словами, каждому значению одной переменной соответствует условное распределение другой переменной
Графическая иллюстрация сказанного: Y = X Y X3X3 X5X5 X4X4 X1X1 X2X2 Зависимость, при которой каждому значению одной переменной соответствует условное математическое ожидание другой называется регрессионной:
Начнем с построения модели в виде линейного уравнения парной регрессии (6.1) Постановка задачи Дано: Выборка наблюдений за поведением переменных y t и x t Найти: 1. Оценки значений параметров a 0 и a 1 2. Оценки точности σ(a 0 ) и σ(a 1 ). 3. Оценка рассеяния случайного возмущения σ u 4. Оценку точности прогнозирования σ(y(x 0 ))
Введем следующие обозначения и определения 1. Выборка2. Система уравнений наблюдений (6.2) 3. В е к т о р а 4. Матрица коэффициентов при параметрах
Идея метода. Пусть имеем выборку из 4-х точек (n=4): P 1 =(x 1, y 1 ) P 2 =(x 2, y 2 ) P 3 =(x 3, y 3 ) P 4 =(x 4, y 4 ) P1P1 P2P2 P3P3 P4P4 Предполагаем, что существует теоретическая прямая, которая наилучшим образом проходит через них Задача: оценить с некоторой точностью, как может проходить эта прямая На практике мы имеем возможность наблюдать только исходные точки u4u4
Итак, оценки параметров модели парной регрессии согласно МНК будем искать из условия: (6.2) Условиями минимума функции являются равенство нулю первых производных и положительность вторых производных по ã 0 и ã 1 (6.3) Система (6.3) называется системой нормальных уравнений для вычисления оценок параметров уравнения парной регрессии (6.1)
Упростим систему нормальных уравнений (6.3) (6.4) Убеждаемся, что решение системы уравнений (6.4) будет соответствовать минимуму функции (6.1) Для этого вычисляем значения вторых частных производных функции (6.1) Вторые производные больше нуля – функция (6.1) принимает минимальное значение в точке ã 0, ã 1
(6.4) Для решения системы (6.4) выразим из первого уравнения ã 0, подставим его во второе уравнение (6.5) Решив второе уравнение системы (6.5) получим: (6.6)
Проанализируем выражение (6.6) Для этого вычислим COV(x,y) и σ 2 (x) (6.7)
Проверим выполнение условия несмещенности для оценки (6.7) Для этого вычислим числитель выражения (6.7) Подставив в (6.7) полученное выражение получим: (6.8) Математическое ожидание выражения (6.7) имеет вид: (6.9)
Вычислим дисперсии параметров уравнения регрессии и дисперсию прогнозирования эндогенной переменной 1. Дисперсия параметра ã 1 (6.10)
2. Дисперсия параметра ã 0 σ 2 (y) Определяется с помощью (6.10) В результате получаем:
Исходные предположения 1.Уравнение имеет вид: y t =a 0 + a 1 x t + u t 2. Случайное возмущение имеет нормальное распределение с параметрами 0 и σ u 3. Для получения ММП-оценок имеем выборку из n наблюдений Тогда: Закон распределения для случайного возмущения принимает вид:
1. Функция правдоподобия получит вид: 2. Логарифм функции правдоподобия
3. Составляем уравнения для вычисления оценок a 0 и a 1 Получили систему уравнений совпадающую с (6.3) Следовательно, и решения совпадут
Вывод С помощью метода наименьших квадратов получили 1.Оценки параметров уравнения регрессии, по крайней мере, состоятельными 2. Если случайное возмущение подчиняется нормальному закону распределения, то оценки параметров модели несмещенные и эффективные 3. Нет необходимости в знании закона распределения случайных возмущений
X-стаж работы сотрудника Y- часовая оплата труда Модель: Y=a 0 +aX t +U t Σ x i =210; Σ y i =146.42; Σ x i 2 =2870; Σ x i y i = XYUU2U2 σ(y) 1,01,912,17-0,260,071,20 2,02,762,720,040,001,19 3,02,673,26-0,590,351,17 4,04,033,800,230,051,16 5,04,124,34-0,220,051,15 6,02,814,88-2,074,301,15 7,06,535,421,111,221,14 8,06,245,970,270,071,14 9,09,036,512,526,361,13 10,06,877,05-0,180,031,13 11,09,097,591,502,241,13 12,07,088,13-1,051,111,13 13,07,798,68-0,890,781,14 14,08,759,22-0,470,221,14 15,011,199,761,432,051,15 16,010,1510,30-0,150,021,15 17,010,5210,84-0,320,101,16 18,010,8911,38-0,490,241,17 19,010,5911,93-1,341,781,19 20,013,4012,470,930,871,20 ΣU2ΣU2 21,93
Y= X Y+σ(Y) Y-σ(Y) Графическое отображение результатов
Заключение 1. Метод наименьших квадратов имеет следующие преимущества: - не требуется знания закона распределения случайного возмущения - дает оценки по крайней мере состоятельные - в случае нормального распределения случайного возмущения оценки параметров линейной модели несмещенные и эффективные 2. Для получения несмещенных и эффективных оценок параметров в случае, если случайное возмущение имеет закон распределения отличный от нормального, необходимо наложить на него дополнительные требования