Истинная (теоретическая, генеральная) и выборочная функции регрессии
Пример Зависимость еженедельного потребления семей от их еженедельного дохода.
Пусть X – еженедельный доход в $, Y – еженедельное потребление в $. По этим факторам у нас есть данные для 60 семей, которые в данном примере рассматриваются как генеральная совокупность. Генеральная совокупность задана таблицей:
График генеральной совокупности:
Зависит ли потребление от дохода? Можно ли сказать, что с ростом дохода потребление также растет?
Буквально так сказать нельзя. Есть семьи с меньшим доходом и большим потреблением.
Но мы можем сказать, что с ростом дохода потребление в среднем растет.
Т.е. с ростом дохода растут средние значения потребления семей с данным доходом.
Для дохода Х = 80 это среднее равно Y = среднему арифметическому всех Y с Х=80. То есть Y = ( )/5 = 65. Эта точка (80; 65) показана розовым цветом на графике.
Для дохода Х = 100 это среднее равно Y = среднему арифметическому всех Y с Х=100. То есть Y = ( )/6 = 77. Эта точка (100; 77) также показана розовым цветом на графике.
И т.д.
Ордината каждой «розовой точки» - это условное среднее, или условное математическое ожидание Y при данном значении Х: E(Y | X)
E(Y|X=80) = E(Y|80) = 65 E(Y|X=100) = E(Y|100) = 77 E(Y|X=120) = E(Y|120) = 89 и т.д.
Линия, проходящая через условные средние для всех значений X и Y генеральной совокупности, называется истинной (теоретической, генеральной) линией регрессии.
Истинная функция регрессии записывается в виде: E(Y|X i ) = f(X i ) или E(Y|X) = f(X)
Если эта функция линейная, то: E(Y|X i ) = β 1 + β 2 *Х i или E(Y|X) = β 1 + β 2 *Х.
Таким образом, функция регрессии представляет строгую функциональную зависимость не между X и Y, а между X и средними значениями Y, соответствующими каждому из Х.
В примере: E(Y|X) = ,6*X. При Х=80, E(Y|X) = 17+0,6*80 = 65. При Х=100, E(Y|X) = 17+0,6*100 = 77. И т.д. E(Y|X) = ,6*X
Y зависит от Х, но не строго функционально. Строгая функциональная зависимость имеет место не между Y и Х, а между E(Y|X) и Х.
В функции регрессии любое значение фактора Х точно определяет не значение Y, а среднее значений Y, соответствующих этому значению Х.
На Y, помимо Х, влияют и еще какие- то факторы.
Например, на потребление человека, помимо его дохода, могут влиять его склонности, религия, традиции его семьи, состояние здоровья, уверенность или неуверенность в себе и т.д.
Как проявляется воздействие всех этих прочих факторов?
Если бы потребление определялось только доходом, то есть если бы Y зависел только от Х, то все точки выборки лежали на прямой регрессии.
Функция регрессии тогда бы имела вид не E(Y|X) = β 1 + β 2 *X, а Y = β 1 + β 2 *X.
В том, что точки разбросаны вокруг прямой регрессии, проявляется влияние на Y всех прочих факторов.
Влияние всех этих прочих факторов учитывается путем добавления к функции регрессии фактора u: Y = β 1 + β 2 *X + u.
Т.о., в общем виде истинная модель регрессии записывается так: Y = E(Y|X) + u или для отдельного элемента выборки Y i = E(Y|X i ) + u i.
Если известен вид функции регрессии, например, линейная, то модель можно конкретизировать: Y = β 1 + β 2 *X+u, или для отдельного элемента выборки: Y i = β 1 + β 2 *X i + u i
Рассмотрим, как в примере, согласно модели регрессии, образуются потребительские расходы 52-й семьи. Эта семья имеет доход Х 52 =240 и потребительские расходы Y 52 = 175.
Потребление Y 52 = 175 складывается из среднего потребления, определяемого данным доходом 240, E(Y| Х 52 =240) = 161, а также из величины u 52 = = 14 превышения среднего потребления, определяемой индивидуальными для этой семьи значениями прочих факторов.
Аналогично, потребление 31-й семьи Y 31 = 115, имеющей доход Х 31 =180, складывается из среднего потребления, определяемого данным доходом 180, E(Y| Х 31 =180) = 126, а также величины u 52 = = -11 уменьшения среднего потребления, определяемой индивидуальными для этой семьи прочими факторами.
Слагаемое u в модели регрессии представляет все факторы, которые влияют на поведение переменной Y, но по каким-то причинам не включены в модель явно.
До сих пор мы различали функцию регрессии E(Y|X) = f(X) и модель регрессии Y = f(X) + u.
На самом деле эти две записи (и эти два понятия) эквивалентны при условии, как нетрудно показать, что E(u|X) = 0 или, если Х и u независимы: E(u) = 0.
Что представляет собой случайный член модели регрессии? Между зависимой переменной Y и независимым фактором Х не существует строгой функциональной зависимости. Точки (X i, Y i ) не лежат строго на линии регрессии, а разбросаны вокруг нее. Этот разброс приписывается влиянию случайного фактора u.
Почему же происходит отклонение точек-объектов от линии регрессии? Или: почему в модели регрессии необходим случайный член u?
Основных причин несколько.
Невключение в модель объясняющих переменных. Мы не можем включить в модель в явной форме все переменные, которые влияют на Y. Почему?
(а) Не всегда совершенна теория, объясняющая, от каких факторов зависит Y.
(б) По нужной переменной может не оказаться статистических данных. Из-за этого она не будет включена в модель.
Например, в модель потребительской функции, помимо дохода семьи, в принципе должна была бы быть включена переменная «состояние семьи». Но такая информация чаще всего недоступна, и поэтому данная переменная чаще всего в модель не включается.
(в) Экономические модели – это модели человеческого поведения, которому неотъемлемо присуща непредсказуемость, случайность, которую нельзя представить никакими количественно измеримыми факторами.
Все эти невключенные в модель в явном виде факторы представляются в модели случайным фактором u.
Ошибки измерения переменных, входящих в модель. Причиной отклонения точек от линии регрессии может быть неправильное или неточное измерение переменных модели. В этом случае наблюдаемые значения не будут соответствовать точному соотношению, и существующее расхождение будет представлено случайным членом.
Неправильная функциональная форма модели. Функциональная форма модели регрессии может быть определена неверно. В этом случае точки-наблюдения будут отклоняться от графика неверно определенной функции просто потому, что они лежат вокруг кривой другой формы. Это отклонение также будет приписано влиянию фактора u.
u u u
Выборочная функции регрессии
Выше мы рассматривали группу из 60 семей как генеральную совокупность. То есть нас интересовали только эти 60 семей, и мы не имели ввиду результаты исследования этой группы распространить на более многочисленную совокупность.
Такая ситуация не характерна для эконометрики. Как правило, исследователя интересуют выводы не о нескольких десятках или даже сотнях объектов, а о гораздо более многочисленных множествах. Например, зависимость потребления от дохода для совокупности всех семей какого-то региона; о зависимости выпуска от затрат капитала в данной отрасли промышленности; о зависимости размера ВВП от инвестиций в человеческий капитал вообще; и т.д.
Как правило, данных о всей генеральной совокупности, для которой хотят получить выводы, исследователи не имеют. Они делают или откуда-то получают выборку объектов из генеральной совокупности, для нее проводят исследования и полученные выводы (с определенными оговорками) распространяют на всю генеральную совокупность.
В регрессионном анализе различают генеральную, истинную, теоретическую модель регрессии, и ее выборочную оценку – выборочное уравнение регрессии.
Модель регрессии Y = E(Y|X) + u является истинной (теоретической, генеральной) функцией регрессии, так как она описывает зависимость Y от Х для генеральной совокупности значений двумерной случайной величины (Х, Y).
В практических ситуациях исследователи, как правило, имеют только выборку значений Y, соответствующих некоторым фиксированным значениям независимой переменной Х. Поэтому встает задача: оценить истинную, генеральную функцию регрессии по выборочным данным.
В нашем примере мы рассматривали совокупность из 60 семей как генеральную и соответствующая ей линия регрессии была истинной или генеральной линией регрессии. Теперь возьмем случайную выборку из нашей генеральной совокупности. Задача состоит в том, чтобы по этой выборке оценить истинную линию регрессии.
Дох од Пот реб лен ие
Построим по этой выборке линию регрессии, как можно лучше представляющую точки нашей выборки. Будет ли эта линия такой же, как и истинная линия регрессии? Очевидно, нет. Так как если мы возьмем другую выборку, то получим другую, вообще говоря, линию регрессии.
Дох од Пот реб лен ие
Линия регрессии, построенная по выборке, называется выборочной линией регрессии. Выборочные линии регрессии только приближают, оценивают истинную линию регрессии.
Уравнение выборочной линии регрессии в случае, когда модель линейная, записывается следующим образом: Ŷ = b 1 + b 2 *Х. Здесь: Ŷ - оценка E(Y|X) b 1 – оценка β 1, b 2 – оценка β 2..
Разность между реальным, попавшим в выборку значением Y i, соответствующим некоторому X i, и полученным по выборочному уравнению значением Ŷ i = b 1 + b 2 *X i, называется остатком (или ошибкой – error) и обозначается e i : e i = Y i - Ŷ i. По-другому, Y i = Ŷ i + e i = b 1 + b 2 *X i + e i.
Величина e i дает величину отклонения значения Y i от выборочной линии регрессии. e i может служить оценкой u i.