Тема 3. Регрессионный анализ
Корреляционный анализ может дать представление о степени связи, но не о ее виде. Для анализа воздействия на результативный признак одного или нескольких факторных признаков используется регрессионный анализ. Если выявленные на основе корреляционного анализа связи между изучаемыми признаками окажутся существенными (т.е. достаточно сильными и статистически значимыми), то целесообразно найти их математическое выражение в виде регрессионной модели и оценить ее адекватность. Адекватная регрессионная модель может использоваться для прогнозирования изучаемого явления или показателя.
Модели парной и множественной регрессии Регрессионный анализ заключается в подборе соответствующей аппроксимирующей функции для имеющегося набора наблюдений. Аппроксимация (от лат. approximo – приближаюсь) – это приближенное выражение эмпирических данных в виде функции. Полученная функциональная зависимость называется уравнением регрессии, или просто регрессией. Регрессия – это зависимость среднего значения какого-либо признака от среднего значения других (одного или нескольких) признаков.
Регрессия называется парной, если она описывает зависимость между функцией и одной переменной, т.е. имеет вид: y=f(x). Регрессия называется множественной, если она включает в себя несколько переменных и имеет вид: y=f(x1, x2,… xn). Если уравнение регрессии линейное, т.е. имеет вид: y=a1x+a0 (для одной переменной) или y=a1x1+a2x2+...+anxn+a0, регрессия называется линейной, иначе – нелинейной.
Подбор аппроксимирующей функции Известен набор из n измерений результативного признака y при разных значениях факторного признака x: (x i, y i ), i=1,..., n. Пусть имеется ряд функций (линейные, квадратичные, экспоненциальные и т.д.). Требуется выбрать функцию ŷ=f(x) из имеющихся, чтобы ее значения ŷ i для набора x i наилучшим образом приближали значения y i. Значения ŷ i называются теоретическими (ожидаемыми) значениями, а значения y i – эмпирическими (наблюдаемыми).
Метод наименьших квадратов (МНК)
Осуществляемое на основе регрессионного анализа прогнозирование обеспечивает, как правило, лучшие результаты при интерполяции (определение y внутри интервала изменения эмпирических значений факторных признаков), чем при экстраполяции (за границами этого интервала). Ошибка прогнозирования возрастает тем сильнее, чем дальше значение любого из факторных признаков x i, по которым строится прогноз, выходит за пределы минимального и максимального значений эмпирических данных [x imin ; x imax ]
Предпосылки применения регрессионного анализа: мультиколлинеарность Независимость факторов (отсутствие сильных линейных взаимосвязей между независимыми переменными регрессионной модели (r
Предпосылки применения регрессионного анализа переменные модели должны иметь распределение, близкое к нормальному результативный и факторные признаки должны быть измерены в метрической шкале (возможны случаи представления факторных признаков в неметрических шкалах)
Фиктивные переменные Если в регрессионную модель включаются переменные и в номинативной шкале (например, переменная «пол», принимающая значения 0 и 1), такие переменные называются фиктивными переменными (dummy variables) или индикаторами. Коэффициенты перед соответствующей фиктивной переменной показывают, насколько в среднем изменяется значение результативного признака при включении того или иного факторного признака, измеренного в номинативной шкале, по сравнению с отсутствием этого признака (присутствием другого признака).
Если используется номинативная или порядковая переменная, изменяющаяся по более, чем 2 категориям, создают столько фиктивных переменных, сколько имеется категорий изменения признака, но в регрессионную модель включаются не все фиктивные переменные, а на одну меньше (не включается любая из фиктивных переменных). В этом случае коэффициент перед каждой фиктивной переменной показывает, на сколько изменяется среднее значение результативного признака для соответствующей переменной по сравнению с переменной, не включенной в модель
Любая регрессионная модель позволяет обнаружить только количественные зависимости, которые не обязательно отражают причинные зависимости, т.е. влияние одного фактора на другой. Гипотезы о причинной связи признаков должны дополнительно обосновываться с помощью теоретического анализа, содержательно объясняющего изучаемое явление или процесс.
Проверка обоснованности регрессионной модели 1) качественный анализ возможного вида функции с точки зрения содержания и законов развития объекта исследования (если, например, динамика роста цен на определенный товар не предполагает резкого изменения, то для прогнозирования этого процесса не следует использовать квадратическую или кубическую регрессионную модель); 2) проверка адекватности модели, т.е. ее соответствия имеющимся эмпирическим данным; 3) оценка статистической значимости модели в целом и ее параметров, т.е. оценка их «неслучайности»: насколько параметры модели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств.
Адекватность регрессионных моделей – это их соответствие фактическим статистическим данным. Регрессионная модель считается адекватной, если теоретические значения зависимой переменной (т.е. предсказанные на основе модели) согласуются с результатами наблюдений.
Исходное предположение для проверки адекватности регрессионной модели Зависимость между прогнозируемым (теоретическим) значением результативного признака (ŷ) и факторами (x i ) имеет вид ŷ=f(x i )+, где – некоторая случайная величина, связанная с влиянием неконтролируемых или неучтенных факторов, случайных ошибок измерения. Из-за возникают ненулевые остатки, т.е. разности между теоретическими и эмпирическими значениями (y i –ŷ i ). Предполагается, что эти остатки независимы (некоррелированны) и распределены по нормальному закону с нулевым средним и одинаковой дисперсией. Это предположение легко проверить путем построения диаграммы остатков.
Для адекватной модели, кроме некоррелированности остатков и их нормального распределения, должно выполняться условие гомоскедаксичности, т. е. постоянства дисперсии ошибок для всех наблюдений. Оценка выполнимости этого условия проводится по графику остатков: если все остатки укладываются в симметричную относительно нулевой линии полосу, то, можно считать, что дисперсия ошибок наблюдений постоянна. На графике распределения значений зависимой переменной от одной из независимых переменных не должно быть сильных «раздуваний». Значительное отклонение от этого условия называется гетероскедастичностью. Для оценки гетероскедастичности разработаны и специальные статистические тесты.
Общий подход к проверке адекватности полученной модели Нахождение остатков, т.е. значения суммы квадратов разностей между наблюдаемыми и предсказанными моделью значениями переменной y: SSe (от Sum of Squares). Остаточная дисперсия: Скорректированная оценка остаточной дисперсии Корень квадратный из этого показателя называется стандартной ошибкой оценки
Другие показатели адекватности регрессионной модели Коэффициент множественной корреляции (R) Коэффициент множественной детерминации R 2 «Скорректированный R 2 » (adjusted R 2 )
Коэффициент множественной корреляции – это мера линейной связи зависимой переменной с множеством независимых переменных, включенных в модель. На практике коэффициент множественной корреляции можно определить как коэффициент парной корреляции между теоретическими и эмпирическими значениями результативного признака. Для парной регрессии R равен коэффициенту корреляции между y и x.
Принцип парсимонии Нужно объяснять изменчивость результативного признака с помощью минимального числа независимых переменных. Чем проще модель, обеспечивающая приемлемую адекватность, тем она лучше. Более простой модели проще придать «разумную» интерпретацию, т.е. объяснить изменение результативного признака с точки зрения содержательно-смысловых, а не абстрактно-математических связей.
Проверка модели на статистическую значимость («существенность», «достоверность») Выясняют, насколько коэффициенты множественной корреляции и детерминации, а также каждый из вычисленных параметров регрессии (включая коэффициент a0 – постоянный член регрессии) характерен для генеральной совокупности, т.е. не является ли полученное значение результатом действия случайных причин или стечения случайных обстоятельств.
В общем случае при проверке статистической значимости коэффициентов регрессии βi (i = 0, …, n) нулевая гипотеза формулируется как Ho:βi=0, а альтернативная – Ha:βi0. Если нулевая гипотеза отклоняется, соответствующая переменная может быть включена в регрессионное уравнение, иначе – переменную не следует включать. На практике статистическая значимость параметров модели оценивается с помощью статистических пакетов, определяющих p-уровень значимости, на основе которого принимают решение об отклонении или невозможности отклонения нулевой гипотезы.
Beta – стандартные β-коэффициенты регрессионной модели (стандартные коэффициентами регрессии) Знак β-коэффициента соответствует знаку корреляции между зависимой переменной и данной независимой переменной. По абсолютной величине β-коэффициента можно судить о влиянии данной независимой переменной на зависимую: чем больше коэффициент по абсолютному значению, тем сильнее это влияние, т.е. тем выше информативность этой переменной для прогнозирования значений результативного признака. Если β -коэффициент близок к 0, связь между переменными отсутствует. В случае парной регрессии β-коэффициент в точности равен коэффициенту корреляции между результативным и факторным признаками.
Статистическая значимость параметров – не единственный критерий принятия окончательного решения о включении переменной в модель. Другими критериями являются экономический смысл переменных и их возможных связей, изменение R 2 и скорректированного R 2, наличие и степень мультиколлинеарности и др.
Минимально необходимое число наблюдений для построения регрессионной модели (n) должно быть не меньше числа всех признаков, включенных в модель (m), в т.ч. результативного. Но рекомендуется использовать не менее 10 наблюдений на одну независимую переменную.
Построение простых регрессионных моделей в SPSS Меню Analyze – Regression - Linear Зависимая переменная переносится в поле Dependent. Независимые переменные (факторные признаки) – в поле Independent(s).
После нажатия кнопки Statistics появляется диалоговое окно Linear Regression: Statistics. Здесь выбираются параметры: Regression Coefficient Estimates – оценки значимости коэффициентов регрессионной модели; Regression Coefficient Confidence Intervals – доверительные интервалы для коэффициентов регрессионной модели; Model fit – параметры соответствия модели эмпирическим данным (коэффициенты множественной корреляции, множественной детерминации и др.); Descriptives – описательная статистика по эмпирическим данным (среднее арифметическое, стандартное отклонение и объем выборки); Collinearity diagnostics – параметры для оценки мультиколлинеарности (связанность независимых переменных).
Раздел Model Summary содержит статистику соответствия модели эмпирическим данным: коэффициент множественной корреляции R, коэффициент множественной детерминации (R Square), скорректированный R-квадрат (Adjusted R Square), стандартная ошибка оценки зависимой переменной (Std. Error of the Estimate).
Раздел ANOVA показывает суммы квадратов отклонений (сумму, обусловленную регрессией – Regression, остаточную – Residual, общую – Total), F- критерий Фишера, уровень значимости модели (Sig), по которому можно судить о достоверности построенной связи переменных.
В разделе Coefficients приводятся значения параметров регрессионной модели и показатели их статистической значимости (постоянный член регрессионного уравнения обозначен Constant): B – значения коэффициентов регрессионного уравнения (Unstandardized Coefficients B); Std. Error – стандартная ошибка коэффициентов; Standardized Coefficients Beta – стандартные β-коэффициенты регрессионной модели; t – эмпирическое значение t-критерия для проверки статистической значимости соответствующего коэффициента; Sig – p-уровень значимости коэффициентов (вероятность ошибочного принятия гипотезы о существовании ненулевых коэффициентов регрессии); Confidence Interval – доверительный интервал изменения соответствующего коэффициента регрессии (по умолчанию строится 95% интервал). По величине стандартной ошибки и доверительному интервалу можно судить о том, в каких пределах могут изменяться значения коэффициентов и соответствующие им реальные экономические показатели (например, эластичность спроса) в генеральной совокупности. Collinearity Statistics - показатели мультиколлинеарности. Значение показателя VIF должно быть меньше 10, чтобы считать, что эффект мультиколлинеарности не наблюдается, и модель с этой точки зрения можно считать приемлемой.
Показатели отчета Multiple R – коэффициент множественной корреляции R 2 – коэффициент множественной детерминации adjusted R 2 – скорректированный коэффициент множественной детерминации Standard error of estimate - стандартная ошибка оценки Sig (p или p-level) – p-уровень значимости (всей модели или ее параметров) Constant – константа (пост. параметр) модели Std. Err – стандартная ошибка оценки параметра
Построение линии тренда (для парной регрессии) Меню Graphs - Scatter – Simple В поле Y Axis перенести зависимую переменную (в данном случае – «спрос»), а в поле X Axis – независимую переменную (например «цена») Дважды щелкнуть на полученной диаграмме. В Chart Editor в меню Chart выбрать Options, затем в разделе Fit Line отметить Total и нажать на кнопку Fit Options. В диалоговом окне Fit Line выбрать тип аппроксимирующей функции (например, линейная функция – Linear Regression), при необходимости отметить параметры Include constant in equation (включение константы в регрессионное уравнение) и Display R-square in legend (вывод на график значения R 2 )
Построение доверительных интервалов прогнозных значений зависимой переменной Раздел Regression Prediction Line(s) По умолчанию строятся 95% доверительные интервалы. При необходимости этот параметр можно изменить, задав нужное значение в окне Confidence Interval. Выбор параметра Mean приведет к построению интервала средних значений результативного признака. Это означает, что если бы для всех элементов генеральной совокупности, из которой извлечена данная выборка, имеющих некоторое определенное значение x, измерить значение признака y, то среднее значение прогнозируемого признака y для данного x будет находиться в данном интервале с вероятностью 95%. Ширина доверительного интервала заметно расширяется у границ изменения факторного признака по выборке. Соответственно, в случае экстраполяции (т.е. при выходе за эти границы), точность прогнозирования значительно уменьшается. Выбор параметра Individual приведет к построению более широкого доверительного интервала.
Оценка вида парной регрессионной зависимости Инструмент Curve Estimation (меню Analyze – Regression). Вводится зависимая переменная (Dependent(s)) и одна из независимых переменных (Variable) Отмечаются виды регрессионных моделей, которые должны оцениваться на соответствие эмпирическим данным и статистическую значимость: линейная (Linear), квадратичная (Quadratic), кубическая (Cubic), логарифмическая (Logarithmic), экспоненциальная (Exponential), S-кривая (S), обратная (Inverse), логистическая (Logistic), показательная (Compound) и др. По умолчанию выбираются опции Include constant in equation (включать константу в уравнение) и Plot model (строить график). Для проверки статистической значимости связи выбирается также Display ANOVA table (выводить результаты анализа ANOVA).
Фрагмент отчета
Прогнозирование на основе регрессионной модели В таблицу исходных данных должны быть предварительно включены значения факторных признаков, для которых определяются прогнозные значения y. Значения результативного признака в этих наблюдениях неизвестны (должны прогнозироваться), поэтому в SPSS они представляются как пропущенные с помощью символа «,». Инструмент Save (Прогноз) активизируется после нажатия на кнопку Save в диалоговых окнах, где устанавливаются параметры построения регрессионной модели В окне Linear Regression Save в разделе Predicted values (прогнозируемые значения) выбирается опция Unstandardized (нестандартизованные значения). Для оценки границ доверительного интервала, в котором будет находиться прогнозируемое значение, можно выбрать параметр Mean и (или) Individual из раздела Prediction Intervals
Анализ остатков Если в диалоговом окне Linear Regression Save отметить Residuals Unstandardized, то в рабочей области данных появляется дополнительная переменная res_1, содержащая т.н. остатки (отклонения теоретических значений результативного признака от эмпирических). Это может быть полезным при проверке качества построенной регрессионной модели. Остатки должны «появляться» случайно (не систематически) и подчиняться нормальному распределению. Это можно проверить по гистограмму остатков, которую можно построить с помощью инструмента Histogram из меню Graph. Такую же гистограмму (но для стандартизованных значений со средним 0 и стандартным отклонением 1), а также график для проверки нормальности остатков можно получить, нажав на кнопку Plots в диалоговом окне Linear Regression и выбрав в появившемся окне Linear Regression Plots параметры Histogram и Normal Probability раздела Standardized Residual Plots. В случае проверки качества парной регрессии можно также построить график, по оси ординат которого откладываются остатки, а по оси абсцисс – значения независимой переменной (с помощью инструмента Graphs – Scatter – Simple). Полученная диаграмма распределения должна свидетельствовать об отсутствии корреляции, а точки должны выстраиваться в симметричную относительно нулевой линии полосу.
Построение нестандартных нелинейных регрессионных моделей Меню Analyze – Regression - Nonlinear В окне Nonlinear Regression зависимую переменную нужно перенести в соответствующее поле (Dependent) В поле Model Expression вводится формула предполагаемой связи зависимой переменной и одной или нескольких независимых переменных, используя соответствующие символы и функции В формулу связи кроме имен независимых переменных должны быть включены коэффициенты – параметры регрессионной модели, которые будут оцениваться с помощью итерационной процедуры Задать начальные значения параметров регрессии, щелкнув на кнопке Parameter (параметр). В появившемся диалоговом окне укажите в поле имен (Name) имя первого параметра, а в поле Starting value – его начальное значение, затем щелкните на Add (добавить), и так для каждого параметра регрессионной модели
Пошаговая регрессия (Stepwise Regression) Обратная пошаговая регрессия заключается в том, что последовательно исключаются наименее значимые факторы. На нулевом шаге проводится регрессионный анализ для всех факторов. Каждый фактор проверяется на значимость. Если статистический показатель значимости меньше критического значения, называемого величиной F- удаления (F-to remove), то фактор исключается из анализа и строится новое уравнение регрессии по оставшимся факторам (по умолчанию критический p- уровень значимости для величины F-удаления задается на уровне 0,1).
Пошаговая регрессия (Stepwise Regression) Прямая пошаговая регрессия организована в противоположном направлении: на первом шаге в уравнение регрессии включается фактор, имеющий наибольший коэффициент корреляции с y и проверяется адекватность и значимость модели. Если модель значима, включается следующий фактор и вычисляется F-статистика для каждой переменной модели. Если статистический показатель значимости какой-либо переменной меньше величины F-удаления, то фактор исключается, если больше – сохраняется, и в уравнение включается следующая переменная. Поскольку проверка всех выбранных переменных осуществляется на каждом шаге, может оказаться, что переменная, включенная в уравнение на предыдущем шаге, может быть исключена на следующих шагах. Процедура пошаговой регрессии позволяет значительно сократить объем работы при конструировании адекватной и значимой регрессионной модели.
Построение линейных моделей методом пошаговой регрессии Построение регрессионных моделей на основе пошаговой регрессии в SPSS практически не отличается от процедуры построения множественной линейной регрессии. Выбор режима пошаговой регрессии осуществляется в окне Linear Regression в поле Method, все остальные действия аналогичны рассмотренным выше