Лекция 5 множественная регрессия и корреляция.
Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучение функции издержек производства, в макроэкономических расчетах.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
например Современная потребительская функция чаще всего рассматривается как модель вида С – потребление; у – доход; P – цена, индекс стоимости жизни; M – наличные деньги; Z – ликвидные активы;
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели.
Условия включения факторов при построении множественной регрессии. 1. Они должны быть количественно измеримы. Если необходимо включить модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть пронумерованы.
2. Факторы не должны быть интеркоррелированы.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.
Так, в уравнении предполагается, что факторы и независимы друг от друга, т.е. Тогда можно говорить, что параметр измеряет силу влияния фактора на результат при неизменном значении фактора. Если же, то с изменением фактора фактор не может оставаться неизменным. Отсюда и нельзя интерпретировать как показатели раздельного влияния и на у.
Пример. Рассмотрим регрессию себестоимости: единицы продукции (руб.,у) от заработной платы работника (руб., ) и производительности его труда (единиц в час, ): = 0,95
Отбор факторов при построении множественной регрессии.
отбор факторов обычно осуществляется в две стадии на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют существенность включения в уравнение регрессии каждого из факторов.
Коэффициенты интеркорреляции – коэфф. корреляции между объясняющими переменными. Считается, что две переменные явно коллинеарный, т.е находятся между собой в линейной зависимости, если r x i x j > 0,7. Поэтому одним из условий построения уравнения множественной регрессии является независимость действия факторов.
Если факторы явно коллинеарный, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.
Предпочтение отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточной тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:
1 0,8 1 0,7 0,8 1 0,6 0,5 0,2 1
Очевидно, что факторы x и z дублируют друг друга. В анализ целесообразно включить фактор z, а не x, хотя корреляция z с результатом y слабее, чем корреляция фактора x с y (r yz <r yx ), но зато слабее, чем меж факторная корреляция r zv <r xv. Поэтому в данном случае в уравнении множественной регрессии включаются факторы z, v.
пример 1 0,3 1 0,7 0,75 1 0,6 0,5 0,8 1
По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью.
Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции была бы единичной матрицей т.е.
Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:
Таким образом, чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии.
Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов.
Сравнивая между собой коэффициенты множественной детерминации факторов оставляем в уравнении факторы с минимальной величиной коэффициента множественной детерминации.
При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться; и Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор не улучшает модель и практически является лишним фактором.
Так, если для регрессии, включающих пять факторов, коэффициент детерминации составил 0,857 и включение шестого фактора дало коэффициент детерминации 0,858, то вряд ли целесообразно дополнительно включать в модель этот фактор.