ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11
С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: иметь высокую вариабельность; быть сильно коррелированными с объясняемой переменной; быть слабо коррелированными между собой; быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*.
Объясняющие переменные подбираются с помощью статистических методов. Процедура подбора переменных состоит из следующих этапов: 1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать Х 1 Х 2,..., Х т.
2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х 1, Х 2,..., Х т в виде
3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности. 4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными. 5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры
Исключение квазинеизменных переменных Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации где Xj среднее арифметическое переменной X;.
тогда как Sj стандартное отклонение переменной X j. Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству v i
Пример 1. Для описания объема производства на предприятии (Y), измеряемого в млн руб., рассматриваются четыре величины: Х 1 количество работающих, тыс. чел.; Х 2 стоимость машин и оборудования, млн руб.; Х 3 длительность простоя машин, дней; Х 4 инвестиционные затраты, млн руб. Значения конкретных переменных за период гг. представлены в табл. 1.
При заданном критическом значении коэффициента = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью. v*v* Стандартные отклонения потенциальных объясняющих переменных равны соответственно:
Коэффициенты вариации рассматриваемых переменных принимают следующие значения: Поскольку значение коэффициента Х 4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменной и удаляется из множества потенциальных объясняюших переменных
Вектор и матрица коэффициентов корреляции Для оценивания силы линейной зависимости объясняемой переменной Y от потенциальных объясняющих переменных Х 1, Х 2,.., Х т рассчитываются коэффициенты корреляции:
Эти коэффициенты представляются в виде вектора корреляции:
Коэффициенты корреляции между потенциальными объясняющими переменными Х 1, Х 2,..., Х т рассчитываются по формуле
образуют матрицу корреляции R: Матрица R симметрична, т. е. r ij = r ji.
Метод анализа матрицы коэффициентов корреляции Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К
Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции: где /* значение t-распределения Стьюдента для заданного уровня значимочти и для (п 2) степеней свободы.
Критическое значение коэффициента корреляции r* также может априорно задаваться аналитиком. Процедура подбора объясняющих переменных состоит из следующих этапов: 1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(r i )< r* поскольку они несущественно коррелируют объясняемой переменной.
2.Из оставшихся переменных объясняющей признается такая переменная Х h, для которой \r h \ = max{r i }, поскольку X h является носителем наибольшего количества информации об объясняемой переменной. 3. Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству r hi > r* поскольку эти переменные слишком сильно коррелируют с объясняющей переменной, и, следовательно, только воспроизводят представляемую ею информацию. Этапы 13 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных.
Метод показателей информационной ёмкости Идея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R 0 и матрица R. Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2 n -1.
Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости. Индивидуальные показатели информационной ёмкости в рамках конкретной комбинации рассчитываются по формуле
В этом выражении l обозначает номер переменной, а т l количество переменных в рассматриваемой комбинации. Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле
Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1]. Их значения оказываются тем больше чем сильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой. В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя информационной емкости.
Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающей производство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии. Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 урожай кормовой кукурузы, Х 2 доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х 3 средние закупочные цены мяса в живом весе, Х 4 использование комбикормов.
На основе статистических данных за гг. построен вектор коэффициентов корреляции между переменной У и переменными Х 1 Х 2, Х 3, Х4, а также матрица коэффициентов корреляции между переменными X 1,Х 2, Х 3, Х 4 :
Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = = 15 комбинаций переменных Перечислим все эти комбинации:
Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом
Для двухэлементной комбинации С 5 = (Х 1, Х 2 ) рассчитываются два индивидуальных показателя информационной емкости: h 51, относящийся к переменной Х 1, и h 52, относящийся к переменной Х 2 : Интефальный показатель информационной емкости этой комбинации равен: H 5 = h 51 + h 52 = 0, ,390 = 0,503.
После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем:
В свою очередь, рассмотрим трехэлементную комбинацию С 11 = {Х1, Х 2, X 3 ). Рассчитаем индивидуальные показатели информационной ёмкости:
Интегральный показатель информационной емкости этой комбинации равен: После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем:
Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х 2, Х 3 и Х 4 (комбинация С 15 ):
Интегральный показатель информационной ёмкости равен: H 15 = h 15,1 + h 15,2 + h 15,з + h 15,4 = 0,585. Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С 9, включающей переменные Х 2 и Х 4. Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ 2 доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х 4 использование комбикормов. Модель примет вид