ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11.

Презентация:



Advertisements
Похожие презентации
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Advertisements

Лекция 3 множественная регрессия и корреляция. Уравнение множественной регрессии.
Регрессия в эконометрических исследованиях (продолжение).
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Временные ряды в эконометрических исследованиях..
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучение функции.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, изучении доходности акций, изучении.
Лекция 4 множественная регрессия и корреляция. ( продолжение )
Лекция 10 Временные ряды в эконометрических исследованиях.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Оценка существенности параметров линейной регрессии и корреляции.
Стохастические игры Игры с «природой». Основные определения К теории игр примыкает так называемая теория статистических решений. Зачастую принятие управленческих.
Модели в виде систем одновременных уравнений. Оценка параметров структурной формы модели Предполагаем, что модель идентифицируема. Для иллюстрации этого.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Модели теории логистики Модель «точно в срок». Аналитическая модель Профессор А. А. Смехов впервые рассматривает модель доставки грузов «точно в срок»,
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Транксрипт:

ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11

С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: иметь высокую вариабельность; быть сильно коррелированными с объясняемой переменной; быть слабо коррелированными между собой; быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*.

Объясняющие переменные подбираются с помощью статистических методов. Процедура подбора переменных состоит из следующих этапов: 1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать Х 1 Х 2,..., Х т.

2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х 1, Х 2,..., Х т в виде

3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности. 4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными. 5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры

Исключение квазинеизменных переменных Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации где Xj среднее арифметическое переменной X;.

тогда как Sj стандартное отклонение переменной X j. Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству v i

Пример 1. Для описания объема производства на предприятии (Y), измеряемого в млн руб., рассматриваются четыре величины: Х 1 количество работающих, тыс. чел.; Х 2 стоимость машин и оборудования, млн руб.; Х 3 длительность простоя машин, дней; Х 4 инвестиционные затраты, млн руб. Значения конкретных переменных за период гг. представлены в табл. 1.

При заданном критическом значении коэффициента = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью. v*v* Стандартные отклонения потенциальных объясняющих переменных равны соответственно:

Коэффициенты вариации рассматриваемых переменных принимают следующие значения: Поскольку значение коэффициента Х 4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменной и удаляется из множества потенциальных объясняюших переменных

Вектор и матрица коэффициентов корреляции Для оценивания силы линейной зависимости объясняемой переменной Y от потенциальных объясняющих переменных Х 1, Х 2,.., Х т рассчитываются коэффициенты корреляции:

Эти коэффициенты представляются в виде вектора корреляции:

Коэффициенты корреляции между потенциальными объясняющими переменными Х 1, Х 2,..., Х т рассчитываются по формуле

образуют матрицу корреляции R: Матрица R симметрична, т. е. r ij = r ji.

Метод анализа матрицы коэффициентов корреляции Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К

Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции: где /* значение t-распределения Стьюдента для заданного уровня значимочти и для (п 2) степеней свободы.

Критическое значение коэффициента корреляции r* также может априорно задаваться аналитиком. Процедура подбора объясняющих переменных состоит из следующих этапов: 1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(r i )< r* поскольку они несущественно коррелируют объясняемой переменной.

2.Из оставшихся переменных объясняющей признается такая переменная Х h, для которой \r h \ = max{r i }, поскольку X h является носителем наибольшего количества информации об объясняемой переменной. 3. Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству r hi > r* поскольку эти переменные слишком сильно коррелируют с объясняющей переменной, и, следовательно, только воспроизводят представляемую ею информацию. Этапы 13 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных.

Метод показателей информационной ёмкости Идея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R 0 и матрица R. Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2 n -1.

Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости. Индивидуальные показатели информационной ёмкости в рамках конкретной комбинации рассчитываются по формуле

В этом выражении l обозначает номер переменной, а т l количество переменных в рассматриваемой комбинации. Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле

Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1]. Их значения оказываются тем больше чем сильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой. В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя информационной емкости.

Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающей производство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии. Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 урожай кормовой кукурузы, Х 2 доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х 3 средние закупочные цены мяса в живом весе, Х 4 использование комбикормов.

На основе статистических данных за гг. построен вектор коэффициентов корреляции между переменной У и переменными Х 1 Х 2, Х 3, Х4, а также матрица коэффициентов корреляции между переменными X 1,Х 2, Х 3, Х 4 :

Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = = 15 комбинаций переменных Перечислим все эти комбинации:

Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом

Для двухэлементной комбинации С 5 = (Х 1, Х 2 ) рассчитываются два индивидуальных показателя информационной емкости: h 51, относящийся к переменной Х 1, и h 52, относящийся к переменной Х 2 : Интефальный показатель информационной емкости этой комбинации равен: H 5 = h 51 + h 52 = 0, ,390 = 0,503.

После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем:

В свою очередь, рассмотрим трехэлементную комбинацию С 11 = {Х1, Х 2, X 3 ). Рассчитаем индивидуальные показатели информационной ёмкости:

Интегральный показатель информационной емкости этой комбинации равен: После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем:

Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х 2, Х 3 и Х 4 (комбинация С 15 ):

Интегральный показатель информационной ёмкости равен: H 15 = h 15,1 + h 15,2 + h 15,з + h 15,4 = 0,585. Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С 9, включающей переменные Х 2 и Х 4. Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ 2 доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х 4 использование комбикормов. Модель примет вид