Тема 2. Регрессионный анализ : постановка задачи и идентификация линейной модели 1.1. Вспомогательные сведения 1.2. Постановка задачи регрессионного анализа 1.3. Оценка параметров линейной регрессионной модели методом 1 МНК 1.4. Задания к теме 2 © Кокодей Т. А.,
Перемножение матриц ( АхВ ):
Нахождение определителя матрицы (разложение по первой строке):
Нахождение обратной матрицы
Дисперсия (σ 2 ) – мера вариации признака Y, определяемая как средняя из отклонений признака, возведенных в квадрат. Общая формула выборочной дисперсии как меры разброса значений признака: n- число наблюдений - выборочное среднее
Регрессия (Пирсон 1908 г.) – количественная зависимость какой-либо величины y (регрессанта, эндогенной переменной) от некоторой другой величины или от нескольких величин х i (регрессоров, экзогенных переменных). Задача регрессионного анализа: по имеющимся данным n наблюдений за совместным изменением переменных y и x 1 …x n оценить функциональную зависимость y от x 1 …x n, наилучшим образом описывающую данные наблюдений. Характер данной зависимости объясняет регрессионная модель (уравнение регрессии), которая может быть: - линейной или нелинейной, - однофакторной (парной) или многофакторной (множественной).
Примеры задач регрессионного анализа : 1. По имеющейся совокупности результатов наблюдений установить количественную взаимосвязь между средней дневной выручкой (у), посещаемостью ресторана (средним числом посетителей в день, х 1) и средней ценой основного блюда (х 2). Влияют ли х-ы на у? Имеются выборочные данные (условные) по семи западно-европейским ресторанам за 2013 г. Построить модель y=a 0 +a 1 *x 1 +а 2 *х 2 +u методом 1МНК Ресторан yx1x2 Tramshed Medieval Banquet Kaspar's Cosmo Leon HD Diner Castello
1. Tramshed, London 2. Тематический ресторан The Medieval Banquet, London
3. Kaspars Seafood Bar and Grill (Savoy Hotel), London 4. Ресторан-фуршет Cosmo, Coventry
5. Ресторан морской пищи Leon, Paris
6. Ретро-ресторан с живой музыкой 50-х HD Diner, Paris 7. Ресторан-пиццерия Castello, Milan
2. Установить, оказывает ли влияние цена билета в музей (х) на среднюю длину очереди (у) по данным (условным) выборки из семи основных западно-европейских музеев (за 2013 г.)? Т.е. оценить параметры линейной однофакторной регрессионной модели y=a 0 +a 1 *x+u обычным методом наименьших квадратов (1МНК) Музей yx Версаль Музей естественной истории, Лондон 8500 Эйфелева башня Виндзорский замок, Англия Английский парламент 2010 Нотрдам Duomo, Милан 100
Примеры количественных переменных (показателей), между которыми можно установить взаимосвязи: - среднее число человек в торговом зале магазина - средний чек на посетителя (музея, ресторана, магазина) - посещаемость как среднее число посетителей в день (музея, ресторана, магазина, театра) - средняя длина очереди у кассы (музея, магазина) -средняя цена основного блюда в ресторане -средний размер тарелки в ресторане -средняя цена товара в магазине -оборачиваемость одного посадочного места (стола) ресторана или среднее число посадок в день -средняя дневная выручка или прибыль (музея, ресторана, магазина, театра) -чистая прибыль -рентабельность (музея, ресторана, магазина, театра) -доход среднего клиента -возраст среднего клиента -время проведения банкета -оценка работы официанта, продавца-консультанта или актёра по 10-ти бальной шкале
Существует ли зависимость? чек_клиента=а 0+а 1*возраст_кл-та+ u u -наличие скидочной карты, доход посетителя, повода для посещения кафе, настроения, размера тарелки и т.д.
Подбор функциональной формы однофакторной модели регрессии по форме облака рассеяния исходных данных: линейная квадратичная Y = X+u Y = X + 2 X 2 +u
степенная x и y независимы
Формулы (1) и (2) представляют собой линейные модели однофакторной (парной) и многофакторной (множественной) регрессии соответственно: (1) (2) u учитывает влияние неучтённых в модели факторов и ошибки наблюдений. Гипотеза H1: Предполагаем, что переменные х i оказывают влияние на переменную у.
Y = X Y X5X5 X4X4 X1X1 X2X2 XiXi В регрессионной функции каждому значению одной переменной ( х ) соответствует условное математическое ожидание другой ( у ): График данной функции – это линия регрессии В экономических исследований каждому значению переменной х может соответствовать ( множество значений ) условное распределение переменной у : Однофакторная линейная регрессионная модель : Y = X Y = X+u Линия регрессии Фактическое Модельное
Обычный или одношаговый метод наименьших квадратов (1МНК или OLS – Ordinary Least Squares) позволяет получить оценки параметров а 0 и а 1, при которых достигается наиболее точная подгонка модели к исходным данным за счёт минимизации суммы квадратов остатков (ошибок ): Следовательно, параметры регрессионного уравнения оцениваются по формуле (3): (3)
у Пусть имеем выборку из 4- х предприятий - точек (n=4), каждое характеризуется уровнем рентабельности ( у i ) и средней ценой продукта ( х i ): А 1 =(x 1, y 1 ) А 2 =(x 2, y 2 ) А 3 =(x 3, y 3 ) А 4 =(x 4, y 4 ) А1А1 А2А2 А3А3 А4А4 х Предполагаем, что существует теоретическая прямая ( линия регрессии ), которая наилучшим образом проходит через них. Задача 1 МНК : оценить параметры уравнения регрессии так, чтобы линия регрессии была наилучшим приближением ( лучше всего подходила ) к исходным данным. u4u4
Пример 1: оценить степень и характер влияния ( в рамках выборки ) экзогенной переменной х ( фактора ) на величину эндогенной переменной у по исходным данным : Правильно ли предположение, что поведение эндогенной переменной (y) в рамках рассматриваемой выборки из четырёх наблюдений зависит от значения фактора (x)?
Предположение о влиянии х на у в рамках выборки правильное
Проверим правильность решения в Gretl ( получаем тот же результат)
Пример 2: оценить степень и характер влияния (в рамках выборки) экзогенных переменных x 1 и x 2 ( факторов ) на величину эндогенной переменной у по исходным данным : Правильно ли предположение, что поведение эндогенной переменной ( у ) в рамках рассматриваемой выборки из пяти наблюдений зависит от значений факторов ( х )?
Предположение о влиянии обоих факторов (х) на (у) в рамках выборки правильное
Проверим правильность решения в Gretl ( получаем тот же результат)
1. Предположить, какие количественные взаимосвязи вида y=a 0 +a 1 x 1 +…+a n x n +u могут существовать между нижеперечисленными переменными, описывающими ресторан, музей, магазин или театр. Данный список можно дополнить собственными количественными переменными. Предложить экономическую интерпретацию случайной ошибки u, т.е. определить какие неучтённые в модели факторы также влияют на «у». Показатели: - среднее число человек в торговом зале магазина - средний чек на посетителя (музея, ресторана, магазина) -посещаемость как среднее число посетителей в день (музея, ресторана, магазина, театра) - средняя длина очереди у кассы (музея, магазина) - средняя цена основного блюда в ресторане - средний размер тарелки в ресторане - средняя цена товара в магазине - оборачиваемость одного посадочного места (стола) ресторана или среднее число посадок в день
- средняя дневная выручка или прибыль (музея, ресторана, магазина, театра) - чистая прибыль - рентабельность (музея, ресторана, магазина, театра) - доход среднего клиента - возраст среднего клиента - время проведения банкета -оценка работы официанта, продавца-консультанта или актёра по 10-ти бальной шкале 2. Ответить на вопросы : - дайте определение экзогенной и эндогенной переменной, чем они отличаются от регрессора и регрессанта соответственно - что такое линия регрессии - в чём отличие уравнения регрессии от регрессионной модели - какова основная идея обычного метода наименьших квадратов (1МНК), - как выбрать функциональную форму линии регрессии - в чем заключается экономический смысл случайной составляющей регрессионного уравнения -в каком случае линии регрессии по методу наименьших квадратов не существует