Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской индустрии Раздел 2.Количественные и вероятностные методы исследования Тема 2.4.Линейные зависимости, корреляционный и регрессионный анализ. Модель линейной регрессии, вычисление ее параметров.
2 Определения Ассоциация – связь между переменными Регрессия – описание природы связи Корреляция – измерение тесноты связи сильная ли связь между ежемесячными расходами на рекламу и ежемесячным объемом продаж
3 Линейная регрессия - связь между переменными посредством линейной модели. Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес. Рис Пример линейной связи
4 Пример нелинейной связи Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес.
5 Модель Θ позволяет упростить и понять реальную ситуацию объяснить ее путем последующего анализа сделать прогнозы развития осуществлять управление ситуацией Для решения этих задач модель должна быть достаточно реалистичной.
6 Пример Ситуация: поставки на короткие расстояния внутри города. ζ: оценить ω услуги, определив t поставки на любом расстоянии 1. Реальность. Факторы, помимо пройденного расстояния, которые повлияют на затраченное t: пробки на дорогах, время суток, дорожные работы, погода, дорожная система, водитель, вид транспорта и т.п..
7 Модель (примера) 2. Упрощение. Рассматривается связь между расстоянием, измеряемым кратчайшим маршрутом на линиях, и затраченным t. 3. Ď. t и расстояние каждой десятой поездки, произвольно выбранный час и день 4. Обозначения. Расстояние – х, t – у.
8 Данные о расстоянии и времени поставок Расстояние, мильВремя, мин 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,
9 Анализ 1. t расстояние 2. линейная Θ будет приближением к действительности к истинному t и расстоянию 3. множество различных расстояний при различном t 4. Необходимо найти способ определения точек этой линии по исходным Ď
10 Зависимость времени поставок от расстояния по совокупности случайных данных о поставках Время одной поставки, мин Расстояние одной поставки, миль
11 Распределение t поставок при определенном расстоянии Время, мин Расстояние, миль
12 Линейная регрессия ŷ = a + bx а - пересечение с осью у b - угол наклона линии регрессии (коэффициент регрессии) х 1 y 1 фактическое t х 1 ŷ 1 прогнозируемое t
Линейный прогноз: функция ТЕНДЕНЦИЯ (Y; X; X + ; c) Y – диапазон, содержащий значения Y [Y] X [X] Х + [новые значения X]: ТЕНДЕНЦИЯ соответствующие значения Y (X + опущен совпадет с Х; Х и X + опущены Х = [1, 2, 3..] размера [Y]) c – константа: с = t опущен вычисляет a; с = f 0 опущен a = 0, b подбирается так, чтобы ŷ = bx ввод Y, X вычисляется ŷ без вычисления а и b 13
Функция НАКЛОН (Y; X) Вычисляет коэффициент b (скорость изменения вдоль Ox) Y [Y] X [X] Функция ОТРЕЗОК (X; Y) Вычисляет коэффициент a X [X] Y [Y] 14
15 Ошибка е - ошибка (отклонение, остаток) e 1 = y 1 – ŷ 1 линейная регрессия линия наилучшего подбора: min Σ e i 2 (метод наименьших квадратов)
Формулы n – размер выборки b = Cov(x, y) / V(x) a = My – b Mx 16
17 Диаграмма x1x1 e x y Общая вариация необъяснимая объяснимая ŷ y ŷ =a+bx линия регрессии y =ў среднее значение y ў
18 Теснота линейной связи Связь х у существует: диаграмма, линия регрессии + линия у = y х 1 несколько точек с разными значениями у, но(!) y = ŷ + e линейная связь только частично объясняет вариации значений у
19 Весь массив точек Суммарная вариация (общая) (y - y ) 2 С учетом линейной связи (объясненная вариация) (ŷ - y ) 2 Не объясняется линейной связью (влияние факторов, не включенных в линейную Θ ) (y - ŷ) 2
20 объясненная вариация / общая вариация (мера линейности связи) выражается в % и показывает дисперсию у, которая объясняется изменением х, включенной в Θ полная линейная связь r 2 = 1 (100%) связь отсутствует r 2 = 0 r 2 не определяет или у с ростом x r Коэффициент детерминации
21 r = (r 2 ): | r | < 1 Знак r = знаку b r > 0 положительная связь ( x y) Коэффициент корреляции r
22 Коэффициент корреляции r сила линейной связи точки на графике будут лежать более близко к прямой линии, r 1 r 0, а точки будут более рассеяны r = 0 линейной связи не существует (!! не значит, что не существует вообще никакой связи)
23 Связи между переменными x y x y r 0r 0 r 0 Рис Случай отсутствия связи между переменными. Рис Сильная нелинейная связь между переменными.