В.И. Дихтяр Теория и методология социально- экономических исследований в туристской индустрии Раздел 2. Статистический анализ данных в сфере туризма Тема 2.1. Оценки параметров. Доверительные интервалы для параметров нормального распределения.Проверка статистических гипотез и доверительные интервалы.Модель линейной регрессии и ее применение. РОССИЙСКИЙ УНИВЕРСИТЕТ ДРУЖБЫ НАРОДОВ ИНСТИТУТ ГОСТИНИЧНОГО БИЗНЕСА И ТУРИЗМА
Основные понятия Генеральная совокупность вся группа, подлежащая исследованию в рамках конкретного проекта гипотетическая совокупность всех возможных значений случайной величины X Выборка подмножество генеральной совокупности, которое отражает свойства всей группы набор значений X, полученных в результате п единичных экспериментов : X n = {х 1, х 2,..., х n } Перепись сбор информации о каждом члене генеральной совокупности 2
Функция распределения F(x) выборка X n = { х 1, х 2,..., х n } из генеральной совокупности с функцией распределения F(x) функция распределения F n (x) эмпирической случайной величины 3
Частотный анализ { х 1, х 2,..., х n | среди них k различных чисел z 1, z 2, …, z k : z i встречается n i раз i = 1, 2,..., k } n i частота элемента z i f i = n i /n относительная частота Z = {(z i, n i ) } статистический ряд Вариационный ряд упорядоченная (по возрастанию) Х n : Х < n = {х 1 < х 2
Пусть z 1, z 2, …, z k упорядочены по возрастанию N i = n 1 + n n i накопленная частота z i F i = f 1 + f f i накопленная относительная частота n i = n, f i = 1 N n = n, F n = 1 Накопленные частоты 5
График выборочной функции распределения 6
f(x): гистограмма h = длина каждого маленького промежутка Построим на i-м промежутке как на основании прямоугольник высотой n i /nh площадь прямоугольника v i = n i / n т.е. относительной частоте f i попадания значений выборки в данный интервал 7
Гистограмма на фоне «гипотетической» плотности нормального распределения 8
Средние значения { х i, х 2,..., х n } X n (принимает значения с равными вероятностями 1/n ) выборочное (эмпирическое) среднее 9
1. Выборочное среднее дает несмещенную и состоятельную оценку математического ожидания (каждый элемент выборки имеет такое же распределение, как случайная величина, порождающая генеральную совокупность) Выборочные характеристики как оценки 10
2. Выборочная дисперсия (смещенная дисперсия) ДИСПР (x 1 ; x 2 ; …) Несмещенная дисперсия СТАНДОТКЛОН (x 1 ; x 2 ; …) 11
Коэффициент вариации Относительной характеристикой дисперсии является коэффициент вариации Позволяет сравнивать разные генеральные совокупности выраженные разными единицами изменения имеющиеся разные средние 12
Квантили. Медиана. Мода 90-% выборочная квантиль значение, левее которого расположены 90% значений вариационного ряда (КВАНТИЛЬ) Выборочная медиана середина вариационного ряда (на одинаковом расстоянии от левой и правой границы выборки) (МЕДИАНА) Выборочная мода наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке (МОДА) 13
Нормальное распределение Плотность распределения Функция распределения ξ ~ N (m, σ) 14
График f(x) симметрия максимум х = m 15
Свойства f(x) Mξ = m, Dξ = σ 2 т = мода = медиана σ 1 < σ 2 < σ 3 16
Замечание: дисперсия характеризует отклонение от среднего Свойства F(x) 17
Стандартное нормальное распределение N(0, 1) m = 0, σ = 1 18
График Ф(х) 19
φ(х) Ф(х) Площадь под кривой φ(х) левее точки х равна Ф(x) 20
Вероятность 21
Правило трех сигм Практически все значения нормальной случайной величины находятся в промежутке P( ξ - m 3σ) = 0,
Квантили N (0; 1) квантили обозначают z p : ξ ~ N (m, σ) 23
Функция НОРМРАСП Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения НОРМРАСП (x; m; σ;интегральная) x – значение, для которого строится распределение m – среднее арифметическое распределения σ – стандартное отклонение распределения Интегральная – логическое значение, определяющее форму функции 24
Функция НОРМСТОБР Возвращает обратное значение стандартного нормального распределения НОРМСТОБР (вероятность) вероятность – вероятность, соответствующая нормальному распределению 25
Первый замечательный факт Стандартизация независимо от истинного значения т, известно распределение статистики U 26
1. Дисперсия σ 2 известна выборочное среднее 27
2 -распределение ξ 1, ξ 2, …, ξ k – независимые случайные величины, распределенные по стандартному нормальному закону: ξ 1, ξ 2, …, ξ k N(0, 1) Сумма квадратов этих случайных величин распределена по закону 2 с k степенями свободы 2 (k) = ξ ξ …+ ξ k 2 28
Графики плотности распределения 2 (k) 2 (k) имеет нулевую плотность распределения при х 0 При большом числе k распределение 2 (k) близко к нормальному 29
Функция ХИ2РАСП Возвращает одностороннюю вероятность распределения 2 ХИ2РАСП(x ; степени_свободы) x – значение, для которого требуется вычислить распределение степени_свободы это число степеней свободы распределения 2 30
Функция ХИ2ОБР Возвращает значение обратное к односторонней вероятности распределения 2 ХИ2ОБР(вероятность ; степени_свободы) вероятность – вероятность, связанная с распределением 2, значение в диапазоне от 0 до 1 степени_свободы это число степеней свободы распределения 2 31
неизвестна Дисперсия 2 неизвестна Выборка распределена по нормальному закону N (m, σ) и s 2 - выборочная дисперсия Какова бы ни была истинная дисперсия 2, распределение величины известно. 32
Второй замечательный факт σ исчез: статистика Стьюдента t-статистика 33
Распределение Стьюдента ξ N(0, 1) Разделим ξ на корень из 2 (k)/k Полученная случайная величина имеет распределение Стьюдента с k-степенями свободы 34
Графики плотности распределения Стьюдента Распределение Стьюдента симметрично, Mt(k) = 0. При больших k распределение Стьюдента близко к стандартному нормальному распределению N (0,1) 35
Функция СТЬЮДРАСП Возвращает вероятность для t-распределения Стьюдента СТЬЮДРАСП(x; k; b) x - численное значение, для которого требуется вычислить распределение k - количество степеней свободы b - число возвращаемых хвостов распределения = 1 одностороннее распределение = 2 двухстороннее распределение 36
Функция СТЬЮДРАСПОБР Возвращает обратное распределение Стьюдента СТЬЮДРАСПОБР(вероятность;степени_свободы) вероятность – вероятность, связанная с двух хвостовым t-распределением Стьюдента степени_свободы – положительное целое число степеней свободы, характеризующее распределение 37
малое число, обычно α = 0.01, 0.05, 0.1 n α = 0.1; 0.01; 0.05 n Выборка x 1, …, x n интервал (θ 1, θ 2 ) = [θ 1 (x 1, …, x n ), θ 2 (x 1, …, x n )] удовлетворяет равенству p(θ 1 < θ < θ 2 ) = 1 - α Интервальные оценки. Уровень значимости α 38
Доверительный интервал θ 1, θ 2 (confidence interval) истинное значение θ попадает с вероятностью 1 - (θ 1, θ 2 ) не зависит от значения θ (θ 1, θ 2 ) доверительный интервал для θ с доверительной вероятностью p = 1 - часто находится в виде симметричного интервала относительно точечной оценки θ n (θ 1, θ 2 ) = (θ n - Δ, θ n + Δ) 39
Правило 1 Дисперсия 2 нормальной генеральной совокупности известна доверительный интервал для т 40
Правило 2 Чем доверительная вероятность, тем шире доверительный интервал. При объема выборки п точность интервального оценивания параметра т растет пропорционально 41
Это справедливо и для нормального распределения, и для распределения Стьюдента. Поскольку u = z 1- /2, = t 1- / 2 (1-n): уровня значимости коэффициентов расширение доверительного интервала =:
Правило 3: доверительный интервал для дисперсии Пусть 2 /2 (n - 1) и 2 1- /2 (n - 1) квантили распределения 2 (n - 1) соответствующего порядка. Площади левее первой и правее второй квантили = /2 Вероятность попасть в промежуток для случайной величины 2 (n - 1) =
Неравенство можно переписать для обратных величин: откуда Таким образом, построен доверительный интервал для. 44
Если выборка распределена по нормальному закону u s 2 выборочная дисперсия, то доверительный интервал для дисперсии 2 имеет вид 45
Этапы маркетингового исследования 1. Обоснование целесообразности маркетингового исследования. 2. Постановка задачи. 3. Определение целей. 4. Разработка плана. 5. Идентификация вида информации и ее источников. 6. Выбор методов сбора информации. 7. Выбор способов представления собранной информации. 8. Определение содержания и размера выборки. 9. Сбор данных. 10. Анализ данных. 11. Подготовка и презентация заключительного отчета. 46
Обобщение (generalization) процедура получения оценок параметров генеральной совокупности на основе выборочных показателей позволяет понять, что представляют собой оценки разновидность логического вывода о свойствах группы, сделанного на основании информации о некоторых членах этой группы делая обобщение, исследователь формулирует вывод, основываясь на наблюдениях 47
Сводка отношений для нормально распределенной выборки 48
49 Определения Ассоциация – связь между переменными Регрессия – описание природы связи Корреляция – измерение тесноты связи сильная ли связь между ежемесячными расходами на рекламу и ежемесячным объемом продаж
50 Линейная регрессия - связь между переменными посредством линейной модели. Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес. Рис Пример линейной связи
51 Пример нелинейной связи Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес.
52 Модель Θ позволяет упростить и понять реальную ситуацию объяснить ее путем последующего анализа сделать прогнозы развития осуществлять управление ситуацией Для решения этих задач модель должна быть достаточно реалистичной.
53 Пример Ситуация: поставки на короткие расстояния внутри города. ζ: оценить ω услуги, определив t поставки на любом расстоянии 1.Реальность. Факторы, помимо пройденного расстояния, которые повлияют на затраченное t: пробки на дорогах, время суток, дорожные работы, погода, дорожная система, водитель, вид транспорта и т.п..
54 Модель (примера) 2.Упрощение. Рассматривается связь между расстоянием, измеряемым кратчайшим маршрутом на линиях, и затраченным t. 3.Ď. t и расстояние каждой десятой поездки, произвольно выбранный час и день 4.Обозначения. Расстояние – х, t – у.
55 Данные о расстоянии и времени поставок Расстояние, миль Время, мин 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,
56 Анализ 1. t расстояние 2. линейная Θ будет приближением к действительности к истинному t и расстоянию 3. множество различных расстояний при различном t 4. Необходимо найти способ определения точек этой линии по исходным Ď
57 Зависимость времени поставок от расстояния по совокупности случайных данных о поставках
58 Распределение t поставок при определенном расстоянии Расстояние, миль Время, мин
59 Линейная регрессия ŷ = a + bx а - пересечение с осью у b - угол наклона линии регрессии (коэффициент регрессии) х 1 y 1 фактическое t х 1 ŷ 1 прогнозируемое t
Линейный прогноз: функция ТЕНДЕНЦИЯ (Y; X; X + ; c) Y – диапазон, содержащий значения Y [Y] X [X] Х + [новые значения X]: ТЕНДЕНЦИЯ соответствующие значения Y (X + опущен совпадет с Х; Х и X + опущены Х = [1, 2, 3..] размера [Y]) c – константа: с = t опущен вычисляет a; с = f 0 опущен a = 0, b подбирается так, чтобы ŷ = bx ввод Y, X вычисляется ŷ без вычисления а и b 60
Функция НАКЛОН (Y; X) Вычисляет коэффициент b (скорость изменения вдоль Ox) Y [Y] X [X] Функция ОТРЕЗОК (X; Y) Вычисляет коэффициент a X [X] Y [Y] 61
62 Ошибка е - ошибка (отклонение, остаток) e 1 = y 1 – ŷ 1 линейная регрессия линия наилучшего подбора: min Σ e i 2 (метод наименьших квадратов)
Формулы n – размер выборки b = Cov(x, y) / V(x) a = My – b Mx 63
64 Диаграмма x1x1 e x y Общая вариация необъяснимая объяснимая ŷ y ŷ =a+bx линия регрессии y =ў среднее значение y ў
65 Теснота линейной связи Связь х у существует: диаграмма, линия регрессии + линия у = y х 1 несколько точек с разными значениями у, но(!) y = ŷ + e линейная связь только частично объясняет вариации значений у
66 Весь массив точек Суммарная вариация (общая) (y - y ) 2 С учетом линейной связи (объясненная вариация) (ŷ - y ) 2 Не объясняется линейной связью (влияние факторов, не включенных в линейную Θ ) (y - ŷ) 2
67 объясненная вариация / общая вариация (мера линейности связи) выражается в % и показывает дисперсию у, которая объясняется изменением х, включенной в Θ полная линейная связь r 2 = 1 (100%) связь отсутствует r 2 = 0 r 2 не определяет или у с ростом x r Коэффициент детерминации
68 r = (r 2 ): | r | < 1 Знак r = знаку b r > 0 положительная связь ( x y) Коэффициент корреляции r
69 Коэффициент корреляции r сила линейной связи точки на графике будут лежать более близко к прямой линии, r 1 r 0, а точки будут более рассеяны r = 0 линейной связи не существует (!! не значит, что не существует вообще никакой связи)
70 Связи между переменными x y x y r 0r 0r 0 Рис Случай отсутствия связи между переменными. Рис Сильная нелинейная связь между переменными.