В.И. Дихтяр Теория и методология социально- экономических исследований в туристской индустрии Раздел 2.Статистический анализ данных в сфере туризма Тема.

Презентация:



Advertisements
Похожие презентации
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
Advertisements

Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
В. Дихтяр ОСНОВЫ МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ С ИСПОЛЬЗОВАНИЕМ EXCEL (для бакалавров) Раздел 2.Количественные и вероятностные методы исследования Тема 2-1.
Российский университет дружбы народов Кафедра экономико-математического моделирования В.И. Дихтяр ФИНАНСОВЫЙ МЕНЕДЖМЕНТ Раздел 2.Инвестиционные решения.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Урок-обобщение (7 класс – алгебра) МОУ "СОШ 45 г. Чебоксары" Кабуркина М. Н.1.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Стандартные распределения и их квантили Стандартные распределения В статистике, эконометрике и других сферах человеческих знаний очень часто используются.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Статистические оценки параметров распределения Доверительные интервалы.
1. Определить последовательность проезда перекрестка
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Элементы математической статиститки. Статистика – дизайн информации.
Транксрипт:

В.И. Дихтяр Теория и методология социально- экономических исследований в туристской индустрии Раздел 2. Статистический анализ данных в сфере туризма Тема 2.1. Оценки параметров. Доверительные интервалы для параметров нормального распределения.Проверка статистических гипотез и доверительные интервалы.Модель линейной регрессии и ее применение. РОССИЙСКИЙ УНИВЕРСИТЕТ ДРУЖБЫ НАРОДОВ ИНСТИТУТ ГОСТИНИЧНОГО БИЗНЕСА И ТУРИЗМА

Основные понятия Генеральная совокупность вся группа, подлежащая исследованию в рамках конкретного проекта гипотетическая совокупность всех возможных значений случайной величины X Выборка подмножество генеральной совокупности, которое отражает свойства всей группы набор значений X, полученных в результате п единичных экспериментов : X n = {х 1, х 2,..., х n } Перепись сбор информации о каждом члене генеральной совокупности 2

Функция распределения F(x) выборка X n = { х 1, х 2,..., х n } из генеральной совокупности с функцией распределения F(x) функция распределения F n (x) эмпирической случайной величины 3

Частотный анализ { х 1, х 2,..., х n | среди них k различных чисел z 1, z 2, …, z k : z i встречается n i раз i = 1, 2,..., k } n i частота элемента z i f i = n i /n относительная частота Z = {(z i, n i ) } статистический ряд Вариационный ряд упорядоченная (по возрастанию) Х n : Х < n = {х 1 < х 2

Пусть z 1, z 2, …, z k упорядочены по возрастанию N i = n 1 + n n i накопленная частота z i F i = f 1 + f f i накопленная относительная частота n i = n, f i = 1 N n = n, F n = 1 Накопленные частоты 5

График выборочной функции распределения 6

f(x): гистограмма h = длина каждого маленького промежутка Построим на i-м промежутке как на основании прямоугольник высотой n i /nh площадь прямоугольника v i = n i / n т.е. относительной частоте f i попадания значений выборки в данный интервал 7

Гистограмма на фоне «гипотетической» плотности нормального распределения 8

Средние значения { х i, х 2,..., х n } X n (принимает значения с равными вероятностями 1/n ) выборочное (эмпирическое) среднее 9

1. Выборочное среднее дает несмещенную и состоятельную оценку математического ожидания (каждый элемент выборки имеет такое же распределение, как случайная величина, порождающая генеральную совокупность) Выборочные характеристики как оценки 10

2. Выборочная дисперсия (смещенная дисперсия) ДИСПР (x 1 ; x 2 ; …) Несмещенная дисперсия СТАНДОТКЛОН (x 1 ; x 2 ; …) 11

Коэффициент вариации Относительной характеристикой дисперсии является коэффициент вариации Позволяет сравнивать разные генеральные совокупности выраженные разными единицами изменения имеющиеся разные средние 12

Квантили. Медиана. Мода 90-% выборочная квантиль значение, левее которого расположены 90% значений вариационного ряда (КВАНТИЛЬ) Выборочная медиана середина вариационного ряда (на одинаковом расстоянии от левой и правой границы выборки) (МЕДИАНА) Выборочная мода наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке (МОДА) 13

Нормальное распределение Плотность распределения Функция распределения ξ ~ N (m, σ) 14

График f(x) симметрия максимум х = m 15

Свойства f(x) Mξ = m, Dξ = σ 2 т = мода = медиана σ 1 < σ 2 < σ 3 16

Замечание: дисперсия характеризует отклонение от среднего Свойства F(x) 17

Стандартное нормальное распределение N(0, 1) m = 0, σ = 1 18

График Ф(х) 19

φ(х) Ф(х) Площадь под кривой φ(х) левее точки х равна Ф(x) 20

Вероятность 21

Правило трех сигм Практически все значения нормальной случайной величины находятся в промежутке P( ξ - m 3σ) = 0,

Квантили N (0; 1) квантили обозначают z p : ξ ~ N (m, σ) 23

Функция НОРМРАСП Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения НОРМРАСП (x; m; σ;интегральная) x – значение, для которого строится распределение m – среднее арифметическое распределения σ – стандартное отклонение распределения Интегральная – логическое значение, определяющее форму функции 24

Функция НОРМСТОБР Возвращает обратное значение стандартного нормального распределения НОРМСТОБР (вероятность) вероятность – вероятность, соответствующая нормальному распределению 25

Первый замечательный факт Стандартизация независимо от истинного значения т, известно распределение статистики U 26

1. Дисперсия σ 2 известна выборочное среднее 27

2 -распределение ξ 1, ξ 2, …, ξ k – независимые случайные величины, распределенные по стандартному нормальному закону: ξ 1, ξ 2, …, ξ k N(0, 1) Сумма квадратов этих случайных величин распределена по закону 2 с k степенями свободы 2 (k) = ξ ξ …+ ξ k 2 28

Графики плотности распределения 2 (k) 2 (k) имеет нулевую плотность распределения при х 0 При большом числе k распределение 2 (k) близко к нормальному 29

Функция ХИ2РАСП Возвращает одностороннюю вероятность распределения 2 ХИ2РАСП(x ; степени_свободы) x – значение, для которого требуется вычислить распределение степени_свободы это число степеней свободы распределения 2 30

Функция ХИ2ОБР Возвращает значение обратное к односторонней вероятности распределения 2 ХИ2ОБР(вероятность ; степени_свободы) вероятность – вероятность, связанная с распределением 2, значение в диапазоне от 0 до 1 степени_свободы это число степеней свободы распределения 2 31

неизвестна Дисперсия 2 неизвестна Выборка распределена по нормальному закону N (m, σ) и s 2 - выборочная дисперсия Какова бы ни была истинная дисперсия 2, распределение величины известно. 32

Второй замечательный факт σ исчез: статистика Стьюдента t-статистика 33

Распределение Стьюдента ξ N(0, 1) Разделим ξ на корень из 2 (k)/k Полученная случайная величина имеет распределение Стьюдента с k-степенями свободы 34

Графики плотности распределения Стьюдента Распределение Стьюдента симметрично, Mt(k) = 0. При больших k распределение Стьюдента близко к стандартному нормальному распределению N (0,1) 35

Функция СТЬЮДРАСП Возвращает вероятность для t-распределения Стьюдента СТЬЮДРАСП(x; k; b) x - численное значение, для которого требуется вычислить распределение k - количество степеней свободы b - число возвращаемых хвостов распределения = 1 одностороннее распределение = 2 двухстороннее распределение 36

Функция СТЬЮДРАСПОБР Возвращает обратное распределение Стьюдента СТЬЮДРАСПОБР(вероятность;степени_свободы) вероятность – вероятность, связанная с двух хвостовым t-распределением Стьюдента степени_свободы – положительное целое число степеней свободы, характеризующее распределение 37

малое число, обычно α = 0.01, 0.05, 0.1 n α = 0.1; 0.01; 0.05 n Выборка x 1, …, x n интервал (θ 1, θ 2 ) = [θ 1 (x 1, …, x n ), θ 2 (x 1, …, x n )] удовлетворяет равенству p(θ 1 < θ < θ 2 ) = 1 - α Интервальные оценки. Уровень значимости α 38

Доверительный интервал θ 1, θ 2 (confidence interval) истинное значение θ попадает с вероятностью 1 - (θ 1, θ 2 ) не зависит от значения θ (θ 1, θ 2 ) доверительный интервал для θ с доверительной вероятностью p = 1 - часто находится в виде симметричного интервала относительно точечной оценки θ n (θ 1, θ 2 ) = (θ n - Δ, θ n + Δ) 39

Правило 1 Дисперсия 2 нормальной генеральной совокупности известна доверительный интервал для т 40

Правило 2 Чем доверительная вероятность, тем шире доверительный интервал. При объема выборки п точность интервального оценивания параметра т растет пропорционально 41

Это справедливо и для нормального распределения, и для распределения Стьюдента. Поскольку u = z 1- /2, = t 1- / 2 (1-n): уровня значимости коэффициентов расширение доверительного интервала =:

Правило 3: доверительный интервал для дисперсии Пусть 2 /2 (n - 1) и 2 1- /2 (n - 1) квантили распределения 2 (n - 1) соответствующего порядка. Площади левее первой и правее второй квантили = /2 Вероятность попасть в промежуток для случайной величины 2 (n - 1) =

Неравенство можно переписать для обратных величин: откуда Таким образом, построен доверительный интервал для. 44

Если выборка распределена по нормальному закону u s 2 выборочная дисперсия, то доверительный интервал для дисперсии 2 имеет вид 45

Этапы маркетингового исследования 1. Обоснование целесообразности маркетингового исследования. 2. Постановка задачи. 3. Определение целей. 4. Разработка плана. 5. Идентификация вида информации и ее источников. 6. Выбор методов сбора информации. 7. Выбор способов представления собранной информации. 8. Определение содержания и размера выборки. 9. Сбор данных. 10. Анализ данных. 11. Подготовка и презентация заключительного отчета. 46

Обобщение (generalization) процедура получения оценок параметров генеральной совокупности на основе выборочных показателей позволяет понять, что представляют собой оценки разновидность логического вывода о свойствах группы, сделанного на основании информации о некоторых членах этой группы делая обобщение, исследователь формулирует вывод, основываясь на наблюдениях 47

Сводка отношений для нормально распределенной выборки 48

49 Определения Ассоциация – связь между переменными Регрессия – описание природы связи Корреляция – измерение тесноты связи сильная ли связь между ежемесячными расходами на рекламу и ежемесячным объемом продаж

50 Линейная регрессия - связь между переменными посредством линейной модели. Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес. Рис Пример линейной связи

51 Пример нелинейной связи Продажа, Ф. ст./мес. Расходы на рекламу, Ф. ст./мес.

52 Модель Θ позволяет упростить и понять реальную ситуацию объяснить ее путем последующего анализа сделать прогнозы развития осуществлять управление ситуацией Для решения этих задач модель должна быть достаточно реалистичной.

53 Пример Ситуация: поставки на короткие расстояния внутри города. ζ: оценить ω услуги, определив t поставки на любом расстоянии 1.Реальность. Факторы, помимо пройденного расстояния, которые повлияют на затраченное t: пробки на дорогах, время суток, дорожные работы, погода, дорожная система, водитель, вид транспорта и т.п..

54 Модель (примера) 2.Упрощение. Рассматривается связь между расстоянием, измеряемым кратчайшим маршрутом на линиях, и затраченным t. 3.Ď. t и расстояние каждой десятой поездки, произвольно выбранный час и день 4.Обозначения. Расстояние – х, t – у.

55 Данные о расстоянии и времени поставок Расстояние, миль Время, мин 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,

56 Анализ 1. t расстояние 2. линейная Θ будет приближением к действительности к истинному t и расстоянию 3. множество различных расстояний при различном t 4. Необходимо найти способ определения точек этой линии по исходным Ď

57 Зависимость времени поставок от расстояния по совокупности случайных данных о поставках

58 Распределение t поставок при определенном расстоянии Расстояние, миль Время, мин

59 Линейная регрессия ŷ = a + bx а - пересечение с осью у b - угол наклона линии регрессии (коэффициент регрессии) х 1 y 1 фактическое t х 1 ŷ 1 прогнозируемое t

Линейный прогноз: функция ТЕНДЕНЦИЯ (Y; X; X + ; c) Y – диапазон, содержащий значения Y [Y] X [X] Х + [новые значения X]: ТЕНДЕНЦИЯ соответствующие значения Y (X + опущен совпадет с Х; Х и X + опущены Х = [1, 2, 3..] размера [Y]) c – константа: с = t опущен вычисляет a; с = f 0 опущен a = 0, b подбирается так, чтобы ŷ = bx ввод Y, X вычисляется ŷ без вычисления а и b 60

Функция НАКЛОН (Y; X) Вычисляет коэффициент b (скорость изменения вдоль Ox) Y [Y] X [X] Функция ОТРЕЗОК (X; Y) Вычисляет коэффициент a X [X] Y [Y] 61

62 Ошибка е - ошибка (отклонение, остаток) e 1 = y 1 – ŷ 1 линейная регрессия линия наилучшего подбора: min Σ e i 2 (метод наименьших квадратов)

Формулы n – размер выборки b = Cov(x, y) / V(x) a = My – b Mx 63

64 Диаграмма x1x1 e x y Общая вариация необъяснимая объяснимая ŷ y ŷ =a+bx линия регрессии y =ў среднее значение y ў

65 Теснота линейной связи Связь х у существует: диаграмма, линия регрессии + линия у = y х 1 несколько точек с разными значениями у, но(!) y = ŷ + e линейная связь только частично объясняет вариации значений у

66 Весь массив точек Суммарная вариация (общая) (y - y ) 2 С учетом линейной связи (объясненная вариация) (ŷ - y ) 2 Не объясняется линейной связью (влияние факторов, не включенных в линейную Θ ) (y - ŷ) 2

67 объясненная вариация / общая вариация (мера линейности связи) выражается в % и показывает дисперсию у, которая объясняется изменением х, включенной в Θ полная линейная связь r 2 = 1 (100%) связь отсутствует r 2 = 0 r 2 не определяет или у с ростом x r Коэффициент детерминации

68 r = (r 2 ): | r | < 1 Знак r = знаку b r > 0 положительная связь ( x y) Коэффициент корреляции r

69 Коэффициент корреляции r сила линейной связи точки на графике будут лежать более близко к прямой линии, r 1 r 0, а точки будут более рассеяны r = 0 линейной связи не существует (!! не значит, что не существует вообще никакой связи)

70 Связи между переменными x y x y r 0r 0r 0 Рис Случай отсутствия связи между переменными. Рис Сильная нелинейная связь между переменными.