Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в туристской индустрии Раздел 2.Количественные и вероятностные методы исследования Тема Точечные оценки параметров и их классификация. Оценка функции распределения; гистограммы и полигон. Выборочные характеристики как оценки.
Основные понятия Генеральная совокупность вся группа, подлежащая исследованию в рамках конкретного проекта гипотетическая совокупность всех возможных значений случайной величины X Выборка подмножество генеральной совокупности, которое отражает свойства всей группы набор значений X, полученных в результате п единичных экспериментов : X n = {х 1, х 2,..., х n } Перепись сбор информации о каждом члене генеральной совокупности 2
Функция распределения F(x) выборка X n = { х 1, х 2,..., х n } из генеральной совокупности с функцией распределения F(x) функция распределения F n (x) эмпирической случайной величины 3
4 Частотный анализ { х 1, х 2,..., х n | среди них k различных чисел z 1, z 2, …, z k : z i встречается n i раз i = 1, 2,..., k } n i частота элемента z i f i = n i /n относительная частота Z = {(z i, n i ) } статистический ряд Вариационный ряд упорядоченная (по возрастанию) Х n : Х < n = {х 1 < х 2
5 Пусть z 1, z 2, …, z k упорядочены по возрастанию N i = n 1 + n n i накопленная частота z i F i = f 1 + f f i накопленная относительная частота n i = n, f i = 1 N n = n, F n = 1 Накопленные частоты
6 График выборочной функции распределения
f(x): гистограмма h = длина каждого маленького промежутка Построим на i-м промежутке как на основании прямоугольник высотой n i /nh площадь прямоугольника v i = n i / n т.е. относительной частоте f i попадания значений выборки в данный интервал 7
Гистограмма на фоне «гипотетической» плотности нормального распределения 8
Средние значения { х 1, х 2,..., х n } X n (принимает значения с равными вероятностями 1/n ) выборочное (эмпирическое) среднее 9
Точечные оценки Пусть F(x) зависит от неизвестного параметра : p(X n < x) = F(x, ) Задача статистики $: оценить значение, имея только выборку Оценка (точечная) произвольная функция от значений выборки Произвольную функцию от выборки называют также статистикой 10
Оценка - случайная величина Выборка - набор с.в. оценка – с.в. : Несмещенная п (совпадает с истинным значением) - смещение оценки Состоятельная 11
Теорема 12 - несмещенная + данная оценка - состоятельная Качество оценки: Для несмещенных оценок это Dθ n Dθ n1 < Dθ n2 θ n1 эффективнее θ n2 θ n эффективная min Dθ k
1. Выборочное среднее дает несмещенную и состоятельную оценку математического ожидания (каждый элемент выборки имеет такое же распределение, как случайная величина, порождающая генеральную совокупность) 13 Выборочные характеристики как оценки
2. Выборочная дисперсия (смещенная дисперсия) ДИСПР (x 1 ; x 2 ; …) Несмещенная дисперсия СТАНДОТКЛОН (x 1 ; x 2 ; …) 14
Коэффициент вариации Относительной характеристикой дисперсии является коэффициент вариации Позволяет сравнивать разные генеральные совокупности выраженные разными единицами изменения имеющиеся разные средние 15
Квантили. Медиана. Мода 90-% выборочная квантиль значение, левее которого расположены 90% значений вариационного ряда (КВАНТИЛЬ) Выборочная медиана середина вариационного ряда (на одинаковом расстоянии от левой и правой границы выборки) (МЕДИАНА) Выборочная мода наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке (МОДА) 16
17 Нормальное распределение Плотность распределенияФункция распределения ξ ~ N (m, σ)
График f(x) симметрия максимум х = m 18
Свойства f(x) Mξ = m, Dξ = σ 2 т = мода = медиана σ 1 < σ 2 < σ 3 19
20 Замечание: дисперсия характеризует отклонение от среднего Свойства F(x)
Стандартное нормальное распределение N(0, 1) m = 0, σ = 1 21
График Ф(х) 22
φ(х) Ф(х) Площадь под кривой φ(х) левее точки х равна Ф(x) 23
Вероятность 24
Правило трех сигм Практически все значения нормальной случайной величины находятся в промежутке P( ξ - m 3σ) = 0,
Квантили N (0; 1) квантили обозначают z p : ξ ~ N (m, σ) 26
Функция НОРМРАСП Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения НОРМРАСП (x; m; σ;интегральная) x – значение, для которого строится распределение m – среднее арифметическое распределения σ – стандартное отклонение распределения Интегральная – логическое значение, определяющее форму функции 27
Функция НОРМСТОБР Возвращает обратное значение стандартного нормального распределения НОРМСТОБР (вероятность) вероятность – вероятность, соответствующая нормальному распределению 28
Первый замечательный факт Стандартизация независимо от истинного значения т, известно распределение статистики U 29
1. Дисперсия σ 2 известна 30 выборочное среднее
2 -распределение ξ 1, ξ 2, …, ξ k – независимые случайные величины, распределенные по стандартному нормальному закону: ξ 1, ξ 2, …, ξ k N(0, 1) Сумма квадратов этих случайных величин распределена по закону 2 с k степенями свободы 2 (k) = ξ ξ …+ ξ k 2 31
Графики плотности распределения 2 (k) 2 (k) имеет нулевую плотность распределения при х 0 При большом числе k распределение 2 (k) близко к нормальному 32
Функция ХИ2РАСП Возвращает одностороннюю вероятность распределения 2 ХИ2РАСП(x ; степени_свободы) x – значение, для которого требуется вычислить распределение степени_свободы это число степеней свободы распределения 2 33
Функция ХИ2ОБР Возвращает значение обратное к односторонней вероятности распределения 2 ХИ2ОБР(вероятность ; степени_свободы) вероятность – вероятность, связанная с распределением 2, значение в диапазоне от 0 до 1 степени_свободы это число степеней свободы распределения 2 34
неизвестна Дисперсия 2 неизвестна Выборка распределена по нормальному закону N (m, σ) и s 2 - выборочная дисперсия Какова бы ни была истинная дисперсия 2, распределение величины известно. 35
Второй замечательный факт σ исчез: статистика Стьюдента t-статистика 36
Распределение Стьюдента ξ N(0, 1) Разделим ξ на корень из 2 (k)/k Полученная случайная величина имеет распределение Стьюдента с k-степенями свободы 37
Графики плотности распределения Стьюдента Распределение Стьюдента симметрично, Mt(k) = 0. При больших k распределение Стьюдента близко к стандартному нормальному распределению N (0,1) 38
Функция СТЬЮДРАСП Возвращает вероятность для t-распределения Стьюдента СТЬЮДРАСП(x; k; b) x - численное значение, для которого требуется вычислить распределение k - количество степеней свободы b - число возвращаемых хвостов распределения = 1 одностороннее распределение = 2 двухстороннее распределение 39
Функция СТЬЮДРАСПОБР Возвращает обратное распределение Стьюдента СТЬЮДРАСПОБР(вероятность;степени_свободы) вероятность – вероятность, связанная с двуххвостовым t-распределением Стьюдента степени_свободы – положительное целое число степеней свободы, характеризующее распределение 40
Доверительный интервал θ 1, θ 2 (confidence interval) истинное значение θ попадает с вероятностью 1 - (θ 1, θ 2 ) не зависит от значения θ (θ 1, θ 2 ) доверительный интервал для θ с доверительной вероятностью p = 1 - часто находится в виде симметричного интервала относительно точечной оценки θ n (θ 1, θ 2 ) = (θ n - Δ, θ n + Δ) 41
Правило 1 Дисперсия 2 нормальной генеральной совокупности известна доверительный интервал для т 42
Правило 2 43 Чем доверительная вероятность, тем шире доверительный интервал. При объема выборки п точность интервального оценивания параметра т растет пропорционально
Это справедливо и для нормального распределения, и для распределения Стьюдента. Поскольку u = z 1- /2, = t 1- / 2 (1-n): уровня значимости коэффициентов расширение доверительного интервала =:
Правило 3: доверительный интервал для дисперсии Пусть 2 /2 (n - 1) и 2 1- /2 (n - 1) квантили распределения 2 (n - 1) соответствующего порядка. Площади левее первой и правее второй квантили = /2 Вероятность попасть в промежуток для случайной величины 2 (n - 1) =
Неравенство можно переписать для обратных величин: откуда Таким образом, построен доверительный интервал для. 46
Если выборка распределена по нормальному закону u s 2 выборочная дисперсия, то доверительный интервал для дисперсии 2 имеет вид 47