Интервальное оценивание Лекция 4 для студентов 2 курса, обучающихся по специальности – Медицинская кибернетика доц. Шапиро Л.А. Красноярск, 2015 г.
План лекции: 1. Актуальность темы. 2. Интервальное оценивание. Точность оценок. Доверительный интервал. 3. Построение интервальной оценки математического ожидания случайной величины по выборке из нормальной совокупности. 4. Построение доверительного интервала для оценки генеральной дисперсии по выборке из нормальной совокупности. 5. Доверительный интервал для среднего квадратического отклонения. 6.Заключение.
Интервальное оценивание Точечной называют оценку, которая определяется одним числом (М(х), D(x),...) При выборке малого объема точечная оценка может значительно отличаться от параметра генеральной совокупности. Интервальной называют оценку, которая определяется двумя числами – концами интервала, внутри которого, предположительно, находится истинное значение параметра. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение искомого параметра, получила название методов интервального оценивания.
Пусть θ – какая-либо характеристика генеральной совокупности. θ*(ее оценка по выборке) тем точнее определяет параметр θ, чем меньше абсолютная величина разности |θ– θ*|. Т.е. если существует такое δ>0, что |θ – θ*|< δ, то чем меньше δ,тем более точнее оценка. Т.о. δ характеризует точность оценки. Надежностью (доверительной вероятностью) оценки θ по θ* называют вероятность γ, с которой осуществляется неравенство |θ – θ*|< δ. В медико-биологических исследованиях за доверительные вероятности приняты: 0,95; 0,99; 0,999.
Пусть вероятность того, |θ – θ*|< δ равна γ: P[|θ – θ*|< δ ]= γ -δ < |θ – θ*|< δ или θ*- δ < θ< θ*+δ; P[θ*-δ< θ< θ*+δ]= γ Вероятность того, что интервал (θ*-δ, θ*+δ) заключает в себе (покрывает) неизвестный параметр θ равна γ. Доверительным называется интервал (θ*- δ, θ*+ δ), который покрывает неизвестный параметр с заданной надежностью γ. Доверительные границы являются случайными величинами и изменяются от выборки к выборке.
На практике применяют два варианта задания доверительных границ: 1) устанавливают симметрично относительно оценки параметра, тогда величина абсолютной погрешности оценивания равна половине доверительного интервала; 2) устанавливают из условия равенства вероятностей выхода за верхнюю и нижнюю границу (центральные). Для симметричных распределений случайного параметра θ оба варианта эквивалентны. Нахождение доверительных интервалов требует знания вида и параметров закона распределения случайной величины θ. Для ряда практически важных случаев этот закон можно определить из теоретических соображений.
Методы построения доверительных интервалов байесовский метод ( оцениваемый параметр сам случаен, априорно известно распределение параметра ) метод доверительных интервалов ( Неймана )
1. Доверительный интервал для математического ожидания при известной дисперсии Если потребовать абсолютную надежность оценки математического ожидания, то границы доверительного интервала будут бесконечными (-, + ). Выбор любых более узких границ связан с риском ошибки, вероятность которой определяется уровнем значимости =1- γ, Доверительные интервалы для параметров нормального распределения.
Доверительные вероятности ( γ) Уровни значимости ( ) 0,950,05 0,990,01 0,9990,001
Для симметричных функций минимальный интервал тоже будет симметричным относительно оценки В этом случае выражение для доверительной вероятности имеет вид: где δ – абсолютная погрешность оценивания. Нормальный закон полностью определяется двумя параметрами – математическим ожиданием и дисперсией. Величина является несмещенной, состоятельной и эффективной оценкой математического ожидания, поэтому ее значение принимаем за значение математического ожидания в качестве точечной оценки. Будем полагать, что дисперсия 2 известна, тогда выборочное среднее – нормально распределенная случайная величина с параметрами
Для такой случайной величины вероятность попадания на симметричный относительно математического ожидания интервал выражается через функцию Лапласа: где При заданной надежности, уравнение можно решить приближенно с помощью таблицы значений функции Лапласа. Если точного значения в списке значений нет, то надо найти два ближайших к нему значения, одно большее, а другое меньшее, чем, и найти их среднее арифметическое.
Абсолютная погрешность: Полученное соотношение означает, что доверительный интервал покрывает неизвестный параметр (математическое ожидание a) с вероятностью (надежностью) P=γ, а точность оценки равна.. Объем выборки: При фиксированном объеме выборки из оценки следует, что чем больше доверительная вероятность, тем шире границы доверительного интервала (тем больше ошибка в оценке математического ожидания). Чтобы снизить ошибку в оценке значения, можно увеличить объем выборки. При этом, чтобы снизить относительную погрешность на порядок, необходимо увеличить объем выборки на два порядка
Пример: По данным выборки (n=100) найти доверительный интервал для математического ожидания a с надежностью 0,95, если известна дисперсия D(x)= 2 =64. Определяем =170 По заданной надежности найдем с помощью таблицы, параметр t:, откуда Ф(t)= 0,475, t = 1,96. Интервал (168,4; 171,6) покрывает параметр М(Х)=а с надежностью 0,95 с известной дисперсией 2 =64.
2. Доверительный интервал для математического ожидания при неизвестной дисперсии По данным выборки можно построить СВ: которая имеет распределение Стьюдента с k=n-1 степенями свободы. S–исправленное среднее квадратическое отклонение. Распределение Стьюдента не зависит от а и.
Пример : По данным выборки (n=100) найти доверительный интервал для математического ожидания a с надежностью 0,95. Определим по выборке : =170 D в =64. n=100 Найдем исправленную дисперсию : S 2 =(64 100/99)=64,65 Таким образом, интервал (151,01
Можно заметить, что если значение S близко к, то доверительный интервал, полученный с применением закона распределения Стьюдента, будет более широким, чем доверительный интервал, полученный с применением формул нормального распределения, так как. Это объясняется тем, что распределение Стьюдента применяется при выборках малых объемов, содержащих недостаточный объем информации.
Для n выборок из генеральной совокупности получим ряд средних арифметических: Центральная предельная теорема: Выборочные средние имеют приближенно нормальное распределение независимо от распределения исходной совокупности, из которой были извлечены выборки. Среднее значение всех возможных выборочных средних равно среднему исходной совокупности. Дисперсия среднего арифметического n одинаково распределенных независимых СВ в n раз меньше дисперсии каждой из величин: D( )=D/n Стандартное отклонение всех возможных средних по выборкам данного объема зависит как от стандартного отклонения совокупности, так и от объема выборки:
Так как генеральной совокупности неизвестна, а разница между сигмами генеральной совокупности и выборки невелика, то в формуле используют среднее квадратическое отклонение выборки s. Таким образом, величина служит мерой точности, с которой выборочное среднее является оценкой среднего по совокупности a. Поэтому эту величину называют средней квадратической ошибкой (или ошибкой выборочности, стандартной ошибкой). Стьюдент показал, что оценка расхождений между средним значением малой выборки и средним значением генеральной совокупности подчиняется особому закону распределения: t-распределению Стьюдента.
Если объекты отобраны в выборку случайным образом, то чем больше ее размеры, тем меньше стандартная ошибка, а значит, меньше расхождения в выборочной и генеральной совокупностях.
Критерий нормированного отклонения (по Стьюденту): Критерий Стьюдента показывает отклонение средней арифметической выборки от генеральной средней, выраженное в единицах средней квадратической ошибки. Доверительный интервал для генеральной средней имеет вид:
3. Доверительный интервал для дисперсии при известном математическом ожидании Пусть x 1, x 2 … x n – выборка наблюдений из нормальной генеральной совокупности. Найдем доверительный интервал для дисперсии нормально распределенного признака Х с известным математическим ожиданием M(x)=a. Поскольку значение математического ожидания известно, то в качестве оценки величины 2 возьмем точечную оценку дисперсии, которую будем рассматривать как случайную величину, зависящую от случайной выборки.
Доверительным интервалом для D(X)= 2 с надежностью γ является промежуток h 1 и h 2 находятся по таблице критических точек распределения 2 Пусть вероятности попадания значений левее h 1 и правее h 2 были одинаково равными. Тогда :
4. Доверительный интервал для дисперсии при неизвестном математическом ожидании Т.к. a - неизвестно, будем использовать исправленную выборочную дисперсию: значение дисперсии D(X) с надежностью γ покрывается доверительным интервалом:
Пример: n=50, D в =S 2 =0,22. Найти 95% ДИ для дисперсии. Решение: n-1=49 h 1 = 2 49,0,025 =70,24 h 2 = 2 49,0,975 =31,55 95% ДИ=(0,15; 0,34)
5. Доверительный интервал для среднего квадратического отклонения т.к. s=D, то ДИ равен: Интервалы, построенные с помощью распределения 2 не являются симметричными.
Обозначим: Вычислив по выборке значение S и найдя по таблице q, получим искомый доверительный интервал для среднего квадратичного отклонения, покрывающий параметр с заданной надежностью γ: Доверительный интервал для среднего квадратического отклонения
Пример: Количественный признак в генеральной совокупности распределен нормально. По выборке объема n=25 найдено «исправленное среднее квадратическое отклонение» s=0,8. Найти интервал, покрывающий среднее квадратическое отклонение с надежностью γ=0,95. По таблице находим q(0,95;25)=0,32 ДИ: 0,8(1-0,32)< < 0,8(1+0,32) 0,544< < 1,056
Оценка точности измерений В теории ошибок принято точность измерений характеризовать с помощью среднего квадратического отклонения случайных ошибок измерений. Пример: По 15 равноточным измерениям найдено «исправленное» среднее квадратическое отклонение s=0,12. Найти точность измерений с надежностью 0,99. По табл. находим q=0,73 0,12(1-0,73)
Заключение Таким образом, нами рассмотрены методы нахождения интервальных оценок основных параметров распределения - математического ожидания, дисперсии и среднего квадратического отклонения.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА: Основная литература: Попов А.М. Теория вероятней и математическая статистика /А.М. Попов, В.Н. Сотников. – М.: ЮРАЙТ, – 440 с. Герасимов А. Н. Медицинская статистика: учебное пособие / А. Н. Герасимов. – М. : Мед. информ. агентство, – 480 с. Балдин К. В. Основы теории вероятностей и математической статистики : учебник / К. В. Балдин. – М. : Флинта, – 488 с.
БЛАГОДАРЮ ЗА ВНИМАНИЕ