27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г. Тема 8. Доверительные интервалы 8.1. Точечные и интервальные оценки 8.2. Доверительный интервал для среднего 8.3. Доверительный интервал для доли признака 8.4. Доверительный интервал для дисперсии
2 Иванов О.В., 2004 Точечная оценка (point estimate) Точечной оценкой называется отдельное число, которое используется в качестве оценки параметра генеральной совокупности. Например, среднее значение выборки является точечной оценкой среднего значения генеральной совокупности. Доля признака, рассчитанная по выборке, есть оценка для доли признака в генеральной совокупности. ОценкаПараметр
3 Иванов О.В., 2004 Ошибка оценки (estimation error) Ошибкой оценки называют разность между оцениваемым параметром генеральной совокупности и оценкой, рассчитанной на основе выборки. Ошибка оценки обычно неизвестна, поскольку неизвестен параметр. Ошибка оценки = Параметр – Оценка
4 Иванов О.В., 2004 Критерии точечных оценок Несмещенность оценки означает, что ее математическое ожидание равно значению оцениваемого параметра генеральной совокупности. Эффективность оценки означает, что статистика, используемая в качестве точечной оценки генеральной совокупности имеет минимальную стандартную ошибку. Состоятельность оценки означает, что по мере увеличения объема выборки ее значение приближается к значению оцениваемого параметра генеральной совокупности.
5 Иванов О.В., 2004 Доверительный интервал (confidence interval) Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит неизвестный параметр генеральной совокупности. «Мы на 95% уверены, что доля людей которым известна наша торговая марка находится где-то между 23,2% и 38,0%». 0,232 0,380 «Параметр находится где-то здесь с 95% вероятностью»
6 Иванов О.В., 2004 Доверительная вероятность (confidence probability) Доверительная вероятность (или уровень доверия, confidence level) – это вероятность того, что доверительный интервал содержит значение параметра. Доверительную вероятность принято устанавливать на уровнях 90%, 95% и 99%. Чем выше доверительная вероятность, тем более широкий и менее полезный интервал мы получим. 90%95%99% Используется наиболее часто.
7 Иванов О.В., 2004 Для нормального распределения… 95,4% Значение нормально распределенного признака находится в пределах двух стандартных отклонений относительно среднего значения в 95,4% случаев.
8 Иванов О.В., 2004 Форма записи доверительного интервала Вариант 1. «Мы на 95% уверены, что среднее значение роста студентов находится где- то между 165 и 175 см». Вариант 2. Среднее значение генеральной совокупности находится в интервале от 165 до 175 с доверительной вероятностью 0,95. Вариант 3. При помощи формулы:
9 Иванов О.В., 2004 Доверительный интервал зависит от выборки Для каждой выборки доверительный интервал будет построен по своему. Для доверительной вероятности 95% доверительный интервал будет покрывать неизвестный параметр в 95 случаях из 100. На рисунке показаны доверительные интервалы, построенные для 15 различных выборок. Лишь для пятой выборки оцениваемый параметр не находится внутри построенного доверительного интервала. (неизвестен) Выборка 1 Выборка 2 Выборка 3 Выборка 4 Выборка 5 Выборка 6 Выборка 7 Выборка 8 Выборка 9 Выборка 10 Выборка 11 Выборка 12 Выборка 13 Выборка 14 Выборка 15
27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Доверительный интервал для среднего ( известно или n 30) Описание проблемы Метод Доверительный интервал АлгоритмПример
11 Иванов О.В., 2004 Описание проблемы Цель Оценить среднее для генеральной совокупности, имеющей нормальный закон распределения с параметрами,. Что мы имеем Имеем случайную выборку объема n из генеральной совокупности. Стандартное отклонение предполагается известным или объем выборки n 30. Требуется Построить доверительный интервал для среднего:
12 Иванов О.В., 2004 Метод 1. В качестве точечной оценки среднего рассматриваем выборочное среднее. 2. При построении доверительного интервала мы основываемся на свойствах нормального распределения. 3. Для нахождения z-значений используют таблицы нормального закона. Доверительная вероятность представляет собой площадь под графиком (1 - ).
13 Иванов О.В., 2004 Доверительный интервал Среднее генеральной совокупности, имеющей нормальный закон распределения с доверительной вероятностью 1- находится в доверительном интервале: Доверительный интервал
14 Иванов О.В., 2004 Последовательность действий Шаг 1. По выборке вычислить выборочное среднее. Шаг 2. По таблице t-распределения найти t-значение для доверительной вероятности 1 -. Шаг 3. Вычислить точность интервальной оценки по формуле: При неизвестном и n 30 вместо используем s. Шаг 4. Подставить полученные значения в формулу для доверительного интервала: Шаг 5. Написать ответ.
15 Иванов О.В., 2004 Использование таблицы Z-значениеПлощадь 1,6450,9500 1,960,9750 2,5750,9950
16 Иванов О.В., 2004 Самые используемые z-значения Z-значениеПлощадьДоверительная вероятность 1,6450,9500 0,90 или 90% 1,960,9750 0,95 или 95% 2,5750,9950 0,99 или 99%
17 Иванов О.В., 2004 Задача Ректор университета хочет узнать, каков средний возраст студентов, обучающихся в настоящее время. Из предыдущих исследований известно, что стандартное отклонение равно 2 года. Сделана выборка из 50 студентов и вычислено среднее - 20,3 года. Найти 95%-ый доверительный интервал для генерального среднего.
18 Иванов О.В., 2004 Решение Шаг 1. По выборке вычислено выборочное среднее 20,3. Шаг 2. Доверительная вероятность 95% соответствует z-значению 1,96. Шаг 3. Вычислим точность интервальной оценки по формуле: Шаг 4. Подставим полученные значения в формулу для доверительного интервала: Шаг 5. Напишем ответ:
19 Иванов О.В., 2004 Объем выборки для оценки среднего Формула для нахождения точности оценки: Выражаем объем выборки: Если известны E, и доверительная вероятность, то по этой формуле подсчитывается минимальный объем выборки, который необходим для построения интервальной оценки.
20 Иванов О.В., 2004 Пример. Оценка возраста студентов Декан просит преподавателя по статистике оценить средний возраст студентов факультета. Какого размера выборка необходима? Преподаватель статистики считает, что оценка должна быть сделана с точностью до 1 года и с вероятностью 99%. Из ранее проведенного исследования известно, что стандартное отклонение возраста – 2 года. Решение. Для = 1 – 0,99 = 0,01 z-значение равно 2,58. Е = 1, = 2. Подставим в формулу: Ответ. Чтобы быть на 99% уверенным, что полученная оценка отличается от точного значения среднего возраста не больше чем на 1 год, преподавателю нужна выборка как минимум в 27 человек.
27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Доверительный интервал для среднего ( неизвестно и n 30) Описание проблемы Метод Доверительный интервал АлгоритмПример
22 Иванов О.В., 2004 Описание проблемы Цель Оценить среднее для генеральной совокупности, имеющей нормальный закон распределения с параметрами,. Что мы имеем Имеем случайную выборку объема n из генеральной совокупности. Стандартное отклонение неизвестно и объем выборки n 30. Требуется Построить доверительный интервал для среднего:
23 Иванов О.В., 2004 Отличие метода При построении доверительного интервала вместо нормального распределения используем t-распределение. Оно имеет сходство с нормальным распределением, но имеет также и отличия. Для нахождения t-значений будем использовать таблицы t-распределения.
24 Иванов О.В., 2004 t-распределение – немного истории t-распределение было введено в 1908 году В.С.Госсетом, ирландским служащим пивоваренного завода, который участвовал в разработке новых технологий производства пива. Поскольку самостоятельно публиковать результаты исследований работникам завода не разрешалось, Госсет напечатал свои материалы под псевдонимом Стьюдент, поэтому t-распределение иногда называют распределением Стьюдента.
25 Иванов О.В., 2004 Сравнение t-распределения с нормальным Похоже на стандартное нормальное распределение: Имеет колоколообразную форму Симметрично относительно среднего Кривая не соприкасается с осью Х Отличается от стандартного нормального распределения: Дисперсия больше 1 Представляет собой семейство кривых, различающихся числом степеней свободы С увеличением объема выборки приближается к нормальному
26 Иванов О.В., 2004 Число степеней свободы Число степеней свободы – это количество значений, которые могут свободно изменяться после того, как по выборке было вычислено значение статистики. Например, если среднее для выборки из пяти значений равно 10, тогда четыре из пяти значений могут изменяться. Выберем четыре значения, тогда пятое будет точно определено, поскольку сумма пяти есть 50. Число степеней свободы: 5 – 1 = 4. Обозначение: df (degrees of freedom). Нахождение. Число степеней свободы для доверительного интервала для среднего: df = n – 1.
27 Иванов О.В., 2004 Доверительный интервал Среднее генеральной совокупности, имеющей нормальный закон распределения с доверительной вероятностью 1- находится в доверительном интервале: Доверительный интервал
28 Иванов О.В., 2004 Последовательность действий Шаг 1. По выборке вычислить выборочное среднее и стандартное отклонение. Шаг 2. По таблице t-распределения найти t-значение для доверительной вероятности 1 - и числа степеней свободы df = n - 1. Шаг 3. Вычислить точность интервальной оценки по формуле: Шаг 4. Подставить полученные значения в формулу для доверительного интервала: Шаг 5. Написать ответ.
29 Иванов О.В., 2004 Использование таблицы В заголовке таблицы пользуемся значениями для двусторонней области. Например, при объеме выборки 20 число степеней свободы df = 19, если доверительная вероятность выбрана на уровне 95%, то t-значение равно 2,093.
30 Иванов О.В., 2004 Задача У 20 студентов, сдававших выпускной экзамен, сердце билось в среднем со скоростью 96 ударов в минуту. Стандартное отклонение выборки было равно 5 ударам в минуту. Найти 95%-ый доверительный интервал для генерального среднего.
31 Иванов О.В., 2004 Решение Шаг 1. По выборке вычислено выборочное среднее 96 и стандартное отклонение 5. Шаг 2. Доверительная вероятность 95% и количество степеней свободы df = 20 – 1 = 19 соответствуют t-значению 2,093. Шаг 3. Вычислим точность интервальной оценки: Шаг 4. Подставим полученные значения в формулу для доверительного интервала: Шаг 5. Напишем ответ:
27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Доверительный интервал для доли Описание проблемы Доверительный интервал АлгоритмПример
33 Иванов О.В., 2004 Оценка доли признака Пример. Среди 500 резюме кандидатов на работу няни оказалось 60 принадлежащих мужчинам. Найти 90%-ый доверительный интервал для фактической доли мужчин, устраивающихся работать нянями. Общее число объектов Частота Доля признака Генеральная совокупность Выборочная совокупность ОценкаПараметр
34 Иванов О.В., 2004 Описание проблемы Цель Оценить долю признака в генеральной совокупности. Что мы имеем Имеем случайную выборку объема n из генеральной совокупности. По выборке вычислена доля признака. Соблюдены условия np 5 и n(1-p) 5. Требуется Построить доверительный интервал для доли:
35 Иванов О.В., 2004 Доверительный интервал для доли Доля значений признака в генеральной совокупности с надежностью 1- /2 находится в доверительном интервале: Обозначение:
36 Иванов О.В., 2004 Последовательность действий Шаг 1. По выборке вычислить долю признака. Шаг 2. По таблице нормального распределения найти z-значение для доверительной вероятности 1 -. Шаг 3. Вычислить точность интервальной оценки по формуле: Шаг 4. Подставить полученные значения в формулу для доверительного интервала: Шаг 5. Написать ответ.
37 Иванов О.В., 2004 Пример. Выборы мэра В ходе проведенного опроса 829 жителей города выяснилось, что 417 опрошенных (51,5%) предполагают поддержать на предстоящих выборах кандидатуру действующего мера. Можно ли на этом основании утверждать, что более половины жителей города поддерживают перевыборы действующего мера на следующий срок? Решение. Сначала на уровне 0,95 находим Ответ.
38 Иванов О.В., 2004 Пример. Мужчины-няни Среди 500 резюме кандидатов на работу няни оказалось 60 принадлежащих мужчинам. Найти 90%-ый доверительный интервал для фактической доли мужчин, устраивающихся работать нянями. Решение. Сначала на уровне 0,90 находим Ответ.
39 Иванов О.В., 2004 Объем выборки для оценки доли Минимальный объем выборки, требуемый для интервального оценивания генеральной доли, находится по формуле: При необходимости следует округлить n, чтобы получить целое число. Если оценка для доли неизвестна, минимальный объем находят по формуле:
40 Иванов О.В., 2004 Пример. У кого есть дома компьютер? Исследователь хочет с 95%-ой вероятностью оценить количество людей, у которых дома имеется персональный компьютер. По данным предыдущего исследования у 40% опрошенных есть дома компьютер. Исследователь не хочет ошибиться больше, чем на 2% по сравнению с генеральной долей. Найдите необходимый минимальный размер выборки. Решение. Поскольку α = 60,05, то z-значение равно 1,96. E = 0,02. Подставляем в формулу: Ответ. Нужно опросить 2305 людей.
27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г.27 сентября 2012 г Доверительный интервал для дисперсии Интервал
42 Иванов О.В., 2004 Доверительный интервал для дисперсии Доверительный интервал для дисперсии находится по формуле: Значения находятся по таблицам распределения Пирсона.
43 Иванов О.В., 2004 Понятия и термины Точечные оценки параметров Несмещенность, эффективность, состоятельность, достаточность оценок
44 Иванов О.В., 2004 Задание на 5 минут Сформулируйте центральную предельную теорему.
45 Иванов О.В., 2004 Задание.