22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Тема 10. Сравнение двух выборок Гипотеза о равенстве средних. Независимые выборки Доверительный интервал для разности средних Гипотеза о равенстве средних. Парные выборки Доверительный интервал для разности средних. Парные выборки Гипотеза о равенстве дисперсий Гипотеза о равенстве долей Доверительный интервал для разности долей
2 Иванов О.В., :24 1. Независимые выборки Генеральная совокупность 1 Генеральная совокупность 1 Генеральная совокупность 2 Генеральная совокупность 2 Выборка 1 Выборка Две генеральные совокупности, две независимые выборки Сравнение Случайный отбор
3 Иванов О.В., :24 1. Независимые выборки Генеральная совокупность Генеральная совокупность Выборка 1 Экспериментальная группа Выборка 1 Экспериментальная группа Выборка 2 Контрольная группа Выборка 2 Контрольная группа 1.2. Одна генеральная совокупность, две независимые выборки Сравнение Большая выборка Случайное разделение
4 Иванов О.В., :24 2. Зависимые выборки Генеральная совокупность 1 Генеральная совокупность 1 Генеральная совокупность 2 Генеральная совокупность 2 Выборка 1 Выборка Две генеральные совокупности, две зависимые выборки Сравнение Парный отбор
5 Иванов О.В., :24 2. Зависимые выборки Генеральная совокупность Генеральная совокупность Выборка 1 Выборка Одна генеральная совокупность, две зависимые выборки Сравнение Парный отбор
6 Иванов О.В., :24 2. Зависимые выборки Генеральная совокупность Генеральная совокупность Группа до теста Группа после теста 2.3. Одна генеральная совокупность, две зависимые выборки до и после теста Сравнение Выборка Экспериментальная группа Выборка Экспериментальная группа
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Гипотеза о равенстве средних. Независимые выборки
8 Иванов О.В., :24 Независимые выборки. Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух генеральных совокупностей 2. Выборки являются независимыми. Это значит, что между субъектами в каждой из выборок нет связи. 3. Обе выборки имеют объем n 30. Если нет, то обе выборки взяты из нормально распределенных генеральных совокупностей. Что мы хотим Проверить гипотезу о равенстве средних двух генеральных совокупностей:
9 Иванов О.В., :24 Гипотеза Нулевая гипотеза: Это равносильно гипотезе: Альтернативная гипотеза:
10 Иванов О.В., :24 Односторонние гипотезы Нулевая гипотеза: Или, что равносильно: Альтернативная гипотеза: Правосторонний критерийЛевосторонний критерий
11 Иванов О.В., :24 1. Статистика ( 1 и 2 известны) Для проверки гипотезы используется статистика: где - выборочные средние - известные дисперсии генеральных совокупностей - объемы выборок
12 Иванов О.В., :24 Почему выбирает этот критерий? В качестве критерия мы выбираем: Наблюдаемое значение: Ожидаемое значение: Стандартная ошибка: Это следует из формулы для дисперсии разности выборочных средних:
13 Иванов О.В., :24 Последовательность действий Шаг 1. Сформулировать основную и альтернативную гипотезы. Шаг 2. Задать уровень значимости. Шаг 3. По таблице найти критические значения и построить критическую область. Шаг 4. По выборке сосчитать значение статистики. Шаг 5. Сравнить полученное значение с критической областью. Если значение попало в критическую область – отклонить основную гипотезу, не попало – принять. Шаг 6. Написать ответ.
14 Иванов О.В., :24 Задача. Стоимость ремонта Частная исследовательская фирма тестировала две различных марки автомобиля, с целью определить, есть ли различие в ущербе, получаемом машиной, если она попадает в аварию на скорости 10 миль в час. Ниже представлен средний ущерб в долларовом эквиваленте для каждой марки. Предполагается, что генеральная совокупность распределена нормально. На уровне значимости α = 0,05 проверьте утверждение о том, что различия в долларовом эквиваленте понесенного каждым типом автомобиля ущерба не существует.
15 Иванов О.В., :24 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице находим критическое значение z = 1,96 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики:
16 Иванов О.В., :24 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Мы принимаем основную гипотезу. Шаг 6. Формулируем вывод: мы не имеем достаточных оснований, чтобы отвергнуть утверждение о равенстве средних.
17 Иванов О.В., :24 Если дисперсии не известны… Как проверить гипотезу о равенстве средних, если дисперсии генеральной совокупности не известны? Z-критерий не подойдет. Вместо него используем t-критерий. Существует два варианта. Первый, когда мы ничего не знаем о дисперсиях. Второй, когда мы не знаем значения дисперсий генеральных совокупностей, но у нас есть основания полагать их равными. В этих случаях статистика строится по разному. Разберем подробнее.
18 Иванов О.В., :24 2. Статистика ( 1 и 2 не известны и не равны) Для проверки гипотезы используется статистика: где - выборочные средние - выборочные дисперсии - объемы выборок
19 Иванов О.В., :24 3. Статистика (предполагаем 1 = 2 ) Для проверки гипотезы используется статистика: где - выборочные средние - объединенная дисперсия двух выборок - объемы выборок
20 Иванов О.В., :24 Объединенная дисперсия (Pooled variance) Если нам известно, что дисперсии генеральных совокупностей равны, или мы проверяем гипотезу, что случайные выборки получены из одной совокупности, нам следует вычислить для начала объединенную дисперсию для двух выборок:
21 Иванов О.В., :24 Выводы о средних (независимые выборки) 1 и 2 известны? 1 и 2 известны? Считаем, что 1 = 2 ? Считаем, что 1 = 2 ? Используем нормальное распределение со стандартной ошибкой: Редкий случай! Да Используем t- распределение со стандартной ошибкой: Используем t-распределение с объединенной дисперсией и ошибкой: Наиболее часто! Нет
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Доверительный интервал для разности средних
23 Иванов О.В., :24 Описание проблемы Что мы имеем Имеем две простые случайные, независимые выборки объема n 1 и n 2 из двух генеральных совокупностей. Генеральные совокупности имеют нормальный закон распределения с параметрами 1, 1 и 2, 2 либо объемы обеих выборок 30. Что мы хотим Оценить разницу ( ) между средними двух генеральных совокупностей. Для этого построить доверительный интервал для разности средних в виде:
24 Иванов О.В., :24 Доверительный интервал для разности средних (1) Среднее генеральной совокупности с надежностью 1- /2 находится в доверительном интервале: Стандартные отклонения 1 и 2 известны. Тогда:
25 Иванов О.В., :24 Доверительный интервал для разности средних (2) Среднее генеральной совокупности с надежностью 1- /2 находится в доверительном интервале: Стандартные отклонения 1 и 2 неизвестны и не подразумеваются равными. Тогда:
26 Иванов О.В., :24 Доверительный интервал для разности средних (3) Среднее генеральной совокупности с надежностью 1- /2 находится в доверительном интервале: Стандартные отклонения 1 и 2 неизвестны, но подразумеваются равными. Тогда:
27 Иванов О.В., :24 Пример Преподаватель хочет оценить различия в оценках студентов-вечерников и студентов-дневников. Ниже приведены результаты экзамена. Построить 95% доверительный интервал для разности средних баллов. ДневникиВечерники Решение. На семинаре
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Гипотеза о равенстве средних. Парные выборки
29 Иванов О.В., :24 Парные выборки. Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух генеральных совокупностей 2. Выборки являются парными (зависимыми) 3. Обе выборки имеют объем n 30. Если нет, то обе выборки взяты из нормально распределенных генеральных совокупностей. Что мы хотим Проверить гипотезу о разности средних двух генеральных совокупностей:
30 Иванов О.В., :24 Статистика для парных выборок Для проверки гипотезы используется статистика: где - разность между двумя значениями x – y в одной паре - среднее для парных разностей генеральной совокупности - среднее для парных разностей для выборки - стандартное отклонение разностей для выборки - количество пар
31 Иванов О.В., :24 Пример. Тренинг студентов Группа из 15 студентов прошла тест до тренинга и после. Результаты теста в таблице. Проверим гипотезу для парных выборок на отсутствие влияния тренинга на подготовку студентов на уровне значимости 0,05. Решение. Подсчитаем разности и их квадраты. СтудентДоПосле Σ= 21 Σ= 145
32 Иванов О.В., :24 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для df = 15 – 1=14 находим критическое значение t = 2,145 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.
33 Иванов О.В., :24 Решение Статистика принимает значение: Среднее значение разностей получено делением 21 на 15 и равно 1,4.
34 Иванов О.В., :24 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Шаг 6. Формулируем вывод. Мы не имеем достаточных оснований, чтобы отвергнуть нулевую гипотезу. Это означает, что влияние тренинга не значимо на уровне значимости 0,05.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Доверительный интервал для разности средних. Парные выборки
36 Иванов О.В., :24 Зависимые выборки. Описание проблемы Что мы имеем Имеем две случайные парные (зависимые) выборки объема n из двух генеральных совокупностей. Генеральные совокупности имеют нормальный закон распределения с параметрами 1, 1 и 2, 2 либо объемы обеих выборок 30. Что мы хотим Оценить среднее значение парных разностей для двух генеральных совокупностей. Для этого построить доверительный интервал для среднего в виде:
37 Иванов О.В., :24 Доверительный интервал Среднее разности парных значений между двумя генеральными совокупностями с надежностью 1- /2 находится в доверительном интервале: Точность оценки находится по формуле:
38 Иванов О.В., :24 Пример построения доверительного интервала Выборка включает 15 студентов, следовательно df = 15 – 1 = 14. Находим t-значение по таблице для доверительной вероятности 95% ( /2 = 2,5): Точность оценки: Доверительный интервал:
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Гипотеза о равенстве дисперсий
40 Иванов О.В., :24 В ходе исследования… Исследователю может понадобиться проверить предположение, о равенстве дисперсий двух изучаемых генеральных совокупностей. В случае, когда эти генеральные совокупности имеют нормальное распределение, для этого существует F-критерий, называемый также критерием Фишера. В отличие от Стьюдента, Фишер не работал на пивном заводе.
41 Иванов О.В., :24 Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. 2. Выборки являются независимыми. Это значит, что между субъектами выборок нет связи. Что мы хотим Проверить гипотезу о равенстве дисперсий генеральных совокупностей:
42 Иванов О.В., :24 Обозначения Дисперсии генеральных совокупностей: Дисперсии двух выборок: Объемы двух выборок: Подбираем, чтобы обязательно:
43 Иванов О.В., :24 Гипотеза Нулевая гипотеза: Альтернативная гипотеза: Других альтернативных гипотез в этом критерии не рассматривается.
44 Иванов О.В., :24 Статистика Для проверки гипотезы используется статистика: Если гипотеза верна, эта статистика имеет F-распределение (распределение Фишера) с количеством степеней свободы: числителя знаменателя
45 Иванов О.В., :24 Критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице F-распределения
46 Иванов О.В., :24 Таблицы F-распределения Критические значения находим по таблице F-распределения. Например, критическое значение для двух выборок объема 14 и 10 равно 2,71. Таблицы «трехмерные». Учитесь пользоваться!
47 Иванов О.В., :24 Пример. Исследователь-медик хочет проверить, есть ли различие между частотой биения сердца курящих и некурящих пациентов (кол-во ударов в минуту). Результаты двух случайно отобранных групп приведены ниже. Используя α = 0,05, выясните, прав ли медик. КурящиеНе курящие
48 Иванов О.В., :24 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для количества степеней свободы числителя 25 и знаменателя 17 находим критическое значение f = 3,08 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.
49 Иванов О.В., :24 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Шаг 6. Формулируем вывод. Различие дисперсий двух генеральных совокупностей значимо.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Гипотеза о равенстве долей
51 Иванов О.В., :24 Вопрос Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 случайно отобранных студентов-экономистов 90 посещают спецкурсы. Отличается ли доля студентов, посещающих спецкурсы, на социологическом и экономическом факультетах? Похоже, что существенно не отличается. Как это проверить? Доля посещающих спецкурсы – доля признака. 43 – количество «успехов». 43/100 – доля успехов. Терминология такая же, как в схеме Бернулли.
52 Иванов О.В., :24 Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. 2. Выборки являются независимыми. Это значит, что между субъектами выборок нет связи. 3. Для выборок выполнено np 5 и nq 5. Это означает, что, по крайней мере, 5 элементов выборки имеют изучаемое значение признака, и, по крайней мере, 5 не имеют. Что мы хотим Проверить гипотезу о равенстве долей признака в двух генеральных совокупностях:
53 Иванов О.В., :24 Обозначения - объемы выборок - количество «успехов» в каждой выборке - доля «успехов» в первой выборке - доля «успехов» во второй выборке - общая доля «успехов» в обеих выборках
54 Иванов О.В., :24 Статистика В качестве статистики выбираем следующую случайную функцию: Для проверки гипотезы пользуемся таблицей нормального распределения.
55 Иванов О.В., :24 Пример. Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 студентов-экономистов 90 человек посещают спецкурсы. На уровне значимости = 0,05, проверьте гипотезу о том, что нет различия между долей посещающих спецкурсы на двух этих факультетах.
56 Иванов О.В., :24 Решение Вычислим необходимые значения:
57 Иванов О.В., :24 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице нормального распределения находим критические значения z = - 1,96 и z = 1,96 строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.
58 Иванов О.В., :24 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Шаг 6. Формулируем вывод. Нет оснований отвергнуть основную гипотезу. Доля посещающих спецкурсы не отличается.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г Доверительный интервал для разности долей
60 Иванов О.В., :24 Доверительный интервал для разности долей Доля значений признака в генеральной совокупности с надежностью 1- /2 находится в доверительном интервале: где
61 Иванов О.В., :24 Пример Предположим, по результатам исследования 40% из 200 мужчин и 56% из 100 женщин высказались против смертной казни. Найдите 95%-ый доверительный интервал для действительной разности долей. Решение. На семинаре.
62 Иванов О.В., :24 Понятия и термины
63 Иванов О.В., :24 Задание на 5 минут От чего и каким образом зависит критическая область?
64 Иванов О.В., :24 Задачи Преподаватель хочет понять, действительно ли студенты-вечерники получают более высокие баллы по сравнению с учащимися дневного отделения. Ниже приведены результаты экзамена. Может ли преподаватель на их основе заключить, что балл вечерников выше? Используйте α = 0,02. ДневникиВечерники
65 Иванов О.В., :24 Задачи Исследователь хочет сравнить скорость реакции таксистов и полицейских. Полученные им результаты представлены ниже. Может ли он при α = 0,02 сделать вывод о том, что таксисты обладают меньшей скоростью реакции, чем полицейские. Предполагается, что генеральные совокупности распределены нормально. ТаксистыПолицейские
66 Иванов О.В., :24 Задачи Исследователь предполагает, что среди учеников средней школы девочки чаще, чем мальчики, прогуливают занятия. Выборочное исследование 16-ти девочек показало, что их не бывает в школе примерно 3,9 дня в году, а мальчиков (22 человека) 3,6 дня. Стандартные отклонения 0,6 и 0,8 дня соответственно. Проверьте предположение исследователя на уровне значимости α =0,01. Предполагается, что дисперсии равны.
67 Иванов О.В., :24 Задачи Налоговый инспектор желает проверить, есть ли различие в тарифных ставках на частную собственность в двух больших городах. Величина налогов в обоих городах представлена ниже (млн $). При α = 0,05 проверьте, действительно ли налоги в двух городах различны? Город АГород Б
68 Иванов О.В., :24 Задачи Преподаватель считает, что студенты, специализация которых – математика, могут написать компьютерную программу быстрее, чем те, чья специализация – экономика. Двенадцать студентов-математиков, попавшие в выборку, потратили в среднем по 36 минут на то, чтобы написать и отладить определенную программу. Восемнадцать студентов-экономистов справились с тем же заданием в среднем за 39 минут каждый. Стандартное отклонение каждой группы равно 4 и 9 минут соответственно. При α = 0,10 проверьте предположение преподавателя, считая, что дисперсии не равны.
69 Иванов О.В., :24 Задачи Местное отделение налоговой инспекции потратило примерно по 21 минуте на то, чтобы помочь каждому из 10-ти человек заполнить их налоговую декларацию. Стандартное отклонение равно 5,6 минуты. Независимая служба подготовки налоговых деклараций потратила на каждого из 14 человек по 27 минут. Стандартное отклонение равно 4,3 минуты. При α =0,02 найдите, есть ли разница во времени, которое тратят две этих службы. Предполагается, что дисперсии равны.
70 Иванов О.В., :24 Задачи Преподаватель утверждает, что когда преподавание курса идет с использованием лекций, то дисперсия успеваемости больше, чем когда курс идет без лекций. Случайным образом были выбраны две группы студентов. Дисперсия успеваемости первой группы (с лекциями) равна 103, а дисперсия второй группы (без лекций) равна 73. В каждой группе учатся 20 студентов. При α = 0,05 проверить предположение преподавателя.
71 Иванов О.В., :24 Задачи Преподаватель физкультуры утверждает, что тяжелоатлеты, принимающие витамин Е, могут увеличить свою силу, то есть поднимать более тяжелый вес. Было отобрано восемь атлетов, и была измерена их сила с помощью выжимания штанги. После двух недель регулярных тренировок и приема витамина Е, их силу измерили еще раз. Проверьте эффективность такого режима, считая, что = 0,05. Значения, которые даны ниже, – это максимальный вес, который может поднять спортсмен (в фунтах). Предполагается, что переменные распределены нормально. Тяжелоатлеты До После
72 Иванов О.В., :24 Задачи Социологу интересно узнать, повлияет ли показ фильма об управлении стрессом, на установки двенадцати человек, участвующих в исследовании. Результаты в таблице. Здесь большим числовым значениям соответствует более позитивное отношение к управлению стрессом. При = 0,05 проверьте утверждение, что просмотр данного фильма изменит установки испытуемых. До Посл е
73 Иванов О.В., :24 Задачи Офис-менеджер хочет узнать, можно ли увеличить скорость печатания десяти секретарей, заменив печатные машинки компьютерами. В таблице число слов в минуту. На уровне значимости =0,10 проверьте утверждение, что, используя компьютер, секретари могут печатать большее количество слов в минуту. Секретарь Печатная машинка Компьютер
74 Иванов О.В., :24 Задачи В результате исследования выяснилось, из 100 опрошенных мужчин 83% предпочитают лекциям обучение с помощью компьютера, а из 100 женщин 75%. При = 0,05 проверьте утверждение о равенстве долей мужчин и женщин, предпочитающих лекциям компьютерное обучение Из 200 хирургов 15% считают, что государство должно контролировать здравоохранение. А из 200 терапевтов так думает 21%. Существует ли различие в долях на уровне значимости = 0,05? Из 80 американцев 55% хотели бы разбогатеть. Из 90 европейцев, хотели бы разбогатеть 45%. При = 0,01 есть ли различие в долях? Из 200 мужчин 130 сказали, что пользуются ремнями безопасности. Из 300 женщин отметили, что пользуются ремнями безопасности, 63 человека. При = 0,01 проверьте утверждение, что мужчины более осторожны, нежели женщины.
75 Иванов О.В., :24 Задачи В первой выборке из 100 человек 30% были в Диснейленде, а во второй (тоже 100 человек опрошенных) 24% посещали Диснейуолд. Отличаются ли доли людей, посетивших каждый из двух парков? Возьмите = 0, Из 200 подростков 59 считают, что война неизбежна. А из 300 человек старше 60-ти, так думают 93. Отличается ли доля подростков, считающих войну неизбежной, от доли людей старше 60-ти лет? Возьмите = 0,01? В выборке из 59 старшеклассников у восьми оказался свой собственный автомобиль, а среди 75 первокурсников колледжа свои машины есть у 20 человек. Можно ли на уровне значимости = 0,05 сделать вывод, что доля первокурсников с собственными автомобилями выше?
76 Иванов О.В., :24 Задачи Найдите 95%-ый доверительный интервал для действительной разности долей по результатам исследования, в котором 40% из 200 мужчин и 56% из 100 женщин высказались против смертной казни Найдите 99%-ый доверительный интервал для разности генеральных долей по результатам исследования, в котором 80% из 150-ти республиканцев и 60% из 200 демократов одобрили закон о повышении зарплаты.