Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемinformatika.socio.msu.ru
1 23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Тема 7. Основания для статистических выводов 7.1. Выборочное наблюдение 7.2. Логика статистических выводов
2 23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г Выборочное наблюдение План выборочного наблюдения Методы получения выборок Простая случайная выборка
3 3 Иванов О.В., 2004 Генеральная совокупность и выборка Генеральная совокупность, популяция (population) – вся интересующая исследователя совокупность изучаемых объектов. Выборка (sample) – некоторая, обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности. Репрезентативная выборка хорошо представляет генеральную совокупность. Это означает, что каждое свойство (или комбинация свойств) наблюдается в выборке с той же частотой, что и в генеральной совокупности. Выборка, которая не является репрезентативной, имеет смещение. Например, если в выборке доля мужчин значительно больше, чем в генеральной совокупности, говорят, что выборка смещена по половому признаку в сторону мужчин.
4 4 Иванов О.В., 2004 План выборочного наблюдения На первом этапе следует определить целевую генеральную совокупность (target population) – совокупность объектов, обладающих информацией, которую желает получить исследователь и о которой требуется сделать заключение. Какие объекты попадут в эту совокупность, как правильно очертить границы целевой совокупности? Пример с покупателями магазина игрушек. Кто может оказаться в числе покупателей? Все ли жители этого города? А жители других городов?
5 5 Иванов О.В., 2004 Объем генеральной совокупности и выборки Nобъем генеральной совокупности nобъем выборки Если изучается вся генеральная совокупность (N = n), то выборка называется переписью (census). Теоретически предполагают, что объем генеральной совокупности бесконечен (N = ). Однако, только теоретически можно считать, например, что население планеты бесконечно. В действительности оно измеряется конечными числами в млрд.человек. Мы будем считать, что изучаемая исследователем, целевая генеральная совокупность (target population) всегда конечна, хотя объем совокупности велик и часто можно считать, что:
6 6 Иванов О.В., 2004 Определение основы выборки Основа выборочного наблюдения (sampling frame) есть представление элементов изучаемой генеральной совокупности. Обычно это список всех объектов или перечень инструкций для определения границ и объектов изучаемой совокупности. Примерами основы выборочного наблюдения могут служить телефонные справочники, отраслевые справочники предприятий, список адресатов и т.п. Если исследователь не может составить подробный перечень элементов, следует, по крайней мере, установить правила для отбора изучаемой генеральной совокупности, например процедуру случайного набора номеров при проведении опроса по телефону. Ошибки при формировании основы выборочного наблюдения состоят в пропуске некоторых объектов или включении в основу объектов, не относящихся к изучаемой генеральной совокупности. Имеются методы, позволяющие устранить такие ошибки или свести их действие к минимуму.
7 7 Иванов О.В., 2004 Определение метода получения выборки Детерминированные методы: Нерепрезентативная выборка Поверхностная выборка Квотная выборка Выборка по принципу «снежного кома» Вероятностные методы: Простая случайная выборка Систематическая выборка Стратифицированная выборка Кластерная выборка За подробностями можно обратиться в эту книгу.
8 8 Иванов О.В., 2004 Выборка с возвращением и без возвращения После того, как объект извлечен из генеральной совокупности для включения в выборку, его либо возвращают в генеральную совокупность, либо нет. Если его возвратили, он может попасть в выборку повторно. Выборка без возвращения – любой объект не может попасть в выборку больше одного раза. Выборка с возвращением – любой объект может оказаться в выборке более одного раза. Например, корреспондент не обратится дважды за интервью к одному и тому же участнику митинга, а выберет несколько различных человек. Мы будем рассматривать далее выборки без возвращения, если не будет оговариваться иное.
9 9 Иванов О.В., 2004 Простая случайная выборка Простая случайная выборка отбирается при помощи методов случайного отбора или случайных чисел. Один из таких методов заключается в нумерации каждого объекта генеральной совокупности и выборе номеров объектов при помощи генератора случайных чисел в компьютере или калькуляторе. До применения компьютеров случайные числа были получены и сведены в таблицу случайных чисел.
10 10 Иванов О.В., 2004 Таблица случайных чисел
11 Иванов О.В., 2004 Как составить случайную выборку
12 12 Иванов О.В., 2004 Стратифицированная выборка Стратифицированная выборка получается путем разбиения генеральной совокупности на группы или страты в зависимости от характеристик, важных для изучения. Преимуществом стратифицированной выборки является наличие представителей каждой страты в выборке в соотношении, сходном с генеральной совокупностью. Недостатком является сложность организации процесса при наличии нескольких признаков, скажем, возраста, дохода, социального статуса и т.п.
13 13 Иванов О.В., 2004 Пример стратифицированной выборки Пример. На младших курсах обучается 2000 студентов, среди которых 60% первокурсников и 40% второкурсников. Соотношение мужчин и женщин 30/70. Тогда все они могут быть разделены на страты первокурсники-второкурсники и мужчины-женщины. Генеральная совокупность Выборочная совокупность 1 курс2 курс 1 курс2 курс мужчины мужчины женщины женщины Всего 2000 человекВсего 100 человек
14 14 Иванов О.В., 2004 Систематическая выборка Систематическая выборка получается путем нумерации каждого члена генеральной совокупности и затем выбором каждого k-ого номера. Пример. Генеральная совокупность включает 2000 единиц, требуется отобрать 50. Поскольку 2000/50=40, то будем выбирать каждый 40-й элемент. Для начала случайным образом выберем первый элемент выборки среди первых сорока элементов генеральной совокупности. Если первым оказался номер 12, тогда выборка будет включать объекты с номерами 12, 52, 92 и так далее, всего 50 объектов.
15 15 Иванов О.В., 2004 Кластерная выборка Кластерная выборка образуется при выделении отдельных групп, которые называются кластерами. Пример. Исследователю необходимо опросить жителей, проживающих в квартирах небольшого города. Если в городе 10 жилых домов, исследователь может выбрать любые два и опросить всех жителей этих домов.
16 16 Иванов О.В., 2004 Постановка проблемы. Требуется изучить поведение в туристических поездках жителей штата Флорида. Для этого требуется составить план выборочного наблюдения. Составление плана. Семьи стратифицировали на три района Флориды: северный, центральный и южный. Для отбора семей воспользовались случайным компьютерным набором телефонных номеров. Из каждой семьи отбираются кандидаты, соответствующие четырем критериям: 1. Возраст 25 лет и старше. 2. Проживает во Флориде как минимум 7 месяцев в году. 3. Прожил во Флориде как минимум 2 года. 4. Получал водительские права во Флориде. Для отбора респондента из каждой семьи требуется перечислить всех членов семьи, удовлетворяющих четырем критериям и из них выбрать того, кто следующим отпразднует свой день рождения. Пример плана выборочного наблюдения
17 17 Иванов О.В., 2004 Пример плана выборочного наблюдения (2) План выборочного наблюдения 1. Изучаемая совокупность: Элементы совокупности - люди, отвечающие четырем критериям Единицы выборки - в семье с телефоном Территория - в штате Флорида Время - в период проведения опроса 2. Основа выборки: Компьютерная программа, случайным образом генерирующая номера телефонов. 3. Метод получения выборки: Стратифицированная выборка. Три района Флориды: северный, центральный и южный.
18 18 Иванов О.В., 2004 Пример плана выборочного наблюдения (3) 4. Единица выборки: Номера работающих телефонов. 5. Объем выборки: Получение выборки: Поделите выборку на страты. С помощью компьютера наберите произвольные телефонные номера. Перечислите всех членов семьи, отвечающих четырем критериям. Выберите одного члена семьи методом следующего дня рождения.
19 23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г Логика статистических выводов Параметры и статистики Выборочное распределение среднего Центральная предельная теорема Стандартные ошибки среднего и доли
20 20 Иванов О.В., 2004 Параметры и статистики Параметр – показатель (число), вычисленное для всей генеральной совокупности. Параметр генеральной совокупности есть фиксированное число, которое нам не известно. При его вычислении случайность отсутствует. Параметр есть неизвестная и фиксированная величина. Статистика – показатель (число), вычисленное на основе данных выборки. Поэтому статистика является случайной величиной, так как в ее основе лежат данные, полученные в результате случайного отбора. Статистика является известной и случайной величиной. Статистики являются оценочными функциями параметров генеральной совокупности. Фактическое значение статистики, рассчитанное по данным выборки, назовем оценкой параметра совокупности.
21 21 Иванов О.В., 2004 Проведем учебный расчет Рассмотрим генеральную совокупность, состоящую из чисел 1, 2, 5. Наблюдаемый признак может принимать одно из трех значений с вероятностью 1/3. Параметры генеральной совокупности: Среднее значение= 2,7 Медиана= 2 Размах= 4 Дисперсия= 2,9 Стандартное отклонение= 1,7 Доля нечетных чисел= 0,67 Какие значения принимают соответствующие статистики выборки?
22 22 Иванов О.В., 2004 Средние значения шести статистик Все возможные выборки объема n=2 СреднееМедианаРазмахДисперсия Стандартное отклонение Доля нечетных чисел 111,0 00,0 1,0 121,5 10,50,70,5 153,0 48,02,81,0 211,5 10,50,70,5 222,0 00,0 253,5 34,52,10,5 513,0 48,02,81,0 523,5 34,52,10,5 555,0 00,0 1,0 Среднее значение статистики 2,72,671,782,91,30,7 Параметр генеральной совокупности 2,7242,91,70,7 Только для трех статистик их средние значения совпадают с соответствующими значениями параметров генеральной совокупности.
23 23 Иванов О.В., 2004 Какие статистики дают оценку параметров Статистики, которые служат оценками параметров генеральной совокупности: Среднее значение (Mean) Дисперсия(Variation) Доля(Proportion) Статистики, которые не могут служить оценками параметров генеральной совокупности: Медиана(Median) Размах(Range) Стандартное отклонение(Standard Deviation)
24 24 Иванов О.В., 2004 Выборочное распределение статистики Генеральная совокупность Генеральная совокупность Статистика Выборка Статистика Выборка Статистика Выборка Случайные выборки Значения статистики, полученные на основе выборки Выборочное распределение статистики
25 25 Иванов О.В., 2004 Распределение выборочных средних Распределение выборочного среднего есть вероятностное распределение среднего значения выборки при условии, что рассматриваемые выборки имеют одинаковый объем n. Для распределения можно вычислить среднее значение, дисперсию и стандартное отклонение. СреднееВероятность 1,01/9 1,51/9 3,01/9 1,51/9 2,01/9 3,51/9 3,01/9 3,51/9 5,01/9 Распределение выборочных средних для рассмотренного примера.
26 26 Иванов О.В., 2004 Три ключевых распределения Распределения Среднее значение Стандартное отклонение Распределение генеральной совокупности Распределение выборочных средних Распределение выборки Логика статистических заключений (или статистический вывод, statistical inference) основывается на трех ключевых распределениях: распределении генеральной совокупности, распределении выборочных средних и распределении выборки.
27 27 Иванов О.В., 2004 Центральная предельная теорема Для случайной выборки объема n из генеральной совокупности справедливы утверждения. 1. С ростом объема выборки n распределение выборочного среднего стремится к нормальному распределению. 2. Среднее значение всех выборочных средних есть среднее значение генеральной совокупности μ. 3. Стандартное отклонение всех выборочных средних равно. Итак:
28 28 Иванов О.В., 2004 Пример. Пассажиры лифта Предположим, пассажир лифта имеет средний вес 80 кг и стандартное отклонение 20 кг. Средний вес одного пассажира8080 Стандартное отклонение2020
29 29 Иванов О.В., 2004 Распределение общей суммы значений Кроме распределения выборочного среднего, приведенные утверждения также верны и для распределения общей суммы значений выборки. С ростом объема выборки n распределение общей суммы также стремится к нормальному распределению. Среднее Общая сумма Среднее Стандартное отклонение
30 30 Иванов О.В., 2004 Пример. Пассажиры лифта (2) Предположим, пассажир лифта имеет средний вес 80 кг и стандартное отклонение 20 кг. Средний вес общей суммы80800 Стандартное отклонение20200
31 31 Иванов О.В., 2004 Особенности применения теоремы 1. Распределение выборочных средних стремится к нормальному вне зависимости от вида распределения генеральной совокупности. Это означает, что оно будет нормальным и в том случае, когда генеральная совокупность имеет ассиметричное или равномерное распределение. 2. Чем сильнее распределение генеральной совокупности отличается от нормального, тем большее влияние оказывает увеличение объема выборки на точность результата. Считается, что центральная предельная теорема дает для статистических заключений приемлемые результаты, если объем выборки больше Если генеральная совокупность имеет нормальное распределение, тогда выборочная средняя будет распределена нормально для выборок любого объема.
32 32 Иванов О.В., 2004 Стандартная ошибка среднего Любое распределение характеризуется стандартным отклонением. Точное его значение для генеральной совокупности не известно. Поэтому для оценок рассматривают стандартную ошибку среднего. Стандартная ошибка среднего оценивает выборочную изменчивость выборочного среднего, приближенно показывая, насколько выборочное среднее отличается от среднего генеральной совокупности. Стандартное отклонение среднего Стандартная ошибка среднего
33 33 Иванов О.В., 2004 Отличия стандартного отклонения от ошибки Показывает, насколько отдельные элементы выборки отличаются от среднего выборки Показывает, насколько выборочные средние отличаются от среднего генеральной совокупности Отдельные элементы Выборочные средние
34 34 Иванов О.В., 2004 Поправка для малой совокупности Если объем генеральной совокупности небольшой и выборка составляет значительную часть совокупности, стандартную ошибку можно уменьшить, введя поправочный коэффициент для конечной генеральной совокупности. Скорректированная стандартная ошибка запишется в виде: Если размер выборки приближается к размеру генеральной совокупности, значение N – n уменьшается, значение скорректированной ошибки также уменьшается, что отражает высокое качество оценки, полученной почти по генеральной совокупности. Если N большое, то поправочный коэффициент близок к 1 и не оказывает влияния на величину ошибки.
35 35 Иванов О.В., 2004 Стандартная ошибка доли признака В случае биномиального распределения имеют место две ошибки: для частоты m и для доли m/n. Неизвестная доля признака в генеральной совокупности обозначена. Частота событий, m Доля, Стандартное отклонение (для генеральной совокупности) Стандартная ошибка (оценка по выборке)
36 36 Иванов О.В., 2004 Пример. Стандартная ошибка для доли признака Обследовано 50 индивидуумов. У 8 обнаружены отклонения по здоровью. Это означает, что 16% обследованных имеют отклонения. Расчет: Выводы. Доля равна 16% с неопределенностью 5,18%. Наблюдаемая частота равна 8 с неопределенностью 2,59.
37 37 Иванов О.В., 2004 Понятия и термины План выборочного наблюдения Целевая генеральная совокупность Основа выборочного наблюдения Простая случайная выборка Систематическая выборка Стратифицированная выборка Кластерная выборка Параметр генеральной совокупности Статистика, оценочная функция Выборочное распределение статистики Выборочное распределение средней, стандартного отклонения, доли Выборочное распределение Стандартная ошибка среднего
38 38 Иванов О.В., 2004 Задание на 5 минут Назовите разделы исследовательского анализа данных (EDA).
39 39 Иванов О.В., 2004 Задание. IQ тест для 25 студентов Результаты IQ теста имеют среднее значение 100 и стандартное отклонение 15. Планируется протестировать 25 студентов и получить результаты теста для каждого. Какова вероятность, что выборочное среднее: 1. Окажется больше 105? 2. Окажется меньше 97? 3 Окажется между 95 и 105? Решение. По условию: = 100, = 15, n = 25
40 40 Иванов О.В., 2004 Решение задания по п. 1. По таблице для z=1,67 находим, что площадь равна 0,0475. Ответ по п.1. Выборочное среднее результатов теста 25 студентов окажется выше 105 с вероятностью 0,0475. Площадь 0,0475
41 41 Иванов О.В., 2004 Решение задания по п. 2. По таблице для z= -1 находим, что площадь равна 0,1587. Ответ по п.2. Выборочное среднее результатов теста 25 студентов окажется ниже 97 с вероятностью 0,1587. Площадь 0,1587
42 42 Иванов О.В., 2004 Решение задания по п. 3. Пользуемся таблицей. Находим, что площадь равна 0,9050. Ответ по п.3. Выборочное среднее результатов теста 25 студентов окажется в пределах от 95 до 105 с вероятностью 0,9050.
43 43 Иванов О.В., 2004 Задачи 1. Имеется перечень из 20 компаний. Получите случайную выборку объема Задача на ошибку для доли признака. 3. Среднее 100, стандартное отклонение 20. Оценить, что 12 объектов окажутся …
44 44 Иванов О.В., 2004 Задача. Стратификация счетов в аудите Счета компании сгруппированы следующим образом: 56 крупных, 956 средних, мелких. Счета имеют балансовый и фактической остатки, которые могут различаться. Решено в ходе аудита проверить все крупные счета, 15% средних и 2% мелких счетов. Совокупная ошибка (разность между балансовой и фактической стоимостью) составила: $ для крупных, $ 1165 для средних, $ 792 для мелких счетов. Стандартные отклонения ошибок составили соответственно: $ 968,62 для крупных, $ 7,12 для средних, $ 5,14 для мелких. 1. Найдите выборочное среднее ошибки на один счет в каждой из страт. 2. Объедините эти три ошибки, чтобы найти стратифицированную выборочную среднюю оценку средней ошибки на один счет в генеральной совокупности. 3. Определите стандартную ошибку своей оценки с учетом и без учета поправки на конечность генеральной совокупности. 4. Объясните значение стандартной ошибки в терминах значения среней ошибки на один счет, дл генеральной совокупности.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.