Теория статистики Выборочное наблюдение и Статистический вывод Часть 1. 1
Тема Статистический вывод по данным выборки 2
Постановка практической задачи Пусть имеется 7 партий товара для приобретения и последующей реализации на рынке Требуется оценить среднее число единиц некондиции в партии Пусть приемлемо проверить только 2 партии товара, по результатам чего нужно сделать статистически обоснованный вывод 3
Исходные данные Пусть на самом деле в партиях товара: 1)Одна единица некондиции 2)Две единицы некондиции ………… 7)Семь единиц некондиции Если выбирать для проверки 2 партии из 7, то всего возможных выборок: 4
Все возможные выборки и выборочные средние Возможные выборки: 1,22,33,44,55,66,7 1,32,43,54,65,7 1,42,53,64,7 1,52,63,7 1,62,7 1,7 Средние выборочные: 1,5 2,53,54,55,56,5 2,0 3,04,05,06,0 2,5 3,54,55,5 3,04,05,0 3,54,5 4,0 5
Частотное распределение средних выборочных 6
Выводы Частотная столбиковая диаграмма выборочных средних аппроксимирует функцию плотности нормального распределения: 7
Характеристики признака выборочных средних Итак, имеется признак выборочных средних: Среднее значение: Дисперсия: 8
Центральная предельная теорема ЦПТ можно выразить так: распределение вероятностей средней выборочной (случайной величины ) при достаточно большом объеме выборки (n) близко к распределению Гауссовой случайной величины с параметрами: Или по другому: случайные величины Z n асимптотически нормальны: 9
Следствие: односторонний критерий проверки гипотез 10
Следствие: двусторонний критерий проверки гипотез 11
Пример Процесс упаковки соли считается нормальным, если в пачку помещено 1000 г. Стандартное отклонение при исправном оборудовании составляет 12 г. Для контроля качества упаковки каждый час взвешиваются 16 пачек соли. Результаты: г. Является ли это достаточным основанием для остановки и ремонта оборудования (при уровне значимости )? 12
Пример Истинное среднее: г Стандартное отклонение: г Объем выборки: Среднее выборочное: г Проверяем гипотезу H 0 :г Уровень значимости: Решение: Стандартное отклонение выборочного среднего: 13
Пример Знаем, что статистика: Следовательно можем протестировать гипотезу H 0 В примере: По таблице нормального закона распределения находим, что 14
Вывод: производственный процесс останавливать не требуется Произошло вполне вероятное событие на уровне значимости 15
Ошибки первого и второго рода При проверки гипотез возможны ошибки выводов двух видов: 1)Отклонить верную нулевую гипотезу – ошибка 1-го рода 2)Не отклонить ложную гипотезу – ошибка 2-го рода Риск - вероятность, соответствующая возможности неверного вывода Мощность критерия: 16
Типичные гипотезы Проверка гипотезы о законе распределения Проверка гипотезы о независимости двух качественных признаков (таблицы сопряженности) Проверка гипотез о средних величинах Однофакторный дисперсионный анализ Проверка гипотез о значимости моделей и их параметров 17
Тема Методы выборочных обследований 18
Терминология Генеральная совокупность (population) Основа выборки (sampling frame) План выборки (sampling design) Выборка (sample) Вероятностная выборка (probability sample) Неслучайная выборка (nonprobability sample) 19
Определения Генеральная совокупность – это множество элементов, обладающих рядом представляющих интерес характеристик, которое полностью охватывает изучаемое явление Основа выборки – список относящихся к генеральной совокупности элементов с пообъектной базовой информацией Свойство опознаваемости элементов 20
Определения Базовая информация: – набор характеристик, известных до проведения обследования для каждого элемента основы выборки – известные значения показателей Например: - количество заказов клиента компании - объем продаж клиенту компании Контактная информация по клиентам не является базовой информацией 21
Определения Перепись (census) - сплошной охват элементов генеральной совокупности с целью сбора сведений Выборка - любое подмножество элементов генеральной совокупности, отобранных для наблюдения 22
Процесс создания выборки 23
Практические проблемы, связанные с основой выборки Пропущенные элементы Элементы, выходящие за рамки ГС Дублирующиеся элементы Кластеризованные элементы 24
Неслучайная выборка Виды неслучайной выборки: Удобная (convenience sample) Целевая/по суждению (judgmental sample) Квотная (quota sample) По принципу «снежного кома»/по рекомендации (snowball sample) 25
Вероятностная выборка Виды случайной выборки: Простая Систематическая Расслоенная Кластерная Многоэтапная/кластерная 26
Два типа размещения элементов выборки по слоям 27
Иллюстрация многоэтапной выборки 28
Оценивание по дагнным выборки 29 -оценка Горвица-Томпсона (1952 г.) суммарного значения признака (y): Точность -оценки:
Ошибка случайной выборки 30
Простая случайная выборка Выборка из генеральной совокупности объема (N) при которой любое подмножество элементов объема (n) может быть отобрано с равной вероятностью План выборки: 31
Свойства Равные вероятности извлечения любого элемента: Для любой пары единиц генеральной совокупности имеем 32
Формулы оценивания Оценка суммарного показателя: Оценка дисперсии оценки суммы: 33
Пример Нужно оценить среднее число незанятых пассажирами мест на N = 4500 авиарейсах по данным выборки n = 225, если Построим 90%-ый доверительный интервал для оценки среднего 34
SPSS Complex Samples В пакете IBM SPSS имеется модуль Complex Samples – сложные выборки Возможности: Планировать и отбирать случайные выборки Корректный (с учетом плана отбора) статистический анализ данных выборки Расчет характеристик точности оценок, рассчитанных по выборке 35
SPSS Complex Samples Можно оценивать: объем и долю единиц генеральной совокупности среднее и суммарное значения отношение показателей коэффициенты уравнения регрессии Характеристики точности Эффект плана 36
Вывод итогов анализа в SPSS Оценка среднего и суммарного значений 37
Вывод итогов анализа в SPSS Оценка частот 38
Вывод итогов анализа в SPSS Оценка отношения 39