Общая теория статистики Выборочный метод в статистике. Статистическая гипотеза
Выборкой является реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений x 1, x 2 … x n случайной величины X, а гипотетически существующая (домысливаемая) – генеральной совокупностью. Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности, а несплошное (выборочное) наблюдение – только его части. Генеральная совокупность может быть конечной (число наблюдений N=const) или бесконечной (N=). Число наблюдений n, образующих выборку, называется объемом выборки. Если объем выборки достаточно велик (n ) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины X объем выборки не превышает 30 (n<=30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k<10). Пример 1. Случайно отобранная совокупность объектов – коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д. Тема 4. Выборочный метод в статистике. Статистическая гипотеза 2
Способы организации выборочного наблюдения: простой случайный отбор, при котором n объектов случайно извлекаются из генеральной совокупности N объектов. Такие выборки называются собственно- случайными; простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими; стратифицированный отбор заключается в том, что генеральная совокупность объема N подразделяется на под совокупности или слои (страты) объема N 1, N 2 … N r так что N 1 +N 2 +…+N r =N. Страты представляют собой однородные объекты (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия – по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными); методы серийного отбора используются для формирования серийных или гнездовых выборок, если необходимо обследовать сразу «блок» или серию объектов (например, партию товара или население при территориально- административном делении страны). Отбор серий можно осуществить собственно- случайным или механическим способом; комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора; такая выборка называется комбинированной. Тема 4. Выборочный метод в статистике. Статистическая гипотеза 3
По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе– качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов. По методу отбора различают повторную и бесповторную выборку. Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной. Тема 4. Выборочный метод в статистике. Статистическая гипотеза 4
Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности: k n = n/N. Выборочная доля w – это отношение единиц, обладающих изучаемым признаком x к объему выборки n: w = n n /n. Пример 2. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%). Тема 4. Выборочный метод в статистике. Статистическая гипотеза 5
6 Характеристика параметров распределения Совокупность генеральная выборочная Объем выборкиNn Количественный признак Среднее значение Дисперсия Среднее квадратическое отклонение Альтернативный признак Численность единиц совокупности, обладающих признаком x NxNx nxnx Доля единиц, обладающих признаком x Дисперсия 2 = p (1 – p) s 2 = w (1 – w) Среднее квадратическое отклонение
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 7
8 Вид выборки Отбор повторный бесповторный Количественный признак Собственно случайная Механическая– Типическая (стратифицированная) Серийная Альтернативный признак Собственно случайная Механическая– Типическая (стратифицированная) Серийная
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 9
10 Гипотеза – научно-обоснованное предположение, которое необходимо проверить, а далее принять или опровергнуть. Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. Выдвигается основная (нулевая) гипотеза H 0 и проверяется, не противоречит ли она имеющимся эмпирическим данным. Конкурирующей (альтернативной) называют гипотезу H 1, которая противоречит нулевой. Статистическая гипотеза, однозначно определяющая распределение p, то есть H: {p = p 0 }, где p 0 какой-то конкретный закон, называется простой. Статистическая гипотеза, утверждающая принадлежность распределения p к некоторому семейству распределений, то есть вида H: {p P}, где P – семейство распределений, называется сложной. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза; вероятность совершить такую ошибку обозначают и называют ее уровнем значимости. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза, вероятность которой обозначают, а мощностью критерия является вероятность 1-.
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 11 Под критической областью понимают совокупность значений критерия, при которых нулевую гипотезу H 0 отвергают. Критическую область при заданном уровне значимости следует строить так, чтобы мощность критерия была максимальной. Виды критических областей: двусторонняя критическая область определяется двумя интервалами: (- ;x ) (x 1- ;+ ); левосторонняя критическая область определяется интервалом (- ;x ); правосторонняя критическая область определяется интервалом (x 1- ;+ ). Этапы проверки статистических гипотез: 1. Формулировка основной гипотезы H 0 и конкурирующей гипотезы H Задание уровня значимости, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода. 3.Расчёт статистики критерия. 4. Построение критической области. 5. Вывод об истинности гипотезы.
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 12
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 13
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 14 Вид выборки Отбор повторный бесповторный Количественный признак Собственно случайная Механическая– Типическая (стратифицированная) Серийная Альтернативный признак Собственно случайная Механическая– Типическая (стратифицированная) Серийная
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 15
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 16
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 17 Срок выполнения заявок (мес.) Число наблюдений (абсолютная частота) f i Середина интервала (градации) признака x i Относительная частота р i (%) До Свыше Всего %
Тема 4. Выборочный метод в статистике. Статистическая гипотеза 18