Тема 6. Выборочное наблюдение Вопрос 1. Понятие о выборочном наблюдении и его значение. Вопрос 2. Основные способы формирования выборочной совокупности Вопрос 3. Ошибка выборки Вопрос 4. Определение необходимой численности выборки Вопрос 5. Способы распространения результатов выборочного наблюдения на генеральную совокупность
Вопрос 1. Понятие о выборочном наблюдении и его значение. Под выборочным понимается такое несплошное наблюдение, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части, включающей единицы, отобранные случайным образом. Изучаемая статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью. Отобранная из генеральной совокупности часть единиц, подвергающихся обследованию, называется выборочной совокупностью или выборкой.
Выборочный метод применяется в случаях: 1) проведение сплошного наблюдения экономически нецелесообразно. Например, проверка качества отдельных видов продукции связана с ее уничтожением (оценка крепости ниток на разрыв; дегустация продуктов питания; контроль качества фарфора, электроламп, спичек, различных сплавов и т. п.); 2) отдельные статистические совокупности настолько велики, что собрать данные в отношении каждой из единиц невозможно. Например, изучение цен на рынках, изучение бюджетов семей; 3) для проверки результатов сплошного наблюдения (ревизия хозяйственной деятельности).
Выборочный метод позволяет провести обследование: а) при минимальной численности обследованных единиц; б) в наиболее короткие сроки; в) с минимальными затратами труда и средств. В результате повышается оперативность информации, уменьшаются ошибки регистрации вследствие лучшего кадрового обеспечения наблюдения, так как к его проведению привлекаются наиболее квалифицированные кадры.
Поскольку изучаемая статистическая совокупность состоит из единиц с варьирующими признаками, то состав выборочной совокупности в той или иной мере отличается от состава генеральной совокупности. Возникающее вследствие этого расхождение между характеристиками выборки и генеральной совокупности составляет ошибку выборки. Способы определения ошибки выборки и распространения характеристик выборки на генеральную совокупность составляют основное содержание статистической методологии выборочного метода.
Вопрос 2. Основные способы формирования выборочной совокупности При выборочном наблюдении, как правило, обследованию подвергается 5–10% единиц совокупности, реже 15–25%. Качество результатов выборочного наблюдения зависит от того, насколько репрезентативна (т. е. представительна) выборка. Для обеспечения репрезентативности выборки необходимо соблюдение принципа случайности отбора единиц. Принцип случайности предполагает, что на включение объекта в выборку не может повлиять какой-либо иной фактор, кроме случая.
Существуют различные способы формирования выборочной совокупности. В практике выборочных наблюдений наибольшее распространение получили следующие виды выборки: 1) собственно-случайная; 2) механическая; 3) типическая; 4) серийная; 5) комбинированная. Основным видом выборки является собственно-случайная, все другие виды являются ее развитием или видоизменением.
Собственно-случайная выборка заключается в отборе единиц из генеральной совокупности наугад, без каких-либо элементов системности. Отбор проводят: а) методом жеребьевки - всем элементам генеральной совокупности присваивается порядковый номер и для каждого из них готовится жребий (пронумерованный шар или фишка). Жребии перемешиваются в специальном ящике, из которого затем отбираются наугад. б) по таблицам случайных чисел - производится выбор случайных чисел по специальным таблицам, которые и образуют порядковые номера для отбора. В соответствии с объемом генеральной совокупности выбирается любой столбец или строка с числами необходимой значимости.
Собственно-случайный отбор может быть повторным либо бесповторным. При бесповторном отборе выпавшие в процессе жеребьевки жребии обратно в совокупность не возвращаются и в дальнейшем отборе не участвуют. Если используются таблицы случайных чисел, то бес повторность отбора достигается пропуском чисел при их повторении в выбранном столбце или столбцах.
Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т. е. имеется определенная последовательность в расположении единиц. Например, табельные номера работников, избирателей, телефонные номера респондентов, номера домов и квартир и т. п..
Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотношением объемов выборочной и генеральной совокупностей. Так, если из совокупности в 5000 единиц пред- полагается получить 2%-ную выборку, т. е. отобрать 100 единиц, то пропорция отбора составит 1:50 (100/5000). Это значит, что отбирается одна из каждых 50 единиц.
В соответствии с установленной пропорцией отбора генеральная совокупность механически разбивается на равновеликие группы (в нашем примере по 50 единиц). Из каждой группы в выборку отбирается одна единица. При этом устанавливаются: 1) начало отсчета - номер единицы, которая должна быть обследована первой; 2) шаг отсчета - расстояние между отбираемыми единицами.
За начало отсчета чаще всего принимают единицу, лежащую в середине первого интервала (для исключения возможности возникновения систематической ошибки выборки). Шаг отсчета равен ширине интервала, на который разбивается совокупность. Механический отбор можно рассматривать как разновидность собственно- случайной бесповторной выборки.
Типическая выборка используется в случаях, когда все единицы генеральной совокупности можно разбить на несколько типических групп. Например, при обследования населения могут быть выделены социальные, возрастные или образовательные группы; при обследовании предприятий – группы по отраслям и подотраслям, форме собственности. Типический отбор предполагает выборку единиц из каждой типической группы собственно- случайным или механическим способом. При этом отбор единиц может быть организован: а) пропорционально объему типических групп; б) пропорционально внутригрупповой вариации признака.
Серийный отбор удобен в тех случаях, когда единицы совокупности объединены в группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения. Сущность серийной выборки заключается в собственно-случайном или механическом отборе серий, внутри каждой из которых производится сплошное обследование единиц.
Комбинированный отбор представляет собой различные сочетания уже рассмотренных видов выборки. Например, можно комбинировать типическую и серийную выборки, когда выбираются серии из нескольких типических групп. Возможно также комбинирование серийного и собственно-случайного отбора, при котором отдельные единицы отбираются внутри серии в собственно-случайном порядке.
Вопрос 3. Ошибка выборки В процессе проведения выборочного наблюдения могут возникать ошибки двух видов: 1) регистрации (случайные и систематические); 2) репрезентативности (случайные и систематические. Ошибок регистрации и систематических ошибок репрезентативности можно избежать при правильной организации и проведении наблюдения. Случайных ошибок репрезентативности избежать невозможно, поскольку они возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную. Однако среднюю величину случайной ошибки можно рассчитать, пользуясь методами теории вероятностей.
Введем следующие обозначения: N - объем генеральной совокупности (число составляющих ее единиц); n – объем выборки (число обследованных единиц); - средняя величина признака в генеральной совокупности (генеральная средняя); - средняя величина признака в выборочной совокупности (выборочная средняя); p – доля единиц, обладающих изучаемым признаком в генеральной совокупности (генеральная доля).
w – доля единиц выборочной совокупности, обладающих изучаемым признаком (выборочная доля); σ 2 – генеральная дисперсия; S 2 – выборочная дисперсия ( S 2 σ 2 для больших выборок, т.е. при n > 30); R – число серий в генеральной совокупности; r – число отобранных серий.
Формулы для расчета ошибки выборки Вид выборки Для средней величины количественного признака ( x ) Для альтернативного признака ( W ) Повторный отбор Бесповторный отбор Повторный отбор Бесповторны й отбор Собственно- случайная, механическая Типическая (при отборе, пропорциональном объему групп) Серийная
Собственно-случайная, механическая повторный отбор бесповторный отбор
Типическая выборка (отбор пропорционально объему групп) повторный отбор бесповторный отбор
Серийная выборка повторный отбор бесповторный отбор
Исходя из приведенных выше формул можно утверждать: 1. Средняя величина случайной ошибки репрезентативности зависит от: а) принятого способа формирования выборочной совокупности; б) объема выборки; в) степени колеблемости изучаемого признака в генеральной совокупности. 2. Сопоставление формул повторного и бесповторного отбора свидетельствует о том, что применение последнего приводит к уменьшению ошибки выборки. 3. В тех случаях, когда численность генеральной совокупности (N) очень велика по сравнению с числом отобранных единиц (n) ошибку бесповторного отбора можно определить по формуле для повторного отбора (lim (1 – n) / N 1).
Для решения практических задач выборочного обследования расчета средней ошибки выборки недостаточно. Так, из генеральной совокупности может быть получено несколько выборок. При этом фактическая ошибка каждой конкретной выборки может оказаться больше или меньше средней ошибки. Поэтому помимо средней, рассчитывается предельная ошибка выборки. Ее величина зависит от того, с какой вероятностью должна гарантироваться ошибка выборки. Уровень доверительной вероятности определяется при помощи специального коэффициента – t, называемого коэффициентом доверия. Наиболее часто употребляются следующие уровни доверительной вероятности и значения t: t=1 P = 0,683; t=2 P = 0,954; t=3 P = 0,997.
Расчет предельной ошибки производится по формуле: х = t μ х w = t μ w Величина генеральной средней или доли представляется в виде пределов следующим образом: – t μ х + t μ х w – t μ w w + t μ w Таким образом, по результатам выборочного наблюдения с определенной степенью достоверности можно утверждать, что генеральная средняя или доля не выйдет за установленные пределы.
Пример. Из партии лампочек в 1000 шт. способом случайной бесповторной выборки отобрано 100 шт. Средняя продолжительность горения лампочек по отобранной части составляет 1200 ч, а среднее квадратичное отклонение ч. Из отобранных лампочек 90 шт. удовлетворяли стандарту. Требуется определить границы средней продолжитель- ности горения (с вероятностью 0,997), а также границы доли лампочек, удовлетворяющих стандарту (с вероятностью 0,954), во всей партии.
Решение: Средняя ошибка средней продолжительности горения лампочек определяется по формуле для собственно-случайного бесповторного отбора: Предельная ошибка средней продолжитель- ности горения лампочек определяется с учетом коэффициента доверия, соответствующего требуемому уровню доверительной вероятности (при t = 3 при Р=0,997): Δ х = tµ х = 3 19 = 57 ч
Пределы средней продолжительности горе- ния лампочек в партии: – х + х ; 1200 – ; Таким образом, с вероятностью Р=0,997 можно утверждать, что средняя продол- жительность горения лампочек во всей партии находится в пределах от 1143 до 1257 ч.
Доля лампочек в выборке, удовлет- воряющих стандарту (выборочная доля), составляет: Средняя ошибка доли стандартных лампочек определяется по формуле для собственно-случайного бесповторного отбора:
Предельная ошибка доли стандартных лампочек определяется с учетом коэффициента доверия, соответствующего требуемому уровню доверительной вероятности (t = 2 при Р=0,954): w = t w = 2 ּ0,028 = 0,056 Пределы доли лампочек в партии, удовлетво- ряющих стандарту, во всей партии w – w p w + w ; 0,9 – 0,056 p 0,9 + 0,056; 0,844 p 0,956. С вероятностью Р=0,954 можно утверждать, что доля лампочек в партии, удовлетворяющих стандарту, находится в пределах от 84,4 до 95,6%.
Пример. 10%-ный бесповторный типический отбор рабочих предприятия, пропорциональный размерам цехов, проводимый с целью оценки потерь рабочего времени из-за временной нетрудоспособности, привел к результатам, представленным в таблице. Из числа обследованных 90 рабочих первого цеха, 120 рабочих второго цеха и 70 рабочих третьего цеха не имели случаев нетрудо- способности. С вероятностью 0,954 требуется определить границы среднего числа дней нетрудоспособности, а также границы доли рабо- чих, не имевших случаев нетрудоспособности, по предприятию в целом.
Цех Всего рабочих, чел. Обследовано, чел. Число дней временной нетрудоспособности за год средняядисперсия
Среднее число дней временной нетрудоспособности в выборочной совокупности определяется по формуле сред- ней арифметической взвешенной: Средняя из внутригрупповых дисперсий числа дней временной нетрудоспособности по трем цехам завода:
Средняя ошибка среднего числа дней нетрудоспособ- ности рассчитывается по формуле для типического беспов- торного отбора : Предельная ошибка выборки определяется с учетом до- верительной вероятности 0,954: x = 2 ּ0,3 =0,6 дн. Пределы среднего числа дней нетрудоспособности по предприятию в целом 14,6 – 0,6 14,6 + 0,6; 14 15,2.
Доля рабочих, не имевших случаев нетрудоспособности, по цехам предприятия составляет: Доля рабочих, не имевших случаев нетрудоспособности, по выборке в целом определяется по формуле средней арифметической взвешенной: W=
Для определения средней ошибки доли рассчитаем среднюю из внутригрупповых дисперсий: Средняя ошибка доли рабочих, не имевших случаев не- трудоспособности Предельная ошибка доли рабочих, не имевших случаев нетрудоспособности: w = t μ w = 2 ּ0,02 = 0,04.
Пределы доли рабочих, не имевших слу- чаев нетрудоспособности, по предприятию в целом 0,88 – 0,04 Р 0,88 + 0,04; 0,84 Р 0,92.
Пример 3. На склад завода поступило 100 ящиков готовых изделий по 80 шт. в каждом. Для установления среднего веса деталей проведена серийная выборка. Выборочные средние по сериям составили 16; 15,5; 15 и 15,9 г. Доля бракованных деталей по сериям составила 5; 6; 4 и 3 % соответственно. С вероятностью 0,954 определите средний вес деталей и долю бракованных деталей в партии. Средний вес деталей в выборке определяется по формуле средней арифметической простой:
Х= г. Межгрупповая (межсерийная) дисперсия веса деталей в выборке: Средняя ошибка среднего веса деталей определяется по формуле для серийного бесповторного отбора: Мх= г.
Предельная ошибка среднего веса деталей x = tµ x = 2 ·0,2 =0,4 г. Пределы среднего веса деталей в партии Доля бракованных деталей в выборке Межгрупповая (межсерийная) дисперсия доли брако- ванных деталей 15,6 - 0,4 Х 15,6 + 0,4 15,2 Х 16 W =
Средняя ошибка доли бракованных деталей Предельная ошибка доли бракованных деталей w = t w =2 0,55=1,1 Пределы доли бракованных деталей в партии 4,5 - 1,1 Р 4,5 + 1,1 3,4 Р 5,6
6.4. Определение необходимой численности выборки На стадии организации выборочного наблюдения решается вопрос о том, каков должен быть объем выборочной совокупности, для того, чтобы была обеспечена требуемая точность результатов наблюдений. Уменьшение ошибки выборки, а следовательно, увеличение точности определения параметров генеральной совокупности всегда связано с увеличением объема выборки.
Увеличивая численность выборки, можно довести ее ошибку до сколь угодно малых размеров. Однако из формул средней ошибки выборки следует, что уменьшение ошибки в k раз требует увеличения объема выборки в k раз. Увеличение объема исследований, в свою очередь, вызывает дополнительные затраты труда и средств, снижает оперативность информации. Поэтому вопрос об оптимальной численности выборки имеет важное практическое значение
Определение необходимой численности выборки основывается на формуле ее предельной ошибки. Так, при случай-ном повторном отборе объем необходимой численности выборки получаем в результате преобразования соответствующей формулы:.
Таким же образом выводятся формулы для расчета численности выборки при других способах отбора Расчетную величину объема выборки с целью получения запаса точности округляют в большую сторону. Для упрощения расчетов при определении объема бесповторной выборки может использоваться формула для повторной выборки, что также дает запас точности
Иногда на практике вместо величины абсолютной предельной ошибки x, задается величина относительной ошибки, выра- женной в процентах к средней, %. В этом случае формулы для расчета необходимого объема выборки также получаются в результате преобразования соответствую- щих формул ошибки выборки:
Формулы для расчета необходимого объема выборки при различных способах формирования выборочной совокупности Вид выборки При определении средней величины признака При определении доли признака Повторный отбор Бесповторный отбор Повторный отбор Бесповторный отбор Собственно- случайная и механическая Типическая Серийная
Собственно-случайная и механическая Повторный отбор Бесповторный отбор
Типическая Повторный отбор Бесповторный отбор
Серийная Повторный отбор Бесповторный отбор
Дисперсия признака в генеральной совокуп- ности зачастую бывает неизвестна. Поэтому ис- пользуют следующие приближенные способы оп- ределения генеральной дисперсии: 1) используются данные предыдущих обследова- ний; 2) проводятся несколько пробных обследований и выбирается наибольшее значение дисперсии; 3) если распределение признака в генеральной совокупности подчиняется нормальному закону, то R = 6 = R. 4) при изучении альтернативного признака бе- рется максимально возможная величина диспер- сии, равная 0,25 (т. е. при w = 0,5).
Для упрощения определения объема выборки можно воспользоваться таблицами, в которых ука- зывается необходимая ее численность при заданных величинах доверительной вероятности и допусти- мой ошибки. Если целью выборочного наблюдения является изучение различных признаков с неодинаковой колеблемостью, то при определении необходимого объема выборки следует ориентироваться на тот признак, который при наибольшей колеблемости обладает наименьшей величиной допустимой ошибки.
Пример. Какова должна быть численность выбор- ки, чтобы с вероятностью 0,997 предельная ошибка средней продолжительности горения лампочек не превышала 60 часов. Известно, что объем генераль- ной совокупности 1000 лампочек, а среднее квадра- тическое отклонение 200 ч.
Пример. Определите необходимую численность выборки, чтобы с вероятностью 0,954 предельная ошибка доли лампочек удовлетворяющих стан- дарту, не превышала 6%. Доля лампочек, удовлет- воряющих стандарту, составляет 90%, а числен- ность генеральной совокупности 1000 лампочек.
Вопрос 5. Способы распространения характеристик выборки на генеральную совокупность Заключительным этапом выборочного наблюдения является распространение его результатов на генеральную совокупность. Существуют два основных способа распространения выборочных данных: 1) способ прямого пересчета; 2) способ поправочных коэффициентов.
Способ прямого пересчета применяется тогда, когда с помощью средних, полученных по данным выборочного наблюдения определяются объемные показатели. Например, по данным выборочного наблюдения известно, что число детей школьного возраста составляет 1,2 чел. При ошибке выборки 0,1 чел. Общее количество семей в микрорайоне составляет тогда для обучения всех детей школьного возраста, проживающих в микрорайоне требуется от 1100 до 1300 мест в школе.
Способ поправочных коэффициентов приме- няется для уточнения и проверки данных сплошного наблюдения. На основании данных выборочного наб- людения рассчитываются поправочные коэффи- циенты, по которым производится корректировка итогов сплошного наблюдения. Например, в городе зарегистрировано 2000 торговых палаток, в том числе в одном из районов – 400. По результатам контрольных обходов установлено, что в этом районе находится 420 палаток. Коэффициент недосчета составляет 1,05 (420/400). Тогда общее количество торговых палаток в городе составляет 2100 (2000*1,05).