Тема 5. Статистическое изучение вариации признака Вопрос 1. Понятие о рядах распределения признака Вопрос 2. Показатели вариации признака Вопрос 3. Вариация.

Презентация:



Advertisements
Похожие презентации
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Advertisements

Показатели вариации Необходимость измерения вариации Средняя величина характеризует совокупность по изучаемому признаку, такой характеристики совокупности.
Показатели вариации Необходимость измерения вариации Средняя величина характеризует совокупность по изучаемому признаку, такой характеристики совокупности.
ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВАРИАЦИИ Кафедра «Бухгалтерский учет и аудит» Ослопова М.В.
Показатели вариации признака 1. Абсолютные показатели вариации; 1.1 Размах вариации; 1.2 Среднее линейное отклонение; 1.3 Среднее квадратическое отклонение;
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Статистические показатели План темы 1.Абсолютные и относительные величины 2.Средние величины 3.Структурные средние.
Вариация – это изменения значений признака во времени или пространстве.
Тема 4 Средние статистические показатели Статистический показатель - это объективная, обобщающая количественная характеристика явления или процесса в.
Вариационные ряды распределения и их числовые определения Преподаватель математики МИПК им. И. Федорова Епихина Е.В.
Тема 4 Средние статистические показатели Статистический показатель - это объективная, обобщающая количественная характеристика явления или процесса в.
Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »
ЛЕКЦИЯ 5 § 1. ОСНОВНЫЕ ПОНЯТИЯ Ме Медиана (Ме) - значение варьирующего признака, приходящееся на середину ряда, варианта, делящая ряд на две равные частиМедиана.
Т ЕМА 7. «Р ЯДЫ РАСПРЕДЕЛЕНИЯ В СТАТИСТИКЕ ». Ц ЕЛЬ : ИЗУЧИТЬ ПОНЯТИЕ СТАТИСТИЧЕСКОГО РЯДА РАСПРЕДЕЛЕНИЯ, ЕГО ВИДЫ ; НАУЧИТЬСЯ ОПРЕДЕЛЯТЬ И ОТЛИЧАТЬ СПОСОБЫ.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Статистические распределения и их основные характеристики.
ЛЕКЦИЯ 6 МЕРЫ ВАРИАЦИИ Различие в значениях одного и того же признака у разных единиц совокупности в один и тот же момент времени, возникающее в результате.
ЛЕКЦИЯ 6 МЕРЫ ВАРИАЦИИ. Различие в значениях одного и того же признака у разных единиц совокупности в один и тот же момент времени, возникающее в результате.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
Средние величины. Средняя величина – обобщающая характеристика совокупности однотипных явлений по какому-либо количественно изменяющемуся признаку.
Транксрипт:

Тема 5. Статистическое изучение вариации признака Вопрос 1. Понятие о рядах распределения признака Вопрос 2. Показатели вариации признака Вопрос 3. Вариация альтернативного признака Вопрос 4. Виды дисперсий. Правило сложения дисперсий Вопрос 5. Правило сложения дисперсий для альтернативного признака Вопрос 6. Изучение формы распределения признака Вопрос 7. Структурные средние величины Вопрос 8. Квартили, децили, перцентили

Вопрос 1. Понятие о рядах распределения признака Ряд распределения признака представляет собой простую структурную группировку, в которой каждая выделяемая группа характеризуется одним показателем – численностью единиц объекта, входящих в группу. В зависимости от признака, положенного в основу ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам. Вариационными называются ряды распределения, построенные по количественным признакам. Вариационный ряд состоит из двух элементов – вариантов и частот.

Варианты - значения признака, которые он принимает в вариационном ряду; Частоты – это численности отдельных вариантов значений признака или групп вариационного ряда, т.е. числа показывающие как часто встречаются те или иные варианты в ряду распределения. Сумма частот определяет численность всей совокупности, ее объем. Частоты, выраженные в долях единицы или в процентах к итогу, называются частностями. Сумма их равна 1 или 100%.

В зависимости от характера вариации признака различают: - дискретные вариационные ряды; - интервальные вариационные ряды. Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку. Интервальные вариационные ряды строятся при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Ряды распределения анализируют при помощи графических изображений, дающих наглядное представление о характере изменения частот вариационного ряда и позволяющих судить о форме распределения признака: 1. Полигон - изображение дискретных вариационных рядов. 2. Гистограмма - изображение интервальных вариационных рядов. 3. Кумулятивная кривая (кумулята) - изображение накопленных частот, которые определяются путем последовательного суммирования частот по группам.

Вопрос 2. Показатели вариации признака Вариация признака – зарегистрированные в процессе статистического наблюдения различия величины признака у отдельных единиц совокупности. По степени вариации признака можно судить: а) о развитии изучаемых явлений; б) о типичности средних величин.

В частности, средняя величина дает обобщающую характеристику признака в изучаемой совокупности, но не раскрывает ее строения. Средняя величина признака может быть одинакова в двух совокупностях, но в одном случае все индивидуальные значения мало отличаются от нее, в другом - эти отличия велики, что имеет большое значение для характеристики надежности средней величины.

Для определения меры вариации признака в статистике используются абсолютные и относительные показатели вариации. К абсолютным показателям вариации относятся: - размах вариации; - среднее линейное отклонение; - дисперсия; - среднее квадратическое отклонение.

Размах вариации (R) характеризует диапазон изменения значений признака: R=Xmax-Xmin где Xmax- максимальное значение признака в совокупности; Xmin – минимальное значение признака в совокупности.

Величина размаха вариации зависит только от крайних значений и не учитывает всех изменений варьирующего признака в пределах изучаемой совокупности. Поэтому при изучении вариации нельзя ограничиваться расчетом только этого показателя. Для анализа вариации необходимы показатели, дающие обобщенную характеристику всех колебаний варьирующего признака. К таким показателям относятся все другие абсолютные показатели вариации.

Среднее линейное отклонение представляет собой среднюю величину абсолютных отклонений индивидуальных значений признака от их средней арифметической величины. Среднее линейное отклонение для несгруппированных данных: Среднее линейное отклонение для сгруппированных данных:

Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней арифметической величины. Возведение в квадрат позволяет резко усилить различия в величинах отклонений. Дисперсия для несгруппированных данных: Дисперсия для сгруппированных данных: или

Среднее квадратическое отклонение: или

Среднее квадратическое отклонение также как и среднее линейное отклонение показывает на сколько в среднем отличаются индивидуальные значения признака от их среднего арифметического значения. Однако по величине оно превышает среднее линейное отклонение, т.к. более чутко реагирует на вариацию. Для симметричных и умеренно асимметричных распределений имеет место следующее соотношение:

Абсолютные показатели вариации являются именованными числами, т.е. имеют единицу измерения (такую же как и значения признака). Поэтому их нельзя использовать: 1) для сравнения степени вариации одного и того же признака в двух группах с разным уровнем средних; 2) для сравнения вариации двух различных признаков в одной группе.

В этих случаях применяются следующие относительные показатели вариации: - коэффициент осцилляции; - относительное линейное отклонение; - коэффициент вариации.

Коэффициент осцилляции: Относительное линейное отклонение(линейный коэффициент вариации): Коэффициент вариации:

Коэффициент вариации позволяет не только получить обобщающую характеристику вариации признака в совокупности, но и дает возможность сделать выводы об однородности совокупности. Совокупность считается однородной, если коэффициент вариации Vδ не превышает 33%. Средние величины, рассчитанные по однородной совокупности, считаются ее достаточно надежными характеристиками.

Пример. Имеются данные о распределении рабочих предприятия по квалификации (тарифному разряду). Требуется определить средний тарифный разряд рабочих, рассчитать абсолютные и относительные показатели вариации и сделать выводы о типичности средней величины для изучаемой совокупности.

Тарифный разряд Количество рабочих ВСЕГО100

Тарифный разряд Количество рабочих хfхf ,9 1,9 0,9 0,1 1,1 2,1 5,8 13,3 20,7 4,0 25,3 10,5 8,41 3,61 0,81 0,01 1,21 4,41 16,82 25,27 18,63 0,4 27,83 22,05 ВСЕГО ,6111,0

Решение: Средний тарифный разряд: Размах вариации: Среднее линейное отклонение:

Дисперсия: Среднее квадратическое отклонение: Коэффициент осцилляции:

Относительное линейное отклонение: Коэффициент вариации:

Вопрос 3. Вариация альтернативного признака В статистике помимо показателей вариации количественных признаков широко используются показатели вариации качественных признаков (например, при проектировании выборочного наблюдения).

Вариация альтернативного признака количественно проявляется в значение 0 (нуля) у единиц, которые этим признаком не обладают, или 1 (единицы) у тех, которые данный признак имеют. Пусть р – доля единиц в совокупности, обладающих данным признаком, q – доля единиц, не обладающих данным признаком, причем p+q=1.

Среднее значение альтернативного признака определим по формуле средней арифметической: Дисперсия альтернативного признака определяется по формуле:

Таким образом, средняя величина альтернативного признака равна доле его наличия в данной совокупности, а дисперсия – произведению доли его наличия на долю его отсутствия. Максимальное значение дисперсии альтернативного признака, означающее максимальную неоднородность совокупности, равно 0,25 при р=q=0,5.

Вопрос 4. Виды дисперсий. Правило сложения дисперсий Наряду с изучением вариации признака по всей совокупности в целом в ряде случаев бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии. В статистике различают виды дисперсий: общую; межгрупповую; внутригрупповую.

Общая дисперсия ( )измеряет вариацию признака во всей совокупности под влиянием факторов, обусловивших эту вариацию: Межгрупповая дисперсия ( ) характеризует систематическую вариацию, т.е.различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. где - среднее значение признака в i-ой группе; - численность элементов совокупности в i-ой группе. ( ).

Внутригрупповая дисперсия ( ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием случайных факторов и не зависящую от признака-фактора, положенного в основание группировки. Средняя из внутригрупповых дисперсий ( ) определяется по формуле:

Существует соотношение, связывающее три вида дисперсий и называемое правилом сложения дисперсий: Правило сложения дисперсий широко применяется при исчислении показателей тесноты связи. В статистической практике широко используется показатель, называемый коэффициентом детерминации, представляющий собой долю межгрупповой дисперсии в общей дисперсии: Коэффициент детерминации показывают долю (удельный вес) общей вариации изучаемого признака, обусловленную вариацией группировочного признака.

Эмпирическое корреляционное отношение характеризует влияние вариации признака, положенного в основании группировки, на вариацию результативного признака: Оно изменяется в диапазоне от 0 до 1: Если = 0, то группировочный признак не оказывает влияния на результативный. Если = 1, то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю. Промежуточные значения оцениваются в зависимости от их близости к предельным значениям. В статистической практике зависимость результативного признака от факторного считается: - слабой при - умеренной при, - сильной при > 0,7.

Пример. На производственном участке занято 10 человек, из них 5 человек прошли техническое обучение. По данным о производительности труда рабочих участка (штук в смену) требуется определить различные виды дисперсий и выяснить зависит ли уровень производительности труда от фактора технического обучения. Рабочие, прошедшие техническое обучение Рабочие, не прошедшие техническое обучение

Средняя производительность труда по каждой группе рабочих определяется по формуле средней арифметической простой:

Средняя производительность труда по участку определяется по формуле средней арифметической взвешенной: Общая дисперсия рассчитывается по участку:

Внутригрупповая дисперсия определяется для каждой группы рабочих по формуле:

Средняя из внутригрупповых дисперсий рассчитывается по двум группам рабочих:

Межгрупповая дисперсия Общая дисперсия по правилу сложения дисперсий Коэффициент детерминации

Таким образом, фактор технического обучения объясняет в данном примере 26,4% вариации произ- водительности труда, а все прочие факторы – 73,6%. Эмпирическое корреляционное отношение Величина корреляционного отношения свидетель- ствует о наличии умеренной зависимости произ- водительности труда от фактора технического обучения.

Вопрос 5. Правило сложения дисперсий для альтернативного признака Общая дисперсия альтернативного признака: где -доля единиц в совокупности, обладающих изучаемым признаком. Внутригрупповая дисперсия альтернативного признака где -доля единиц в i-ой группе, обладающих изучаемым признаком.

Средняя из внутригрупповых дисперсий определяется следующим образом:

Межгрупповая дисперсия находится по формуле: Общая дисперсия – по правилу сложения дисперсий:

Пример. По данным об удельном весе рабочих в цехах предприятия требуется определить различные виды дисперсий. Цех Удельный вес основных Рабочих, % Численность рабочих, чел., ВСЕГО450

Правило сложения дисперсий для альтернативного признака Доля основных рабочих в целом по предприятию определяется по формуле средней арифметической взвешенной: Общая дисперсия доли основных рабочих рассчитывается в целом по предприятию:

Правило сложения дисперсий для альтернативного признака Внутригрупповая (внутрицеховая) дисперсия рассчитываеся для каждого цеха: σ 1 2 =0,80,2=0,16; σ 2 2 =0,750,25=0,19; σ 3 2 =0,900,10=0,09

По трем цехам завода рассчитывается средняя из внутри групповых дисперсий

Правило сложения дисперсий для альтернативного признака Межгрупповая дисперсия Общая дисперсия по правилу сложения дисперсий

Вопрос 6. Изучение формы распределения Основная задача анализа вариационных рядов заключается в выявлении закономерностей изменения их частот (закономерностей распределения) путем исключения влияния второстепенных, случайных для данного распределения факторов. Из математической статистики известно, что если увеличивать объем совокупности, уменьшать интервал группировки, то полигон или гистограмма распределения будут приближаться к некоторой плавной линии, называемой кривой распределения.

Кривая распределения, выражающая общую закономерность данного типа распределения в чистом виде, исключающим влияние случайных факторов, называется теоретической кривой распределения. Кривая распределения, построенная по эмпирическим данным является эмпирической кривой распределения. Анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.

В статистической практике встречаются разнообразные распределения. При этом различают следующие разновидности кривых распределения: 1) одновершинные кривые; 2) многовершинные кривые. Для однородных совокупностей характерны одновершинные распределения. Многовершинность свидетельствует о неоднородности изучаемой совокупности и необходимости перегруппировки данных с целью выделения более однородных групп.

Выяснение общего характера распределения признака предполагает выполнение следующих действий: 1) предварительная оценка однородности совокупности; 2) расчет показателей асимметрии; 3) расчет показателей эксцесса; 4) расчет критериев согласия.

Предварительная оценка однородности совокупности выполняется на основе коэффициента вариации:

Д ля однородных распределений рассчитываются показатели асимметрии. Симметричным считается распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В симметричных распределениях показатели центра распределения, к которым относятся среднее арифметическое значение признака и структурные средние (мода и медиана) совпадают, т.е. имеет место соотношение:

Из показателей асимметрии наиболее часто применяются следующие: 1) соотношение показателей центра распределения; 2) показатель асимметрии Пирсона; 3) коэффициент асимметрии.

Соотношение показателей центра распределения является простейшим показателем асимметрии. Чем больше разница между этими показателями, тем больше асимметрия Если имеет место соотношение Мо > Ме > x, то наблюдается левосторонняя асимметрия распределения значений признака. Если имеет место обратное соотношение Мо < Ме < x, то асимметрия - правосторонняя.

Показатель асимметрии Пирсона рассчитывается для сравнительного анализа степени асимметрии нескольких распределений. или приАs п >0 – асимметрия правосторонняя; Аs п <0 – асимметрия левосторонняя.

Коэффициент асимметрии является наиболее точным показателем позволяющим не только опре- делить наличие, но и оценить ее существенность. где 3 - центральный момент третьего порядка.

Существенность асимметрии оценивается с помощью среднеквадратической ошибки асимметрии: где n-число наблюдений. Если As / As 3 - асимметрия существенна, т.е. распределение признака несимметрично. Если As / As < 3 - асимметрия несущественна

Для симметричных распределений рассчитываются показатели эксцесса. Эксцесс характеризует выпад вершины эмпирического распределения вверх или вниз относительно вершины кривой нормального распределения. Наиболее точным показателем эксцесса является коэффициент эксцесса: где 4 – центральный момент четвертого порядка. Если Ех > 0 – распределение островершинное, Еесли Ех < 0 – распределение плосковершинное.

Существенность эксцесса оценивается с помощью средней квадратической ошибки эксцесса. Если Ex / Ex 3, то эксцесс существенен Если Ex / Ex 3, то эксцесс несущественен

Оценка однородности совокупности и существенности асимметрии и эксцесса позволяет сделать предварительное заключение о том, можно ли данное эмпирическое распределение отнести к типу кривых нормального распределения, наиболее часто встречающихся в экономике. Более обоснованное заключение о форме распределения признака делается на основании расчета критериев согласия.

Критерии согласия позволяют проверить соответствие эмпирического распределения тому либо иному теоретическому распределению. Наиболее известным критерием согласия является критерий 2, известный как критерий Пирсона: где fэ – эмпирическая частота; fт – теоретическая частота. Существенность расхождения эмпирических и теоретических частот оценивается путем сравнения расчетных значений критерия с табличными.

Вопрос 7. Структурные средние величины В качестве статистических характеристик вариационных рядов распределения рассчиты- ваются показатели центра распределения, к которым относятся: - среднее арифметическое значение признака; - мода; - медиана.

Модой называется значение изучаемого признака, повторяющееся с наибольшей частотой. В дискретном ряду распределения мода определяется по максимальному показателю частоты. В интервальном вариационном ряду мода приблизительно соответствует центру модального интервала (интервала, имеющего большую частоту или частость). Конкретное значение моды рассчитывается по формуле:

. где х Mo - нижняя граница модального интервала; i Mo - ширина модального интервала; f Mo - частота, соответствующая модальному интервалу; f Mo -1 - частота интервала, предшествующего модальному; f Mo +1 - частота интервала, следующего за модальным

Медианой называется значение признака, расположенное в середине ранжированного ряда. Под ранжированным понимают ряд, упорядоченный в порядке возрастания или убывания значений признака. Медиана делит ранжированный ряд на две части, одна из которых имеет значения признака не большие, чем медиана, а другая – не меньшие.

Для ранжированного ряда с нечетным числом членов медианой является вариант, расположенный в центре ряда. Положение медианы определяется порядковым номером единицы ряда в соответствии с формулой: где n - число членов ранжированного ряда. Для ранжированного ряда с четным числом членов медианой является среднее арифметическое из двух смежных значений, находящихся в центре ряда.

В интервальном вариационном ряду для нахождения медианы применяется следующая формула: где x Mе - нижняя граница медианного интервала; i Mе - ширина медианного интервала; S Mе -1 - накопленная частота интервала, предшествующего медианному; f Mе - частота медианного интервала.

Пример 1. Рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: 4; 3; 4; 5; 3; 3; 6; 2; 6. Требуется определить модальное и медианное значения тарифного разряда рабочих.

Решение: Поскольку в данной бригаде больше всего рабочих 3-го разряда, то этот разряд и будет модальным, т.е. Мо = 3. Для определения медианы выполним ранжирование исходного ряда в порядке возрастания значений признака: 2; 3; 3; 3; 4; 4; 5; 6; 6. Центральным в этом ряду является пятое по счету значение признака. Соответственно Ме = 4.

Пример 2. Требуется определить модальный и медианный тарифный разряд рабочих завода по данным следующего ряда распределения: Разряд Кол-во рабочих, чел.Накопленная частота, S = = = = = 100 ВСЕГО 100

Решение: Поскольку исходный ряд распределения является дискретным, то модальное значение определяется по максимальному показателю частоты. В данном примере на заводе больше всего рабочих 3-го разряда (f мах =30), то есть этот разряд и является модальным (М 0 = 3).

Определим положение медианы. Исходный ряд распределения является ранжированным рядом, упорядоченным по возрастанию значений признака. Середина ряда находится между 50 и 51 порядковыми номерами значений признака ((100+1)/2). Выясним к какой группе относятся рабочие с этими порядковыми номерами. Для этого рассчитаем накопленные частоты. Накопленные частоты указывают на то, что медианное значение тарифного разряда равно трем (Ме=3), поскольку значения признака с порядковыми номерами от 39-го до 68-го, в том числе 50-е и 51-е равны 3.

Пример 3. Требуется определить мо- дальную и медианную заработную плату рабочих завода по данным следующего ряда распределения: Размер заработной платы, тыс. руб. Кол-во рабочих, чел. Накопленная частота S ВСЕГО

Решение: Поскольку исходный ряд распределения является интервальным, то модальное значение заработной платы рассчитывается по формуле. При этом модальным является интервал с максимальной частотой, равной 30.

Медианное значение заработной платы также рассчитывается по формуле. При этом медианным является интервал , накопленная частота которого равна 70, тогда как накопленная частота предыдущего интервала составляла только 40 из 100 чел.

Вопрос 8. Квартили, децили, перцентили Более глубоко охарактеризовать изучаемую совокупность можно с помощью: - квартилей; - децилей; - перцентилей. Определяются они по аналогии с медианой и делят ранжированный ряд соответственно на 4, 10, 100 равных частей

Квартили представляют собой значения признака, разделяющие ранжированный ряд на четыре равновеликие части. Для расчета квартилей по интервальному ряду используются формулы:

где х Q 1 - нижняя граница интервала, содержащего нижний квартиль (накопленная частотам этого интервала превышает 25%); х Q 2 - нижняя граница интервала, содержащего средний квартиль (накопленная частотам этого интервала превышает 50%); х Q 3 - нижняя граница интервала, содержащего верхний квартиль (накопленная частотам этого интервала превышает 75%); i Q 1, i Q 2 и i Q 3 - ширина интервала, содержащего нижний, средний и верхний квартиль соответственно; S Q 1-1 S Q 2-1 S Q накопленная частота интервала, предшествующего интервалу, содержащему нижний, средний и верхний квартиль соответственно; f Q 1, f Q 2, f Q 3 - частота интервала, содержащего нижний, средний и верхний квартиль соответственно.

Децили – значения признака, разделяющие ранжированную совокупность на десять равных частей. Вычисляются по той же схеме, что и квартили:

Перцентили – это значения признака, разделяющие ранжированный ряд на 100 равных частей. Определяются по аналогии с квартилями и децилями.

Квартили, децили и перцентили используют для расчета различных квинтильных показа- телей дифференциации, которые используются при изучении распределения населения по уровню доходов или работников по уровню заработной платы и т.п. Наиболее известным из них является децильный коэффициент дифференциации: