Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемinformatics.socio.msu.ru
1 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 4 Измерение вариации Размах Квартильный размах Дисперсия Стандартное отклонение
2 2 Иванов О.В., Соколихин А.А Постановка задачи Рассмотрим три вариационных ряда: Во всех трёх случаях среднее равно 1000.
3 3 Иванов О.В., Соколихин А.А Измерение вариации (measure of variation) В третьем случае значения сильнее всего «разбросаны» вокруг среднего: Наша задача - выразить степень разброса (вариацию) одним числом.
4 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Размах и квартильный размах Определение и пример
5 5 Иванов О.В., Соколихин А.А Размах (Range) Размах – разность между наибольшим значением набора данных и наименьшим. Пример: Для набора данных 27, 8, 3, 12, 10, 26, 6, 19 размах равен R = 27 – 3 = 24.
6 6 Иванов О.В., Соколихин А.А Квартили (Quartile) Под квартилями понимаются значения, которые делят вариационный ряд на четыре равные части. Ниже первого квартиля расположено 25% всех данных. Между первым и вторым квартилем также расположено 25% данных. Второй квартиль совпадает с медианой. 1n25%
7 7 Иванов О.В., Соколихин А.А Размах квартилей (Inter Quartile Range) Размах квартилей есть разница между третьим и первым квартилем и вычисляется по формуле: Между Q 1 и Q 3 расположены 50% всех данных. 1n25%
8 8 Иванов О.В., Соколихин А.А Сравнение размаха и квартильного размаха При вычислении размаха используются только наибольшее и наименьшее значения признака. Распределение данных между ними полностью игнорируется. Размах – очень простая мера вариации, но очень «грубая». При вычислении квартильного размаха игнорируются крайние значения, расположенные за пределами первого и третьего квартилей.
9 9 Иванов О.В., Соколихин А.А Нахождение квартилей Ранг нижнего квартиля: Ранг верхнего квартиля:
10 10 Иванов О.В., Соколихин А.А Коробковая диаграмма (Box plot) Диаграмма, основанная на пяти важных числах. Удобна для анализа данных и часто используется. МинимумМаксимум Медиана
11 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Процентили Определение и пример
12 12 Иванов О.В., Соколихин А.А Процентили Процентили это характеристики набора данных, которые выражают ранги элементов в процентах от 0% до 100%. Минимальное значение 0% Первый квартиль25% Медиана50% Третий квартиль75% Наибольшее значение100% Процентили разбивают наборы количественных и порядковых данных на определенные части.
13 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Дисперсия Определение и пример Вторая формула для дисперсии Дисперсия для сгруппированных данных
14 14 Иванов О.В., Соколихин А.А Дисперсия Дисперсия выборки – среднее арифметическое квадратов отклонений значений выборки от выборочного среднего. Вычисляем по формуле:
15 15 Иванов О.В., Соколихин А.А Пример вычисления дисперсии Имеется выборка из четырех значений:2, 3, 6, 9 Сначала находим среднее: Теперь по формуле вычисляем дисперсию:
16 16 Иванов О.В., Соколихин А.А Подсчет дисперсии в таблице Для выборки 2, 3, 6, 9 подсчитаем дисперсию при помощи таблицы
17 17 Иванов О.В., Соколихин А.А Вторая формула для дисперсии Дисперсия вычисляется также по эквивалентной формуле: Эта формула более пригодна для ручного счета.
18 18 Иванов О.В., Соколихин А.А Подсчет дисперсии в таблице Пример вычисления дисперсии по второй формуле. В таблице рассчитываются лишь квадраты значений
19 19 Иванов О.В., Соколихин А.А Дисперсия для сгруппированных данных Дисперсия для сгруппированных данных вычисляется по формуле:
20 20 Иванов О.В., Соколихин А.А Пример вычисления дисперсии Период 2– – – – –
21 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Стандартное отклонение Определение и пример Интерпретация
22 22 Иванов О.В., Соколихин А.А Стандартное отклонение Стандартное отклонение вычисляется как корень из дисперсии: Стандартное отклонение имеет исключительную важность для описания распределения данных.
23 23 Иванов О.В., Соколихин А.А Неравенство Чебышева Для интерпретации стандартного отклонения применяют неравенство Чебышева. В терминах статистического исследования оно имеет следующую трактовку. В любой совокупности доля значений, попадающих в интервал будет равна, по крайней мере, где k - любое число, большее 1.
24 24 Иванов О.В., Соколихин А.А Интерпретация стандартного отклонения Можно утверждать, что интервал с границами содержит, по крайней мере, 3/4 всех данных (75%). Интервал с границами содержит, по крайней мере, 8/9 всех данных (89,9%).
25 25 Иванов О.В., Соколихин А.А Пример Средний заработок персонала на раздаче в ресторане быстрого обслуживания составляет 5,4$ со стандартным отклонением 0,4$. Оцените интервал, в котором находится заработок 90% персонала. Решение. По неравенству Чебышева:
26 26 Иванов О.В., Соколихин А.А Интерпретация стандартного отклонения Забегая вперед…
27 27 Иванов О.В., Соколихин А.А Для нормального распределения… 68,3% 95,4% 99,7% 13,5%
28 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Коэффициент вариации Определение и пример
29 29 Иванов О.В., Соколихин А.А Коэффициент вариации Коэффициент вариации вычисляется как отношение стандартного отклонения к среднему: Коэффициент вариации полезен, если: 1. Сравниваются несколько совокупностей, измеряемых в разных величинах. 2. Сравниваются совокупности, измеряемые в одинаковых величинах, но имеющие сильно отличающиеся средние.
30 30 Иванов О.В., Соколихин А.А Пример для коэффициента вариации Какие данные имеют большую вариацию: имеющие стандартное отклонение 20 при среднем 200 или имеющие стандартное отклонение 3 при среднем 30? Ответ. Коэффициенты вариации равны. Вариация одинакова.
31 6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Исследовательский анализ данных Выбросы Вид распределения
32 32 Иванов О.В., Соколихин А.А Исследовательский анализ данных Исследовательский анализ данных - Exploratory Data Analysis (EDA) представляет собой применение статистических методов для представления, упорядочения данных и понимания их важнейших характеристик.
33 33 Иванов О.В., Соколихин А.А Разделы исследовательского анализа Основными разделами EDA анализа являются: 1. Центральная тенденция. Вычисление и анализ среднего, моды, медианы. 2. Стандартное отклонение. Нахождение дисперсии, стандартного отклонения. 3. Квартили и процентили. Минимум, максимум, размах, нахождение квартилей. Процентили. 4. Выбросы. Нахождение и анализ выбросов. 5. Форма распределения. Асимметрия и куртозис.
34 34 Иванов О.В., Соколихин А.А Расширенная коробковая диаграмма Умеренные выбросы изображаются темными точками и удалены ниже первой квартили или выше третьей от 1,5 IQR, но не более 3 IQR. Экстремальные выбросы изображаются светлыми точками и удалены ниже первой квартили или выше третьей более 3 IQR. IQR Экстремальные выбросы Умеренные выбросы Экстремальные выбросы Умеренные выбросы 1,5 IQR
35 35 Иванов О.В., Соколихин А.А Актеры и актрисы Имеются данные о возрасте актеров и актрис, в котором они были удостоены Оскара. Актеры: Актрисы:
36 36 Иванов О.В., Соколихин А.А Гистограммы
37 37 Иванов О.В., Соколихин А.А Характеристики Всего 39 значений. ХарактеристикаАктерыАктрисы Минимум3121 Первая квартиль3730 Медиана4334 Третья квартиль5141 Максимум7680
38 38 Иванов О.В., Соколихин А.А Box Plot После построения сокращенной коробковой диаграммы, строим полную. Несколько значений оказалось выбросами. Например, актер 76 лет умеренный выброс. Поскольку для актрис размах квартилей меньше, 80 и 74 года составили экстремальный выброс.
39 39 Иванов О.В., Соколихин А.А Асимметрия (Skewness) Если распределение симметрично, асимметрия равна нулю. В этом случае совпадают значения моды, медианы и среднего арифметического. Если одно или несколько значений существенно превышают остальные, имеется положительная асимметрия. Средняя больше моды и медианы. Если одно или несколько значений существенно меньше остальных, имеется отрицательная асимметрия. Средняя меньше моды и медианы.
40 40 Иванов О.В., Соколихин А.А Коэффициент асимметрии Коэффициент асимметрии находится по следующей формуле: Изменяется в пределах от -3 до 3. Положителен при положительной асимметрии, отрицателен при отрицательной. Равен нулю, если асимметрия отсутствует.
41 41 Иванов О.В., Соколихин А.А Куртозис (Kurtosis) Под куртозисом понимается крутость кривой распределения, которая определяется сопоставлением кривой с кривой стандартного нормального распределения. Островершинное Плосковершинное Стандартное
42 42 Иванов О.В., Соколихин А.А Задание на 5 минут В чем состоит отличие моды от медианы? Определение не нужно. Нужно только отличие.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.