2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г. Лекция 3. Измерение центральной тенденции МодаМедиана Среднее значение Сравнение типических значений
2 Иванов О.В., Соколихин А.А Цели После того, как на прошлой лекции познакомились с основными способами представления данных, изучим числовые характеристики, которые позволяют анализировать выборку и делать некоторые выводы. На этой лекции: измерение центральной тенденции
3 Иванов О.В., Соколихин А.А Постановка задачи Измерение центральной тенденции (measure of central tendency) состоит в выборе одного числа, которое наилучшим образом описывает все значения признака из набора данных. Такое число называют центром, типическим значением для набора данных, мерой центральной тенденции.
4 Иванов О.В., Соколихин А.А Что получим Получим информацию о распределении признака в сжатой форме. Сможем сравнить между собой два набора данных (две выборки). Минус: выбор центра ведет к потере информации по сравнению с распределением частот.
2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г. Мода Определение и примеры
6 Иванов О.В., Соколихин А.А Мода (Mode) Мода – наиболее часто встречающееся значение в выборке, наборе данных. Обозначается Мо.
7 Иванов О.В., Соколихин А.А Пример моды Выборка: Мода=4 Наиболее часто встречающееся значение
8 Иванов О.В., Соколихин А.А Мода в таблице частот Для данных, расположенных в таблице частот, мода определяется как значение, имеющее наибольшую частоту. КАТЕГОРИИf Демократы41 Коммунисты23 Либералы22 Любители пива5 Зеленые12 Всего103 Мода «Демократы»
9 Иванов О.В., Соколихин А.А Одна ли мода? Если наибольшую частоту имеют два значения выборки, выборочное распределение называется бимодальным.
10 Иванов О.В., Соколихин А.А Бимодальное распределение Два значения имеют наибольшую частоту, равную 23. КАТЕГОРИИf Демократы14 Коммунисты23 Либералы23 Любители пива8 Зеленые12 Всего80 «Коммунисты» «Либералы» Две моды !!!
11 Иванов О.В., Соколихин А.А На гистограмме Два значения имеют наибольшую частоту, равную 23.
12 Иванов О.В., Соколихин А.А А если нет моды или больше двух? Если наибольшую частоту имеет более двух значений выборки, выборочное распределение называется мультимодальным. Если ни одно из значений не повторяется, мода отсутствует.
13 Иванов О.В., Соколихин А.А Свойства моды Наличие одного или двух крайних значений, сильно отличающихся от остальных, не влияет на значение моды. Мода совпадает с точкой наибольшей плотности данных. Мода может иметь несколько значений. Мода может существовать для всех типов данных. Единственная мера, которая работает в номинальной шкале!
2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г. Медиана Определение и примеры
15 Иванов О.В., Соколихин А.А Медиана Следующая характеристика центральной тенденции. Дадим определение попозже. Сначала обсудим, что такое вариационный ряд и как ранжируются числа.
16 Иванов О.В., Соколихин А.А Вариационный ряд Вариационный ряд - упорядоченные данные, расположенные в порядке возрастания значения признака, либо в порядке убывания. Назван так, поскольку содержит варианты значений признака.
17 Иванов О.В., Соколихин А.А Пример вариационного ряда Набор данных: После упорядочения получим вариационный ряд: В порядке убывания получим другой вариационный ряд:
18 Иванов О.В., Соколихин А.А Ранжирование Ранжирование означает присвоение числам рангов. Ранжирование данных производится после построения вариационного ряда (упорядочения). Ранги присваиваются от 1 до последнего номера в наборе данных.
19 Иванов О.В., Соколихин А.А Пример ранжирования Есть упорядоченный набор данных из 9 чисел: Нумеруем от 1 до 9: А теперь находим ранги: 1,51,53,53, Например, значение 6 имеет ранг 5.
20 Иванов О.В., Соколихин А.А Итак… Если несколько соседних элементов равны, при ранжировании им присваивается одинаковый ранг, равный среднему арифметическому первоначальных рангов.
21 Иванов О.В., Соколихин А.А Медиана (Median) Медиана есть значение серединного элемента для набора данных. Обозначается Me. Для нахождения медианы требуется составить вариационный ряд, то есть расположить все значения признака в порядке возрастания или убывания. Медиана расположена в середине вариационного ряда.
22 Иванов О.В., Соколихин А.А Медиана Для набора из n значений, если n нечетно, средний элемент имеет номер: Если n четно, медиана находится как среднее арифметическое двух соседних серединных элементов: 1 1 n n
23 Иванов О.В., Соколихин А.А Пример вычисления медианы Для набора данных из семи чисел: После упорядочения получим вариационный ряд: Медиана есть средний элемент. Его номер четвертый.
24 Иванов О.В., Соколихин А.А Пример вычисления медианы Если набор данных включает восемь чисел: Тогда медиана равна (3+6)/2=4,5
25 Иванов О.В., Соколихин А.А Свойства медианы Сильно отличающиеся от остальных данных крайние значения не влияют на величину медианы. Значение медианы является единственным для каждого набора данных. Медиана может быть определена не из полного набора данных. Достаточно знать их расположение, общее число и несколько значений, расположенных в середине вариационного ряда. Медиана может быть определена для числовых и порядковых данных.
2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г.2 ноября 2012 г. Среднее Определение и примеры
27 Иванов О.В., Соколихин А.А Среднее (Mean) Выборочным средним будем называть среднее арифметическое выборки, то есть сумму всех значений выборки, деленную на ее объем. где = сумма всех значений выборки n = объем выборки
28 Иванов О.В., Соколихин А.А Пример вычисления среднего Среднее значение является «точкой равновесия». Вычислим среднее для выборки из семи значений: Получим :
29 Иванов О.В., Соколихин А.А Свойства среднего Вычисляется только в числовых шкалах. При вычислении необходимо использовать все данные. Для каждого набора данных имеется только одно среднее. Среднее есть единственная мера центральной тенденции, для которого сумма отклонений каждого значения равна нулю:
30 Иванов О.В., Соколихин А.А Среднее для сгруппированных данных Среднее для сгруппированных данных вычисляется по формуле: где = сумма всех значений выборки = сумма частот, равна объему выборки
31 Иванов О.В., Соколихин А.А Пример вычисления среднего Имеются результаты экзамена. Найти среднее значение. xff ·x
32 Иванов О.В., Соколихин А.А Среднее для интервальных частот ИНТЕРВАЛЧАСТОТАСЕРЕДИНАПРОИЗВЕДЕНИЕ f m f· m ,5 544, ,5 1794, ,5 3493, , ,5 899,0 Всего Σ = 40Σ = 7080,0 Для интервального распределения надо выбрать представителя каждого интервала – середину.
33 Иванов О.В., Соколихин А.А Среднее для интервального распределения Среднее для интервального распределения вычисляется по формуле: где = сумма произведений частоты на середину = сумма частот, равна объему выборки m= середина интервалов
34 Иванов О.В., Соколихин А.А Вычисление взвешенного среднего ГРУППА СРЕДНЕЕ ПО ГРУППЕ ОБЪЕМ ГРУППЫ A B С D E Всего520
35 Иванов О.В., Соколихин А.А Среднее взвешенное Среднее взвешенное вычисляется по формуле: где = сумма произведений средних в группе на количество элементов в этой группе, N= общее число наблюдений во всех группах
36 Иванов О.В., Соколихин А.А Решаем пример ГРУППА СРЕДНЕЕ ПО ГРУППЕ ОБЪЕМ ГРУППЫ Произведение A B С D E Всего
37 Иванов О.В., Соколихин А.А Среднее - еще не значит «лучшее» Пример. В деревне 50 жителей. Среди них 49 человек – крестьяне с месячным доходом в 1 тыс.рублей, а один житель – зажиточный владелец строительной фирмы, с месячным доходом 451 тыс.рублей. Среднее равно 10 тыс. рублей. Однако, вряд ли можно утверждать, что это число адекватно представляет доход жителей деревни. В этом случае, более разумно взять в качестве меры центральной тенденции моду или медиану (обе равны 1 тыс. рублей).
38 Иванов О.В., Соколихин А.А Три меры и тип шкалы Три меры центральной тенденции накладывают ограничения на тип шкалы, в которой измеряется переменная. Типическое значение Номинальные данные Порядковые данные Интервальные данные Мода Медиана Среднее
39 Иванов О.В., Соколихин А.А Среднее для дихотомической шкалы Среднее может также применяться и для переменной, измеренной в дихотомической шкале. Если два значения признака кодируются 0 и 1, то среднее указывает долю (относительную частоту) единиц в выборке. Пример. 1, 0, 0, 0, 1, 1, 1, 1, 1, 0 Среднее равно 0,6. То есть 60% значений выборки принимают значение, равное единице.
40 Иванов О.В., Соколихин А.А Какое типическое значение наилучшее? 1.«Наилучшее значение» - это такое, которое имеет наибольшую вероятность быть выбранным. Мода. 2.«Наилучшее значение» - это такое значение, для которого сумма абсолютных отклонений значений переменной от типического будет наименьшей. Медиана. 3.«Наилучшее значение» - это такое значение, для которого сумма квадратов отклонений значений переменной от типического будет наименьшей. Среднее.
41 Иванов О.В., Соколихин А.А Какое типическое значение наилучшее? В зависимости от данных каждое из трех значений может стать наилучшим!
42 Иванов О.В., Соколихин А.А Задание на 5 минут Напишите своими словами, что такое визуализация данных. Назовите известные вам способы визуализации.
43 Иванов О.В., Соколихин А.А Электронная версия на сайте