ОСНОВЫ МАТЕМАТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ЛЕКЦИИ 5,6 Лектор: Поздняков Станислав Александрович, кандидат технических наук, доцент.

Презентация:



Advertisements
Похожие презентации
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Advertisements

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Оценка вариативности Л.Е.Федорова. Признак Признак это свойство, проявлением которого один предмет отличается от другого. Характерным свойством признака.
23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Лекция 9. Непрерывные распределения 9-1. Функция распределения 9-2. Плотность.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 4 Измерение вариации Размах Квартильный размах Дисперсия Стандартное отклонение.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Описательные характеристики распределения тестовых результатов 1.Меры среднего положения (меры центральной тенденции). Мода, медиана, среднее 2.Меры вариации.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Типовые расчёты Растворы
Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »
Авторы: Равичев Л.В., Ломакина И.А. Кафедра менеджмента и маркетинга РХТУ им. Д.И.Менделеева. Москва СТАТИСТИКА. Описательная статистика. Лекция.
Статистика 8 класс Выполнила учитель математики МОУ « Свирская основная общеобразовательная школа» Светлакова Е.Ю.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Тема 3: Дескриптивная статистика: характеристика распределения Нормальное распределение.
Авторы: Равичев Л.В., Ломакина И.А. Кафедра менеджмента и маркетинга РХТУ им. Д.И.Менделеева. Москва СТАТИСТИКА. Описательная статистика. Лекция.
Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.
Транксрипт:

ОСНОВЫ МАТЕМАТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ЛЕКЦИИ 5,6 Лектор: Поздняков Станислав Александрович, кандидат технических наук, доцент

Основы математической обработки информации 2 Зачем нужны меры центральной тенденции? Это наиболее важная статистика больших массивов информации (статистика – это любая функция данных). Средние значения обладают большей устойчивостью. Средние значения – это наиболее репрезентативные значения. Если нужно заменить весь массив одним числом – то нужно использовать среднее значение. Разные виды средних обладают разными свойствами. Выбор вида среднего выбирается в каждой конкретной ситуации.

Основы математической обработки информации 3 Меры центральной тенденции Среднее арифметическое Среднее гармоническое Среднее квадратическое Среднее кубическое Среднее геометрическое Мода Медиана

Основы математической обработки информации 4 Виды средних Автомобиль движется из пункта А в пункт Б с постоянной скоростью 80 км/час, а из пункта Б в пункт А с постоянной скоростью 40 км/час. Определить среднюю скорость движения автомобиля.

Основы математической обработки информации 5 Виды средних Диаметр одной корзины подсолнуха равен 10 см, диаметр другой корзины подсолнуха равен 30 см. Определить средний диаметр корзин подсолнуха.

Основы математической обработки информации 6 Виды средних Диаметр одного яйца равен 5 см, диаметр другого яйца равен 3 см. Определить средний диаметр яиц.

Основы математической обработки информации 7 Используемые обозначения Точка (.) вместо индекса обозначает суммирование по этому индексу Черточка над переменной по индексам, по которым проводилось суммирование обозначает усреднение

Основы математической обработки информации 8 Среднее арифметическое и его свойства Если каждое значение совокупности уменьшить или увеличить на одно и то же число, то среднее ? Если каждое значение совокупности умножить или разделить на одно и то же число, то среднее ?

Основы математической обработки информации 9 Среднее арифметическое и его свойства Среднее двух совокупностей является взвешенным средним этих совокупностей ? Сумма отклонений значений совокупности от ее среднего равно ? Сумма квадратов отклонений от их средней меньше суммы квадратов отклонений тех же значений от любой другой величины.

Основы математической обработки информации 10 Откуда Среднее арифметическое и его свойства

Основы математической обработки информации 11 Среднее, мода и медиана объединенных групп Для того, чтобы найти объединенное среднее, необходимо знать число элементов в подгруппах. Для того, чтобы найти объединенную моду, необходимо знать какие элементы встречаются наиболее часто во всех подгруппах. Для того, чтобы найти объединенную медиану, необходимо знать распределение во всех подгруппах.

Основы математической обработки информации 12 Структурные средние Мода – это то значение, которое в выборке встречается наиболее часто. Медиана – это то значение, относительно которого упорядоченная по возрастанию или по убыванию выборка делится пополам. Как считать доход на душу населения? (как среднее или как медиану?)

Основы математической обработки информации 13 Мода Мода – это наиболее частое значение, а не частота этого значения. 1. Если все значения встречаются в массиве одинаково часто, то массив не имеет моды. 2. Если два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, то мода есть среднее этих двух значений 3. Если два несмежных значения в массиве имеют равные частоты и они больше частоты любого значения, то массив является бимодальным

Основы математической обработки информации 14 Свойства моды Мода вычисляется наиболее просто – ее можно определить на глаз. Для очень больших массивов данных это достаточно стабильная мера центра распределения. Во многих задачах мода близка к двум другим мерам – медиане и среднему.

Основы математической обработки информации 15 Вычислить меры центральной тенденции Диаметры корзинок подсолнухов: 15, 13, 11, 16, 8, 13, 15, 16, 17, 15 Вычислить Мо = Ме =

Основы математической обработки информации 16 Интерпретация моды, медианы и среднего Интерпретация осуществляется в терминах ошибок, возникающих из-за того, что все значения в выборке заменяются одним значением (наиболее репрезентативным) Мода – наиболее репрезентативное значение в том смысле, что совпадает с наибольшим числом значений в выборке.

Основы математической обработки информации 17 Интерпретация моды, медианы и среднего Медиана – это такая точка на числовой оси, для которой сумма абсолютных разностей всех значений меньше суммы разностей для любой другой точки. Среднее – обеспечивает минимальное значение суммы квадратов отклонений значений от среднего.

Основы математической обработки информации 18 Критерии выбора меры центральной тенденции 1. В малых группах мода очень нестабильна (1,1,1,3,5,7,7,8) Мо =1. Но если 1 0 и 1 2, то Мо =7. 2. На медиану не влияют большие и малые (экстремальные) значения 3. На величину среднего влияет каждое значение. (Как?) Для каких массивов среднее, мода и медиана совпадают?

Основы математической обработки информации 19 Задача 1. Где строить дом? п.1 п.2 п.3 п.4 п

Основы математической обработки информации 20 Задача 2. Какую меру центральной тенденции выбрать? Доходы 5 мужчин: центов центов долларов долларов долларов Как охарактеризовать их средний доход? В США средний доход – это медиана, а не среднее

Основы математической обработки информации 21 Рекомендуемая литература 1. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа, 2004, 479 с. 2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. – М.: Высшая школа, 2004, 400 с. 3. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. Пер. с англ. – М.: Издательство «Прогресс», с. 4. Маслак А.А. Основы планирования и анализа сравнительного эксперимента в педагогике и психологии. – Курск: РОСИ, – 167 с.

Основы математической обработки информации 22 Меры вариабельности данных Меры центральной тенденции говорят нам о концентрации данных на числовой оси. Каждая такая мера в каком-то смысле наилучшим образом «представляет» данные. Меры центральной тенденции игнорируют различия между данными. Для измерения вариабельности данных требуются другие описательные статистики.

Основы математической обработки информации 23 Зачем нужны меры вариабельности данных? Научная работа связана с понятием вариабельности данных. Если есть много необъяснимых причин вариабельности, прогнозы будут неточными. Задача науки найти причины вариабельности данных и тем самым увеличить точность прогноза. Например установлено, что наследственность и окружающая среда влияют на IQ ребенка. Поэтому информация о родителях ребенка и его воспитании позволяет более точно прогнозировать его умственное развитие в зрелости. Без такой информации прогноз будет менее точным.

Основы математической обработки информации 24 Наиболее часто используемые меры вариабельности данных Лимиты Размах Квантили Дисперсия Стандартная ошибка Среднее отклонение Коэффициент вариации

Основы математической обработки информации 25 Лимиты Это самая простая мера изменчивости. Определяется минимальное (Xmin) и максимальное значение (Xmax) массива данных. Между этими статистиками находятся все данные массива. Несмотря на свою простоту эта мера используется редко, потому что экстремальные значения сильно подвержены ошибкам. Поэтому трудно определить влияние факторов на вариабельность данных.

Основы математической обработки информации 26 Размах Определяет расстояние на числовой оси, в пределах которого варьируются данные. R=Xmax-Xmin. Исключающий размах – это разность максимального и минимального значений. Включающий размах – это разность между естественной верхней границей интервала, содержащего максимальное значение и естественной нижней границей интервала, содержащего минимальное значение.

Основы математической обработки информации 27 Размах Например рост 5 мальчиков равен: 150, 155, 157, 165 и 168 Исключающий размах равен: =18 Включающий размах равен: 168,5 – 149,5=19

Основы математической обработки информации 28 Квантили Это характеристики вариационного ряда, которые отсекают определенную его часть. Наиболее часто используются квартили, децили и процентили. Квартиль – это статистика, отсекающая ¼ часть ряда. Три квартиля Q1, Q2 и Q3 делят ряд на четыре, равные по объемы части (кварты).

Основы математической обработки информации 29 Квантили Дециль (Di) – это статистика, отсекающая 1/10 часть ряда. Девять децилей делят ряд на 10 равных частей. Процентиль (Pi) - это статистика, отсекающая 1/100 часть ряда. Девяносто девять процентилей делят ряд на 100 равных частей.

Основы математической обработки информации 30 Зачем нужны квантили? Квантили, как и медиана, - это важные характеристики вариационного ряда, особенно для асимметричных распределений. Часто квантили используются для установления границ тех или иных нормативов.

Основы математической обработки информации 31 Зачем нужны квантили? Размах от 90-ого до 10-ого процентиля является более стабильной мерой, чем размах. Полу-междуквартильный размах Q3-Q1 содержит 50% наблюдений вариационного ряда.

Основы математической обработки информации 32 Дисперсия При вычислении всех предыдущих мер вариабельности не учитывалось каждое отдельное значение массива данных. Отклонения наблюдений от мер центральной тенденции несут информацию о вариабельности данных. Чем больше отклонения, тем больше вариабельность. Однако:

Основы математической обработки информации 33 Формула для вычисления дисперсии

Основы математической обработки информации 34 Свойства дисперсии Прибавление константы с к каждому значению не влияет на дисперсию (а на среднее?) Умножение каждого значения на константу с увеличивает дисперсию в с 2 раз. Дисперсия объединенной совокупности зависит как от дисперсий, так и от средних объединяемых групп

Основы математической обработки информации 35 Задача 3. Вычислить средние и дисперсии совокупностей: А (3, 3, 3, 3) и В (7,7,7,7)

Основы математической обработки информации 36 Стандартное отклонение Эта мера тесно связана с дисперсией. Стандартное отклонение – это положительный корень из дисперсии. Стандартное отклонение измеряется в тех же единицах, что и исходные данные. Например, как интерпретировать кг 2 или л 2 ? Полезность этой меры еще и в том, что для многих распределений мы знаем, какая доля наблюдений находится внутри одного, двух, трех и более стандартных отклонений. Поэтому эта мера используется наиболее часто.

Основы математической обработки информации 37 Среднее отклонение Формула имеет вид Несмотря на легкость вычисления и простоту интерпретации эта мера используется редко. Это объясняется тем, что эта мера неудобна для аналитический преобразований (например необходимо брать производную для поиска минимума функции). Эта формула неудобна также для вычисления стандартизированных отклонений.

Основы математической обработки информации 38 Коэффициент вариации Формула для вычисления имеет вид: Эта мера позволяет сравнивать вариабельность признаков имеющих разные единицы измерения. Эта мера часто используется в биологии и других науках, где измеряемые признаки отличны от нуля.

Основы математической обработки информации 39 Стандартизированные данные Формула для вычисления имеет вид: Таким образом любое множество данных на основе вычисленных среднего и стандартного отклонения можно преобразовать в стандартизированное множество с нулевым средним и единичной дисперсией. Это удобно для проверки различных статистических гипотез.

Основы математической обработки информации 40 Задача 4. Вычислить средние и дисперсии двух массивов x1x x1.x1. x2x x2.x2. (x 1 -x.) (x 2 -x.) (x 1 -x.) 2 (x 2 -x.) 2

Основы математической обработки информации 41 Задача 5. Вычислить дисперсию тестового балла Сумма 36038

Основы математической обработки информации 42 Рекомендуемая литература 1. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа, 2004, 479 с. 2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. – М.: Высшая школа, 2004, 400 с. 3. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. Пер. с англ. – М.: Издательство «Прогресс», с. 4. Маслак А.А. Основы планирования и анализа сравнительного эксперимента в педагогике и психологии. – Курск: РОСИ, – 167 с.