Основные понятия. Описательная статистика. Занятие 1
Данные – результаты некоторого количества измерений какой-либо ПЕРЕМЕННОЙ (переменных) – variable, такой, как: - вес, длина тела, пол, окрас, температура тела..... наблюдение выборка популяция = генеральная совокупность Важнейший вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё?
ПЕРЕМЕННЫЕ Количественные Ранговые ordinal ( качественные, могут быть выстроены в последовательность ) Качественные nominal Дискретные discrete Непрерывные continuous
Непрерывные переменные: рост, вес Ани, Тани и Мани 1.Не нужно писать много знаков после запятой (ориентируются на точность измерений). 2.Если почему-то необходимо округлить числа, чётные округляют в меньшую сторону, нечётные – в большую (2.5 в 2, 3.5 в 4);
Три основные концепции в анализе данных: 1.Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2.Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3.Что такое СТАТИСТИКА КРИТЕРИЯ Необходимо для обдумывания и обсуждения данных
Частотное распределение переменной (frequency distribution) На примере непрерывной переменной Взвешиваем N кроликов
Частотное распределение переменной (frequency distribution) 1.Упорядочим по возрастанию значения переменной ( выстроим кроликов от меньшего к большему ); 2.Напротив значений напишем, сколько раз они встретились в выборке (для непрерывной переменной разобьём их на группы по равным интервалам). Частотное распределение Частотное распределение (frequency distribution) – это соответствие между значениями нашей переменной и их вероятностями
Масса кролика, кг Частота Гистограмма – графическое представление частотного распределения, разбитого по интервалам, где высота столбика отражает ЧАСТОТУ Частотное распределение переменной (frequency distribution) Частота – то, сколько раз встретилось данное значение переменной Интервалы должны быть: одного размера, не должны иметь общих точек.
Частотное распределение переменной (frequency distribution) Как описать непрерывное распределение? 1.По количеству «максимумов» (мод): унимодальное бимодальное мультимодальное обычно возникают, если популяция имеет естественные обособленные подгруппы
Частотное распределение переменной (frequency distribution) 2.По признаку симметрии: СимметричноеСкошенное (skewed) positivelynegatively Как описать непрерывное распределение?
Частотное распределение переменной (frequency distribution) 3. распределение асимптотическоене асимптотическое Как описать непрерывное распределение?
Частотное распределение переменной (frequency distribution) Нормальное распределение (Гауссово): первое знакомство Унимодальное Симметричное Асимптотическое Высота деревьев, масса тела новорожденных, IQ, скорость прохождения лабиринта крысами и многие, многие другие переменные Это непрерывное распределение
Частотное распределение переменной (frequency distribution) Картинка распределения качественных или ранговых переменных травалиствакорниплоды Виды пищи Оставим на некоторое время качественные и ранговые переменные и обратимся только к КОЛИЧЕСТВЕННЫМ
Частотное распределение переменной (frequency distribution) Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ, которыми можно почти полностью описать большинство распределений 1.«Середина» распределения; 2.«Ширина» распределения; 3. Форма распределения «Середина» Мода (mode) Медиана (median) Среднее значение (mean)
Мода (mode) – наиболее часто встречающееся значение Частотное распределение переменной (frequency distribution) «Середина» распределения существует и для качественных, и для ранговых переменных
Частотное распределение переменной (frequency distribution) «Середина» распределения Медиана (median)– значение, которое делит распределение пополам ( его площадь в т.ч.): половина значений больше медианы, половина – не больше Номера кроликов 1011 Медиана = (11+1)/2 = 6 Имеет смысл для ранговых и количественных переменных, но не для качественных 3
Частотное распределение переменной (frequency distribution) «Середина» распределения Среднее значение – сумма всех значений переменной, делённая на количество значений *«balancing point» method Среднее для выборкиСреднее для популяции
Частотное распределение переменной (frequency distribution) «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения К появлению перекоса чувствительнее всего среднее значение ЗАРПЛА ТА, $ ЧАСТ ОТА
Частотное распределение переменной (frequency distribution) «Ширина» распределения = Разброс* Размах (range) Стандартное отклонение (standard deviation) Дисперсия (variance) * Это лишь основные параметры разброса Размах (range) – разность между максимальным и минимальным значениями = X n – X 1 Хорош тем, что легко считается и имеет «биологический смысл». Плох тем, что зависит лишь от 2-х точек из всего распределения
Стандартное отклонение (standard deviation) Частотное распределение переменной (frequency distribution) Разброс распределения Для выборки:Для популяции: Поправка на то, что в выборке разброс всегда будет меньше, чем во всей популяции Стандартное отклонение зависит ото всех значений переменной Сумма квадратов (sum of squares = SS)
Стандартное отклонение (standard deviation): для нормального распределения = дистанции от среднего значения до каждой из точек перегиба Частотное распределение переменной (frequency distribution) Разброс распределения ss Стандартное отклонение измеряется в тех же единицах, что и переменная!
Частотное распределение переменной (frequency distribution) Разброс распределения Дисперсия (variance) Для выборки:Для популяции: Равна стандартному отклонению в квадрате и содержит почти ту же информацию; измеряется в единицах переменной, возведённых в квадрат (что не всегда удобно). Дисперсия используется скорее в различных статистических тестах, а не в описательной статистике
Частотное распределение переменной (frequency distribution) Другие параметры распределения: Процентили Квартили (quartiles) делят распределение на четыре части так, что в каждой из них оказывается поровну значений (2-я квартиль = медиана). 1-я квартиль = 25% процентиль 3-я квартиль = 75% процентиль Интерквартильный размах – разница между третьей и первой квартилями. Коэффициент вариации (Coefficient of variation)
Квартиль 1Квартиль 3 медиана Частота Значение переменной 25%25%25%25% Частотное распределение переменной (frequency distribution)
Процентили и z-оценка 95% процентиль – значение переменной, левее которого находится 95% значений переменной 95%
Частотное распределение переменной (frequency distribution) Процентили и z-оценка Z-оценка (z-scores) – переменная, соответствующая количеству стандартных отклонений относительно среднего значения точка перегиба Z-оценка выборка популяция
Частотное распределение переменной (frequency distribution) «Площадь распределения» Площадь, которую занимает график распределения, соответствует количеству измерений в выборке. Отрезая часть распределения на графике, мы отделяем эквивалентную часть от выборки частота масса, кг 16% площади распределения ~ 16% объёма выборки
Частотное распределение переменной (frequency distribution) Площадь нормального распределения Нормальное распределение определяется лишь 2-мя параметрами – μ и σ. Необыкновенное свойство: Относительные площади под участками нормального распределения всегда одинаковы!
Частотное распределение переменной (frequency distribution) Площадь нормального распределения Z-оценка (количество стандартных отклонений) Откладывая от среднего значения стандартное отклонение ( в ту или другую сторону ) мы всегда отрезаем строго определённую долю популяции, приблизительно: Пример с IQ (μ=100, σ=15)
Частотное распределение переменной (frequency distribution) Площадь нормального распределения
Распределение выборочных средних (sampling distribution of the means) Три основные концепции в анализе данных: 1.Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2.Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3.Что такое СТАТИСТИКА КРИТЕРИЯ выборка популяция Мы ловим 4-х кроликов и считаем их среднюю массу; ловим ещё 4-х, снова считаем среднюю массу, опять ловим….
Распределение выборочных средних (sampling distribution of the means) Выборка должна быть РЕПРЕЗЕНТАТИВНОЙ, т.е. её свойства должны отражать свойства популяции. Для этого она должна быть СЛУЧАЙНОЙ (random) – т.е., все особи в популяции должны иметь одинаковые шансы попасть в неё. Пример: если в одну группу поместить зверьков, которые первыми вышли из клетки, а в другую – тех, кто в ней остался, выборки буду неслучайными клетка
Распределение выборочных средних (sampling distribution of the means) Ещё раз центральный статистический вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? На ферме живёт 1000 кроликов, которые содержатся в 25-и вольерах по 22 зверька. Средняя масса кролика – μ=50 кг, σ = 4 кг. Посчитаем средние массы для каждой вольеры! Форма распределений маленьких выборок не обязательна должна удовлетворять критериям нормального распределения. …..
Распределение выборочных средних (sampling distribution of the means) Мы посчитали средние массы кроликов в КАЖДОЙ вольере, и теперь построим распределение из этих СРЕДНИХ значений! Оно будет намного УЖЕ распределения всех кроликов на ферме, и уже, чем каждое из распределений из отдельных вольер Это и будет распределение выборочных средних (sampling distribution of the means)
Распределение выборочных средних (sampling distribution of the means) s Распределение выборочных средних Выборка (из вольеры) Популяция (вся ферма) среднее стандартное отклонение >> Стандартная ошибка среднего (Standard error = SE)
Распределение выборочных средних (sampling distribution of the means) ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА Определяет форму, среднее и разброс в распределении выборочных средних Форма: с увеличение размера выборок (вольер) распределение выборочных средних приближается к нормальному распределению (независимо от формы распределения популяции). Среднее: среднее значение в распределении средних равно среднему значению в популяции, т.е., Разброс: распределение выборочных средних уже распределения популяции на, где n – объём выборки, т.е. Пример с монеткой
Распределение выборочных средних (sampling distribution of the means) Следствие: некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, Поэтому оно так широко распространено в природе! если некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе!
Распределение выборочных средних (sampling distribution of the means) Использование распределения выборочных средних Из нашей выборки мы получили среднее значение. Насколько оно близко истинному среднему значению во всей популяции? Мы знаем, что для нормального распределения существует z-оценка, значениям которой соответствуют однозначно определённые площади распределения. Но мы также знаем, что выборочные средние образуют нормальное распределение!!
Распределение выборочных средних (sampling distribution of the means) Z - оценка Z - оценка Вопрос: какая часть ОСОБЕЙ имеет массу больше 55 кг? Другой вопрос: какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг? Пример про бутылки с кока-колой
Оценка параметров популяции на основе свойств выборки Мы посчитали среднюю массу кроликов в одной вольере, но на самом деле нас интересует средняя масса всех кроликов! Решим обратную задачу: Пусть мы изначально знаем среднюю массу кроликов на ферме и стандартное отклонение в популяции. Как оценить среднюю массу в одной из вольер? Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции μ Зная стандартное отклонение в нем (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в вольерах: cv – critical value
Оценка параметров популяции на основе свойств выборки 95% доверительный интервал (95% confidence interval): интервал значений переменной, который с вероятностью 95% содержит нужный параметр. Т.е., расстояние от выборочного среднего до среднего значения в популяции в 95% выборок не больше 1.96 SE Вернёмся к исходной задаче: Как оценить среднюю массу в популяции, если нам известно среднее в выборке?? Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE
Оценка параметров популяции на основе свойств выборки Вопрос: где расположено μ? Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего (SE) Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал Вопрос: где расположено μ? Ответ: я совершенно уверен, что оно лежит в пределах... от до В примере нам было известно σ, но на практике оно обычно неизвестно!
Оценка параметров популяции на основе свойств выборки Мы не знаем стандартное отклонение в популяции, и оцениваем его через стандартное отклонение в выборке – поэтому, доверительный интервал должен быть ШИРЕ, чем при известном σ. И поправка (t вместо z-оценки) будет зависеть от РАЗМЕРА ВЫБОРКИ (число степеней свободы df = n-1) df
t-распределение (Стьюдента) df=k При больших (>30) размерах выборок приближается к нормальному