Институт общей генетики им. Н.И. Вавилова РАН 2. Первичный обзор данных Рубанович А.В. Биостатистика.

Презентация:



Advertisements
Похожие презентации
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Advertisements

Проф. д. мед.н. Ледощук Б.А. 1 Классификация статистических методов.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
Эконометрика / Лабораторные работы в Microsoft Excel/
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
ПРИМЕНЕНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ В ГЕОЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
{ интервальные оценки параметров - некоторые распределения СВ связанные с нормальным распределением - доверительный интервал для выборочного среднего при.
Статистические оценки параметров распределения Доверительные интервалы.
Элементы математической статиститки. Статистика – дизайн информации.
Корреляционная таблица. Коэффициент линейной кор-ии Пирсона.
Институт общей генетики им. Н.И. Вавилова РАН 3. Анализ количественных признаков Рубанович А.В. Биостатистика.
1 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПЛАТА ASVABC S 1 ПЛАТА = S + 3 ASVABC + u Геометрическая интерпретация множественной регрессионной модели с.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Транксрипт:

Институт общей генетики им. Н.И. Вавилова РАН 2. Первичный обзор данных Рубанович А.В. Биостатистика

Чем мы занимались на предыдущем занятии? Фактически теорией вероятностей! Мы вычисляли вероятность наблюдаемого расклада (комбинации событий) при условии случайности и независимости этих событий Эту вероятность мы вычисляли «в лоб», используя комбинаторику и биномиальное распределение Бернулли. Это была статистика «на пальцах», точнее говоря на монетах На этом пути мы освоили точный тест Фишера, предназначенный для сравнения частот событий К сожалению, для решения большинства других задач статистики такой «честный путь» невозможен. Вместо этого по результатам измерений вычисляется новая величина, т.н. статистика теста (t, 2, Z, … ), и уже по ее значениям косвенно судят о неслучайности эффекта.

Несколько обязательных общих понятий Статистика - это экспериментальный анализ случайных величин. Мы пытаемся судить о неизвестных случайных величинах по конечной совокупности наблюдений за ними (выборке). Выборка - это последовательность чисел x 1,..., x n, полученных при n-кратном повторении эксперимента в неизменных условия, например это могут быть значения признака для n различных особей Неизвестный нам закон распределения наблюдаемой случайной величины называется генеральным. Характеристики выборки (среднее, дисперсия) являются приблизительными оценками истинных параметров неизвестного нам генерального распределения

Обычно в результате эксперимента появляется некий Excel-файл Вносите все данные в одну электронную таблицу. Это упростит дальнейшие сравнения. Не надо для каждой популяции или варианта опыта создавать новый файл. Тщательно продумывайте названия столбцов и обозначения для номинальных признаков (не надо «x1», «mbd13_» или «+») При внесении текстовых данных следите за унификацией: Генотип «АС» - это не то же самое, что «А С» или « АС». Следите также за раскладкой клавиатуры (проблемы с «С») Несколько советов по хранению данных: Признак 1Признак 2… Особь 1 … Признаки могут быть: Количественные (непрерывные или счетные) Качественные (номинальные или порядковые) Начинайте с Excel. Импорт в STATISTICA или SPSS всегда возможен

Познакомьтесь: наша учебная «база данных». Она будет использована для иллюстраций Качественные номинальные признаки Количественные признаки Качественный порядковый признак: 0 – контроль 1 - больной Генотипы - номинальные признаки. Впоследствии их лучше превратить в порядковые

Обзор данных: описательные статистики Среднее – основная характеристика «положения» случайной величины Дисперсия – основная характеристика разброса случайной величины около среднего Близкие характеристики «положения» Медиана – значения больше и меньше равновероятны Мода – наиболее вероятное значение случайной величины Дисперсия имеет размерность [x] 2. Корень из дисперсии называется стандартным отклонением (SD) и имеет размерность [x] Среднее геометрическое Предпочтительна при «тяжелых хвостах» (асимметричные распределения), когда «типичное» не совпадает со средним Несмещенная оценка дисперсии, т.е.

Ошибки средних и доверительные интервалы Выборочное среднее является величиной случайной! Стандартное отклонение этой случайной величины называется ошибкой среднего (SE). Можно показать, что В отчетах можно писать: Не путайте SD и SE !!! Оценка разнообразия признака в генеральной совокупности Изменчивость самих оценок среднего Слабо зависит от размеров выборки Всегда уменьшается при увеличении размеров выборки А можно указывать 95%-ый доверительный интервал: Это интервал, накрывающий истинное значение среднего с вероятностью 95% Почему 1.96 ? Мы еще об этом поговорим!

Обзор данных: описательные статистики с помощью Excel В Excel есть встроенные функции описательных статистик: Кроме того в пункте «Сервис» имеется пакет «Анализ данных», содержащий различные статистические процедуры = СРЗНАЧ(число 1; число 2; …) = СРЗНАЧ(диапазон) или = ДИСП(число 1; число 2; …) = ДИСП(диапазон) или Галочка, если в первой строке названия признаков Выбор диапазона данных Куда поместить результаты вычислений Все это не слишком удобно потому, что нет возможности группировки по значениям заданного признака

Обзор данных: описательные статистики с помощью STATISTICA Качественные признаки (порядковые и номинальные) могут выступать как группирующие переменные

Обзор данных: описательные статистики с помощью STATISTICA Выбираете нужные показатели

Обзор данных: смотрим характер распределений (STATISTICA) Всегда необходимо просматривать гистограммы рспределений признаков Тест не нормальность Выбрали количественные показатели Значимые отклонения от нормальности

Обзор данных: использование группирующих переменных (STATISTICA) Выбираете нужные показатели

Обзор данных: характер распределений в зависимости от группирующей переменной

Обзор данных: характер распределений – «ящик с усами» В «ящике» 50% данных

Обзор данных: использование группирующих переменных (SPSS) Выбираете нужные показатели Группирующая переменная OK

Кросстабуляция - оценки частот для номинальных признаков (STATISTICA)

Оценки частот тоже имеют ошибки и доверительные интервалы Количественный признак Номинальный признак Выборка {x 1, x 2,…x n }{m, n} Среднее SD SE 95%-й доверительный интервал для частоты: Приближенно при больших n К сожалению, в стандартных пакетах ошибок частот нет!

DESCRIBE / Appraisal of rate or proportions Доверительные интервалы для частот Формула не проходит, если р мало или объемы выборок невелики Например, если p = 1/10, то и левая граница ДИ получается отрицательной 95% C.I. (Fisher's) = ( )

Следующий шаг: корреляционная матрица Bird-view обзор взаимосвязей между признаками, включая порядковые и номинальные Но для этого необходима перекодировка номинальных признаков, в первую очередь генотипов, например: 0 – гомозигота по мажорному аллелю 1 – гетерозигота 2 - гомозигота по минорному аллелю

Следующий шаг: корреляционная матрица Bird-view обзор взаимосвязей между признаками

Корреляционный матрица Bird-view обзор взаимосвязей между признаками Пока все это только для личного пользования! Как возможные направления дальнейших поисков

Все только начинается! 1. Общая схема поиска взаимосвязей между признаками Независимая (группирующая) переменная Зависимая переменная Метод анализа Номинальная Количественная (нормальная) Количественная («ненормальная») Сравнение средних по Стьюденту, дисперсионный анализ Непараметрические методы, критерий Манна-Уитни 2. Многомерные методы: взаимосвязи между группами признаков Количественные КоличественнаяМногомерный регрессионный анализ Количественные Номинальная Классификация, деревья, главные компоненты, факторный анализ Номинальные НоминальнаяЛогистическая регрессия, деревья Номинальная Таблицы сопряженности, точный тест Фишера, критерий 2 Пирсона Количественная Корреляции, регрессионный анализ

На сегодня это все Если Вы этого никогда не делали, составьте базу данных в Excel и посчитайте самостоятельно описательные статистики Напоследок хочу посоветовать: При сравнении средних всегда пробуйте все тесты – параметрические и непараметрические. Проверяйте характер распределения сравниваемых величин. Или хотя бы стройте гистограммы распределений – для себя. Оценивайте мощность теста в случае получения незначимых результатов