Дисперсионный анализ
Основной целью дисперсионного анализа является исследование значимости различия между средними. Установить различаются ли три группы или более по какому-либо одному количественному признаку Например определить, зависит ли активность фермента от стадии заболевания
Классификация методов дисперсионного анализа По количеству анализируемых признаков Однофакторный (ANOVA) (Анализ различий групп по одному признаку) Многофакторный (МANOVA) (Анализ различий групп Одновременно по двум признакам и более)
Классификация методов дисперсионного анализа По принципам анализа Параметрический (Для анализа нормально распределенных признаков в группах) Непараметрический (для анализа количественного признака независимо от вида его распределения в группах)
Классификация методов дисперсионного анализа По анализируемым данным Данные, полученные в несвязанных (независимых) выборках (в частности данные однократных наблюдении) Данные, полученные в связанных (зависимых) выборках (в частности данные повторных наблюдений)
Параметрический дисперсионный анализ Параметрический дисперсионный анализ Сравнить три или более группы по количественному нормально распределенному признаку В процедуре параметрического анализа вариаций общая вариация данных рассматривается как сумма двух видов вариаций:
Параметрический дисперсионный анализ 1. Межгрупповая вариация – вариация между средним каждой группы и общим средним значением всей выборки 2. Внутригрупповая вариация – вариация между каждым объектом исследования группы и средним значением соответствующей группы
Параметрический дисперсионный анализ Этапы выполнения: Проверка гипотез о равенстве дисперсий Собственно анализ вариаций Апостериорное сравнение групп с помощью специализированных процедур, отличных от Т-критерия
Проверка гипотез о равенстве дисперсий ( тест Левена ) Происходит проверка нулевой гипотезы об отсутствии различий дисперсий в группах об отсутствии различий дисперсий в группах Если результат свидетельствует об отсутствии различия дисперсий ( р>0,05), то применение параметрического дисперсионного анализа обосновано Если различие дисперсий имеется ( р
Непараметрические методы исследования независимых групп (м-д Краскела-Уоллиса, медианный тест) Используется в случае необходимости сопоставить несколько групп по одному количественному или порядковому признаку независимо от вида его распределения в группах Используется в случае необходимости сопоставить несколько групп по одному количественному или порядковому признаку независимо от вида его распределения в группах
Мощность - вероятность отвергнуть Н 0 в эксперименте, когда Н 0 действительно неверна. Мощность
Мощность предполагаемого статистического теста - ключевой элемент планирования исследования «Реальное значение» параметра: Во всей мировой популяции землероек μ = 90 г. Пусть «реальное значение» средней массы в заповеднике = 94 г.
Мощность Нарисуем распределения выборочных средних для μ = 90 и μ = 94 (стандартное отклонение σ = 20). Размер выборки n = 25 зверей
Мощность Как увеличить мощность? МОЩНОСТИ Большей МОЩНОСТИ критерия способствуют: 1. 1.Большой размер выборки; 2. 2.Большие различия между популяциями (effect size); 3. 3.Маленькое стандартное отклонение; 4. 4.Большой уровень значимости (α=0.05 а не α=0.01); 5. 5.Выбор одностороннего теста вместо двустороннего
Базовая модель Математическая основа базовой модели: SS общ = SS A + SS B + SS ост Где SS – это сумма квадратов отклонений от среднего. Рассмотрим случай, когда комбинация определенных значений A и B встречается у равного количества человек r, число возможных значений B равно b и число возможных значений A равно a. (сбалансированная модель).
Базовая модель Тогда общее число человек в выборке n = a x b x r
Базовая модель В основе лежит все та же основная модель дисперсионного анализа, что и в случае однофакторной статистики, только теперь мы изучаем действие двух или более факторов: x = m + α + β + … + ε
Базовая модель Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Фактор А SS A a-1 MS A MS A / MS ост Фактор B SS B b-1 MS B MS B / MS ост Главные эффекты SS мод = SS A + SS B a + b -2 MS мод MS мод / MS ост Случайные отклонения SS ост ab(r-1) MS ост
Модель с эффектом взаимодействия Эффект взаимодействия предусматривает то, что дисперсия общего влияния факторов не равна простой сумме их дисперсий: SS общ = SS A + SS B + SS AB + SS ост Вводится еще один компонент – взаимодействие A и B.
Модель с эффектом взаимодействия Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Фактор А SS A a-1 MS A MS A / MS ост Фактор B SS B b-1 MS B MS B / MS ост Взаимодействие A и B SS AB (a -1)(b -1) MS AB MS AB / MS ост Случайные отклонения SS ост ab(r-1) MS ост
Модель со случайными эффектами Случайные факторы предусматривают другой подход к вычислению компонентов дисперсии. Если все факторы случайны, то в модели x = m + a + b + e при справедливости нулевой гипотезы a, b и e распределены нормально со средним = 0 и разными дисперсиями.
Модель со случайными эффектами Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Между значениями фактора А SS A a-1 MS A MS A / MS B Между значениями фактора B при разных A SS B a(b-1) MS B MS B / MS ост Случайные отклонения SS ост ab(r-1) MS ост
Модель со случайными эффектами Поскольку подход к SS B иной, рассчитывается он тоже по-другому: Если в модели со случайными эффектами есть взаимодействия, их дисперсия считается так же, как и в модели постоянных эффектов.
Модель с несколькими эффектами Чем больше факторов в модели, тем сложнее ее расчет и построение. Так, например, если в модели три фактора, то оценка влияния одного фактора на модель в целом можно провести только после исключения его взаимодействия с другими факторами: MS ABC / MS ост – взаимодействие всех факторов MS AB / MS ABC - взаимодействие двух факторов MS AС / MS ABC - взаимодействие двух факторов
Немного терминологии Уровень (level) – это одно из возможных значений фактора. В англоязычной литературе фактор принято обозначать в виде его номера и количества уровней: 2x2, 3x4 и т.п. Ячейка/гнездо (cell) – это группа значений при заданной комбинации факторов (например, ячейка A=1, B=2, C=10)
Немного терминологии Полный перекрестный дизайн (Completely crossed design) – каждый уровень каждого фактора встречается в комбинации со всеми уровнями остальных факторов. Сбалансированный дизайн (balanced design) - в каждой ячейке равное количество значений. Ортогональный дизайн (orthogonal design) – сбалансированный, полный перекрестный дизайн при условии случайной выборки.
Простой пример Изучаются 2 фактора, влияющих на сдачу экзамена: Употребление кофе (да/нет)Употребление кофе (да/нет) Наличие конспекта (да/нет)Наличие конспекта (да/нет) Результат оценивается в количестве правильных ответов на вопросы единого междисциплинарного теста. Конспект (Фактор A) Кофеин (Фактор B) НетДа Да Только кофеин Оба Нет Контроль (ни одного) Только конспект
Простой пример Основные эффекты: N= по 30 в клетке Конспект (Фактор A) Средние по столбцам Кофеин (Фактор B) НетДа ДаКофеин Ср.балл = 80 СО = 5 Оба Ср.балл = 85 СО= НетКонтроль Ср.балл = 75 СО = 5 Конспект Ср.балл = 80 СО = Средние по строкам
Простой пример Основные эффекты и их взаимодействие Конспект (Фактор A) Средний балл НетДа Без кофеина С кофеином Фактор B
Простой пример Основные эффекты и их взаимодействие Эффекты факторов видны по наклону линий на графике (первый эффект) и точках пересечения линий с вертикальной осью (второй эффект) Взаимодействие факторов проявляется в виде нарушения параллельности линий на графике.
Простой пример Единственный основной эффект за счет B (только кофе) Фактор A Средняя реакция Единственный основной эффект B=1 B=2 A 1 2 B
Простой пример Единственный основной эффект за счет А (только конспект) Фактор A Средняя реакция Единственный основной эффект B=1 B=2 A 1 2 B
Простой пример Оба основных эффекта A и B (кофе и конспект) Фактор A Средняя реакция Оба основных эффекта B=1 B=2 A 1 2 B