Многофакторная статистика Многофакторный дисперсионный анализ.

Презентация:



Advertisements
Похожие презентации
Дисперсионный анализ. Основной целью дисперсионного анализа является исследование значимости различия между средними. Установить различаются ли три группы.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
Статистическое моделирование экспериментального плана Лекция 3.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Статистическое моделирование факторных планов Лекция 5.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Анализ измерений Классификация методов Наследов А. Д, 2012.
«Линейная регрессия и корреляция: смысл и оценка параметров»
1 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПЛАТА ASVABC S 1 ПЛАТА = S + 3 ASVABC + u Геометрическая интерпретация множественной регрессионной модели с.
Эконометрика. Литература Доугерти К. Введение в эконометрику. - 3-е изд. - М.: ИНФРА- М, XIV, 465 с. Доугерти К. Введение в эконометрику. - 3-е.
Транксрипт:

Многофакторная статистика Многофакторный дисперсионный анализ

Модель дисперсионного анализа Цель Изучение влияния двух и более факторов на одну или несколько результирующих переменных. Результирующая переменная – количественный показатель!

Модель дисперсионного анализа Факторы Постоянный фактор (fixed factor): независимый признакнезависимый признак исследователь сам задает весь диапазон значений фактораисследователь сам задает весь диапазон значений фактора

Модель дисперсионного анализа Примеры постоянных факторов: 1.Влияние курса обучения в ВУЗе на распространенность близорукости. Номер курса – постоянный фактор, включены все возможные значения. 2.Влияние возраста на частоту рака шейки матки. Возраст поделен на 4 группы самим исследователем – это постоянный фактор.

Модель дисперсионного анализа Факторы Случайный фактор (random factor): независимый признакнезависимый признак в исследование включается несколько случайно выбранных значений этого факторав исследование включается несколько случайно выбранных значений этого фактора

Модель дисперсионного анализа Примеры случайных факторов: 1.Распространенность поведенческих расстройств в 10 случайно выбранных из 1000 классов в средних школах города. Выбранные классы – случайный фактор. 2.Различия в эффективности в четырех произвольно взятых партиях препарата. 4 партии – случайный фактор.

Модель дисперсионного анализа Случай независимости факторов Если есть все основания предполагать отсутствие влияния факторов друг на друга, модель будет оценивать только постоянные и случайные эффекты (fixed and random effects).

Модель дисперсионного анализа Случай зависимости факторов В случае, когда предполагается влияние факторов друг на друга, в модели, кроме постоянных и случайных эффектов, должны быть также запланированы эффекты взаимодействия (interaction effects).

Базовая модель Предусматривает следующие допущения: Постоянные эффектыПостоянные эффекты Отсутствие эффекта взаимодействияОтсутствие эффекта взаимодействия

Базовая модель Математическая основа базовой модели: SS общ = SS A + SS B + SS ост Где SS – это сумма квадратов отклонений от среднего. Рассмотрим случай, когда комбинация определенных значений A и B встречается у равного количества человек r, число возможных значений B равно b и число возможных значений A равно a. (сбалансированная модель).

Базовая модель Тогда общее число человек в выборке n = a x b x r

Базовая модель В основе лежит все та же основная модель дисперсионного анализа, что и в случае однофакторной статистики, только теперь мы изучаем действие двух или более факторов: x = m + α + β + … + ε

Базовая модель Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Фактор А SS A a-1 MS A MS A / MS ост Фактор B SS B b-1 MS B MS B / MS ост Главные эффекты SS мод = SS A + SS B a + b -2 MS мод MS мод / MS ост Случайные отклонения SS ост ab(r-1) MS ост

Модель с эффектом взаимодействия Эффект взаимодействия предусматривает то, что дисперсия общего влияния факторов не равна простой сумме их дисперсий: SS общ = SS A + SS B + SS AB + SS ост Вводится еще один компонент – взаимодействие A и B.

Модель с эффектом взаимодействия Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Фактор А SS A a-1 MS A MS A / MS ост Фактор B SS B b-1 MS B MS B / MS ост Взаимодействие A и B SS AB (a -1)(b -1) MS AB MS AB / MS ост Случайные отклонения SS ост ab(r-1) MS ост

Модель со случайными эффектами Случайные факторы предусматривают другой подход к вычислению компонентов дисперсии. Если все факторы случайны, то в модели x = m + a + b + e при справедливости нулевой гипотезы a, b и e распределены нормально со средним = 0 и разными дисперсиями.

Модель со случайными эффектами Источник вариации SSdfMSF Общий SS общ abr-1 MS общ Между значениями фактора А SS A a-1 MS A MS A / MS B Между значениями фактора B при разных A SS B a(b-1) MS B MS B / MS ост Случайные отклонения SS ост ab(r-1) MS ост

Модель со случайными эффектами Поскольку подход к SS B иной, рассчитывается он тоже по-другому: Если в модели со случайными эффектами есть взаимодействия, их дисперсия считается так же, как и в модели постоянных эффектов.

Модель с несколькими эффектами Чем больше факторов в модели, тем сложнее ее расчет и построение. Так, например, если в модели три фактора, то оценка влияния одного фактора на модель в целом можно провести только после исключения его взаимодействия с другими факторами: MS ABC / MS ост – взаимодействие всех факторов MS AB / MS ABC - взаимодействие двух факторов MS AС / MS ABC - взаимодействие двух факторов

Немного терминологии Уровень (level) – это одно из возможных значений фактора. В англоязычной литературе фактор принято обозначать в виде его номера и количества уровней: 2x2, 3x4 и т.п. Ячейка/гнездо (cell) – это группа значений при заданной комбинации факторов (например, ячейка A=1, B=2, C=10)

Немного терминологии Полный перекрестный дизайн (Completely crossed design) – каждый уровень каждого фактора встречается в комбинации со всеми уровнями остальных факторов. Сбалансированный дизайн (balanced design) - в каждой ячейке равное количество значений. Ортогональный дизайн (orthogonal design) – сбалансированный, полный перекрестный дизайн при условии случайной выборки.

Простой пример Изучаются 2 фактора, влияющих на сдачу экзамена: Употребление кофе (да/нет)Употребление кофе (да/нет) Наличие конспекта (да/нет)Наличие конспекта (да/нет) Результат оценивается в количестве правильных ответов на вопросы единого междисциплинарного теста. Конспект (Фактор A) Кофеин (Фактор B) НетДа Да Только кофеин Оба Нет Контроль (ни одного) Только конспект

Простой пример Основные эффекты: N= по 30 в клетке Конспект (Фактор A) Средние по столбцам Кофеин (Фактор B) НетДа ДаКофеин Ср.балл = 80 СО = 5 Оба Ср.балл = 85 СО= НетКонтроль Ср.балл = 75 СО = 5 Конспект Ср.балл = 80 СО = Средние по строкам

Простой пример Основные эффекты и их взаимодействие Конспект (Фактор A) Средний балл НетДа Без кофеина С кофеином Фактор B

Простой пример Основные эффекты и их взаимодействие Эффекты факторов видны по наклону линий на графике (первый эффект) и точках пересечения линий с вертикальной осью (второй эффект) Взаимодействие факторов проявляется в виде нарушения параллельности линий на графике.

Простой пример Единственный основной эффект за счет B (только кофе) Фактор A Средняя реакция Единственный основной эффект B=1 B=2 A 1 2 B

Простой пример Единственный основной эффект за счет А (только конспект) Фактор A Средняя реакция Единственный основной эффект B=1 B=2 A 1 2 B

Простой пример Оба основных эффекта A и B (кофе и конспект) Фактор A Средняя реакция Оба основных эффекта B=1 B=2 A 1 2 B

Простой пример Взаимодействие (вариант 1) Кофе не влияет на результат без конспекта Фактор A Средняя реакция Взаимодействие 1 B=1 B=2 A 1 2 B

Простой пример Взаимодействие (вариант 2) Студенты, пьющие кофе, лучше сдают без конспекта, а студенты с конспектами лучше сдают без кофе Фактор A Средняя реакция Взаимодействие 2 B=1 B=2 A 1 2 B

Простой пример Взаимодействие (вариант 3) Конспект помогает всегда, но его действие сильнее в сочетании с кофе Фактор A Средняя реакция Взаимодействие 3 B = 1 B = 2

Пример 2 Проводится исследование по изучению влияния усталости и употребления алкоголя на качество вождения автомобиля.Проводится исследование по изучению влияния усталости и употребления алкоголя на качество вождения автомобиля. УсталостьУсталость 1. Отдохнувшие (4 часа бодрствования после 8 часов сна) 2. Уставшие (24 часа без сна) Количество выпитогоКоличество выпитого 1.Трезвые (контроль) 2.2 кружки пива 3.Алкоголь крови 0.8% Результат в виде количества ошибок вождения по оценке инструктора на закрытом автодромеРезультат в виде количества ошибок вождения по оценке инструктора на закрытом автодроме

Пример 2 Структура ячеек. Ортогональный дизайн n = 2 Алкоголь (Фактор А) Средние по строкам Усталость (Фактор B) Трезвые (j=1) 2 кружки (j=2).08%(j=3) Уставшие (k=1) 2, 4 M = 3 16, 18 M = 17 18, 20 M = 19 M = 13 Отдохнувшие (k=2) 0, 2 M = 1 2, 4 M = 3 16, 18 M = 17 M = 7 Средние по столбцам M = 2 M = 10 M = 18 M = 10

Пример 2 Предварительная оценка графиков интокс.2 кружкитрезвые Употребление алкоголя Ошибки вождения Факторный дизайн Отдохнувшие Уставшие

Пример 2 Подготовка данных для анализа ИсследуемыйОВ Фактор А - алкоголь Фактор B - отдых

Пример 2 В пакете NCSS следует выбрать Analysis – ANOVA – Analysis of Variance Общий вид данных в программе NCSS. DE – результат Alcohol и Rest - факторы

Пример 2 Analysis of Variance – вкладка Factors 1-4: Выбрана переменная- результат (DE). Выбраны 2 фактора. Заметим, что тип обоих факторов – фиксированный, так как мы сами определили их уровни.

Пример 2 Понятие о сравнении (Comparison) Для каждого фактора имеется графа Comparison – сравнение. В этой графе определяется, следует ли дополнительно сравнивать средние в группах с разным уровнем фактора. Набор сравнений определяется через контрасты (contrast) – это взвешенные средние. Например, если у фактора 3 уровня, и надо сравнить 1 и 3, то контраст будет выглядеть Если нужно сравнить 1 со средним значением 2 и 3, то контраст будет выглядеть

Пример 2 Понятие о сравнении (Comparison) Истинными сравнениями являются только контрасты, сумма чисел в которых равна 0. Число в контрасте отражает «вес» данной средней в сравнении. «Вес» при сравнениях одного уровня с несколькими равен числу уровней, с которыми ведется сравнение. Пример для 4 уровней:

Пример 2 Вкладка Reports (Отчеты) полностью соответствует таковой в однофакторном дисперсионном анализе. Если вы определяете какие-либо из тестов множественных сравнений (Multiple Comparison tests), то они будут проведены для всех уровней каждого фактора в отдельности. Помните, что эти тесты имеют смысл, только если выявлено достоверное влияние соответствующего фактора на результат.

Пример 2 Чтобы провести множественные сравнения при достоверном взаимодействии факторов, нужно указать на вкладке Reports – Multiple Comparison Tests самую последнюю строчку – Tests for two-factor interactions. К сожалению, в NCSS не реализована процедура оценки взаимодействия более чем двух факторов.

Пример 2 Анализ при достоверности эффекта взаимодействия

Пример 2 Результаты: Analysis of Variance Table SourceSum ofMeanProbPower TermDFSquaresSquareF-RatioLevel(Alpha=0.05) A: Alcohol * B: Rest * AB * S6122 Total (Adjusted)11728 Total12 *Term significant at alpha = 0.05 По результатам дисперсионного анализа выявлены статистические значимые эффекты как всех основных факторов, так и их взаимодействия.

Пример 2 На графике четко видны все три утверждения секции дисперсионного анализа

Мера силы влияния Общий случай нахождения коэффициента детерминации. Для линейной регрессии коэффициент детерминации равнялся квадрату коэффициента линейной корреляции Пирсона. В общем случае коэффициент детерминации определяет долю дисперсии, обусловленной фактором, в общей дисперсии:

Мера силы влияния Коэффициент детерминации, однако, оказывается смещенной оценкой для взаимодействия факторов, поэтому в общей случае лучше пользоваться величиной омега-квадрат. Где l – число уровней изучаемого фактора.

Мера силы влияния Для оценки силы влияния комбинации нескольких факторов используется формула: Где k – количество факторов в комбинации. Для нашего примера с ошибками вождения получаем: Для фактора А (алкоголь) ω 2 = 0.7 Для фактора B (отдых) ω 2 = 0.15 Для комбинации AB ω 2 = 0.13

Ковариаты Если многофакторный дисперсионный анализ проводится в рамках общей линейной модели (GLM), то возможна оценка влияния вмешивающихся переменных, или ковариат (covariates). В программе NCSS это позволяет сделать раздел Analysis – ANOVA – GLM ANOVA.

Ковариаты В литературе мы часто видим примерно следующие выражения: «был проведен анализ влияния лечения на исход с поправкой» на пол, возраст, образование и т.п. Цель такой поправки – снизить разброс значений в изучаемой группе, связанный с действием другой переменной.

КовариатыПример: Вы изучаете влияние каких-либо факторов (уровень холестерина, пол и т.п.) на уровень среднего АД у пациентов после лечения. Разброс показателей в этой группе достаточно высок. Очевидной ковариатой является исходный уровень давления (до лечения).

Ковариаты График рассеяния показывает, что АД до лечения (+) выше, чем после лечения (о). Также видно, что чем выше было АД до лечения, тем выше оно и после лечения.

Ковариаты Построим две предполагаемые линии регрессии для группы «до лечения» и группы «после лечения». Очевидно, что различия в исходном уровне давления привели к появлению значимого наклона линий регрессии.

Ковариаты Чтобы «убрать» влияние исходного АД, мы заменим исходные данные «остатками» (residuals) от регрессионной линии, ликвидировав дисперсию, обусловленную этой регрессией.

Ковариаты Смысл наших действий состоит в том, чтобы «повернуть» оси графика в сторону уменьшения дисперсии так, чтобы регрессионные линии стали параллельны горизонтальной оси.

Ковариаты В итоге мы получили график, на котором вместо абсолютных значений АД «после лечения» имеются его «остатки», практически идентичные изменению АД в результате лечения. Теперь разброс не превышает 50 пунктов.

Ковариаты Важное замечание! Оценка ковариат возможна только в рамках общей линейной модели, так как предусматривает наличие линейной зависимости. В качестве ковариат следует брать только показатели, которые дают высокий коэффициент корреляции с изучаемым признаком.

Ковариаты Важное замечание! Оценка ковариат возможна только в рамках общей линейной модели, так как предусматривает наличие линейной зависимости. В качестве ковариат следует брать только показатели, которые дают высокий коэффициент корреляции с изучаемым признаком.

Ковариаты Ковариаты должны, как и основные переменные, относится к количественным непрерывным признакам. Дисперсионный анализ с учетом ковариат носит название Analysis of CoVariance (ANCOVA) В качестве примера для самостоятельного изучения вы можете открыть базу ANCOVA.S0 из директории DATA программы NCSS.

Ковариаты (Вероятнее всего ее найти в C:\Program Files\NCSS97\DATA\) Открыв Analysis-ANOVA-GLM ANOVA, укажите IQ –как результат (Response), State – как фиксированный фактор, Age – как ковариата.

Многофакторный анализ нескольких переменных Если вы изучаете влияние факторов (или различия между группами) сразу на несколько переменных, методика простого многофакторного анализа здесь не подходит. В многофакторном анализе нескольких переменных (MANOVA) группа переменных рассматривается как единый вектор, и далее оцениваются уже характеристики всего вектора.

Многофакторный анализ нескольких переменных При сравнении векторов методика, основанная на распределении F, дает смещенные результаты. Вычислительные аспекты анализа нескольких переменных весьма громоздки, так как включают матричную алгебру – оценивается матрица гипотез и матрица остатков.

Многофакторный анализ нескольких переменных В качестве замены критерия F используются следующие методы: 1.Ламбда Уилка (Wilks Lambda) 2.Признак Лоули-Хотеллинга (Lawley- Hotteling Trace) 3.Признак Пиллэ (Pillais Trace) 4.Метод наибольшего корня Роя (Roys Largest Root)

Многофакторный анализ нескольких переменных В качестве замены критерия F используются следующие методы: 1.Ламбда Уилка (Wilks Lambda) 2.Признак Лоули-Хотеллинга (Lawley- Hotteling Trace) 3.Признак Пиллэ (Pillais Trace) 4.Метод наибольшего корня Роя (Roys Largest Root)

Многофакторный анализ нескольких переменных Если число степеней свободы для матрицы гипотез h= 1, все указанные тесты равнозначны. При увеличении числа степеней свободы h, признак Пиллэ становится менее чувствительным, нежели другие методы. MANOVA является достаточно устойчивым к небольшому нарушению большинства допущений дисперсионного анализа.

Многофакторный анализ нескольких переменных Одним из аспектов MANOVA является расчет матрицы корреляции/ковариации внутри всего вектора переменных (ячейки). Если коэффициент детерминации для любой из переменных превышает.99, это представляет серьезную проблему для анализа. Такая переменная должна быть исключена из анализа. Исключение переменных должно производиться строго по одной, пока не будет достигнуто нормальное значение коэффициента детерминации.

Многофакторный анализ нескольких переменных Пример в NCSS Изучается влияние двух факторов – лечения (Treatment) и инвалидности (Disability) на показатели двух интегральных шкал (WRatA, WRatR). Для анализа следует открыть Analysis – Multivariate Analysis – MANOVA.

Многофакторный анализ нескольких переменных

Во вкладке Reports мы выбрали все возможные виды отчетов, включая отчеты по отдельным переменным (Univariate Fs)

Многофакторный анализ нескольких переменных Результаты – раздел MANOVA MANOVA Tests Section Term(DF)TestProb Test StatisticValueDF1DF2F-RatioLevel(0.05) A(1):Treatment Wilks' Lambda Reject Hotelling-Lawley Trace Reject Pillai's Trace Reject Roy's Largest Root Reject WRATR Reject WRATA Reject В данном случае выявлено достоверное влияние фактора А на переменные.

Многофакторный анализ нескольких переменных Результаты - раздел корреляции внутри ячейки Within-Cell Correlations Analysis R-SquaredCanonicalPercentCumulative VariableOther Y'sVariateEigenvalueof TotalTotal WRATR WRATA В данном случае значения R ничтожно малы – переменные не оказывают влияния друг на друга.