Проверка множественных гипотез: p-values, permutation test, FDR – основные идеи (на уровне махания руками)

Презентация:



Advertisements
Похожие презентации
Проверка статистических гипотез 1.Формулировка задачи. Термины и определения. 2.Схема проверки статистической гипотезы. 3.Мощность критерия. 4.Проверка.
Advertisements

Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Примеры Вырожденное распределение (Распределение константы) Распределение Бернулли (Распределение индикатора события)
Найдем вероятность попадания в интервал (x, x + x): P(x X x + x)=F(x + x) - F(x) F(x). § 6. Непрерывная случайная величина. Функция плотности. Пусть X.
Некогерентный приём сигналов Презентация лекции по курсу «Общая теория связи» © Д.т.н., проф. Васюков В.Н., Новосибирский государственный.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Случайные величины: законы распределения. Что было: понятие о случайной величине СЛУЧАЙНОЙ ВЕЛИЧИНОЙ называется величина, которая в результате испытания.
Где q=1-p. Случайная величина Х называется распределенной по биномиальному закону с параметрами n,p >0, если Х принимает значения: 0,1,2,…n и вероятность.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Имитационное моделирование в исследовании и разработке информационных систем Лекция 5 Элементы теории вероятностей и математической статистики в имитационном.
Гауссова кривая Закон больших чисел Выполнила: Ромашева Мария, ученица 11Б класса МОУ «Гимназия 11»
Имитационное моделирование в исследовании и разработке информационных систем Лекция 5 Примеры систем моделирования (продолжение) Статистическая обработка.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
О «минимально значимых различиях» при оценке результатов исследования качества жизни БОРЦОВ Андрей Витальевич Ст. н. с. НИПНИ им.В.М.Бехтерева.
Статистическая гипотеза. Нулевая гипотеза Кошкарова М.
1 Оглавление Способы задания случайных величин Числовые характеристики Основные дискретные распределения Основные непрерывные распределения Предельные.
Специальные вопросы ТВиМС часть 2 предельные и условные распределения лекция вторая.
Определение вероятности случайного события. Элементы комбинаторики: Перестановки; Размещения; Сочетания.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Статистические гипотезы Лекция 2.
Транксрипт:

Проверка множественных гипотез: p-values, permutation test, FDR – основные идеи (на уровне махания руками)

p-value Философский подход: всё плохо: НУЛЕВАЯ ГИПОТЕЗА cdf = Cumulative Distribution Function

P-values & Bayesian paradigm p-value – это условная вероятность, годится! Условная вероятность ЧЕГО? Один исход vs хвост Нормировка

P-value Параметрические тесты Непараметрические Комбинаторные (Фишер) Пермутации

Точный тест Фишера Удивительное – рядом. Нам нужен p-value(OR) а мы его считаем как сумму числа способов разложить истории болезней по ящикам.

Тест Фишера: почему это работает? Интуиция – какие события вообще бывают. Правильная параметризация – со значением написанным в уголке монотонно меняются и ассоциация, и число способов маркировки историй болезни. Легко считается стат. сумма

Дискриминационные задачи Конфетки и не-конфетки Ошибки первого и второго рода. I : FP Не-конфетку приняли за конфетку II : Конфетку не признали. Мощность – 1-p(II)

Лирическое отступление p-values, посчитанные из распределения случайной величины, распределены равномерно

Лирическое отступление 2-го порядка: преобразование плотности распределения ξ – случайная величина; ρ(ξ) – плотность её распределения; g(ξ) – функция этой случайной величины; ρ(g(ξ)) – её плотность

Лирическое отступление p-values, посчитанные из распределения случайной величины, всегда распределены равномерно

Лирическое отступление и определение p-value Вычисленная из плоского распределения вероятность того, что ξ более или так же маргинальна как ξ 0, то есть обладает меньшим или равным p-value, совпадает с определением p-value.

Множественность гипотез Пусть мы получили результат с хорошим p-value. И что? 0 p 1 p 2 p 3 p 4 …….. p N Результаты серии N экспериментов: Бонферрони: все p умножить на N Bland, J. M. and D. G. Altman (1995). Multiple significance tests: the bonferroni method. BMJ (Clinical Research Ed.) 310 (6973), 170. PMID: Вспоминаем лирическое отступление: это p i – они же вероятности оказаться слева от p i ЛО

Контроль частоты ошибок 0p 1 p 2 p 3 p 4 …….. p N Контроль частоты ошибок: хочется назвать номер n, такой что все эксперименты с i n нас устраивают, а остальные – нет. Зададим число α : вероятность того, что хотя бы один результат из хороших получен случайно, не превосходит α. max i: Np i α FWER : FamilyWise Error rate – ни одного урода в семье!!! Семья – это те, что прошли тест Говоря точнее, α – это вероятность семьи с уродом. Это – тот же Бонферрони 1)Чиним ошибку 1 рода, получаем 2 рода – слишком строгий отбор ( теряем мощность). 2)Независимость (below: WY) 3)А что мы вообще хотим от этой серии экспериментов? (below: FDR) ло

Пермутации по Westfall-Young Хочу другие p-values, и пусть они уже знают про множественность гипотез, а про независимость испытаний их вообще не волнует! Westfall, P. H. and S. S. Young (1993). Resampling- based multiple testing. John Wiley and Sons. 0 p 1 p 2 p 3 p 4 …….. p N – наши p-values Перемешиваем исходные данные M раз так, чтобы они стали как можно менее осмысленными, но выглядели как исходные. 0 p 2 1 p 2 2 p 2 3 p 2 4 …….. p 2 N 0 p M 1 p M 2 p M 3 p M 4 … p M N 0 p 3 1 p 3 2 p 3 3 p 3 4 …….. p 3 N 0 p 1 1 p 1 2 p 1 3 p 1 4 …….. p 1 N ….. ….. ….. ….. ….. ….. ….. ….. ….. ОЧЕНЬ МЕДЛЕННО!

FDR Test passed Test failed TrueTPFN FalseFPTN p = E(FP/(FP+TN)) FDR =E(FP/(FP+TP)) Тест был применён к куче единичных испытаний. Некоторые из них прошли тест, некоторые нет. Некоторые были на самом деле сигналом, некоторые – шумом. Для оценки p-value было достаточно знать нулевую модель (она же шум). Для FDR – ещё и модель сигнала.

Benjamini, Hochberg Мы хотим контролировать FDR на уровне α. 0 p 1 p 2 p 3 p 3 p 4 …….. p N max i : Np i / i α i – это число тех, кто прошёл тест, то есть FP+TP Np i - оценка FP ; как и Бонферрони, предполагает независимость. Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological) 57 (1),

Storey, Tibshirani Это наблюдённое распределение (генов). Значения пересчитаны в p-values исходя из предположительной модели шума. Общая площадь под графиком, естественно, 1 Вспомним лирическое отступление. Правый хвост (правее γ) распределения p-values содержит почти только шум. Теперь мы можем приблизительно разделить сигнал и шум!!! Storey, J. D. and R. Tibshirani (2003, August). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences of the United States of America 100 (16), 9440{9445. PMID:

Миронов S 1 S 2 S 3 …. S N p(S 1 ) p(S 2 ) p(S 3 ) …. p(S N ) p(S i )=P(S S i ) для нулевой гипотезы Выбираем порог i, который отделит сигнал 1..i от шума i+1..N Модель: N испытаний. Успех – побили S i. Успехов больше или равно i. Выбиремиi : P(i) = P(как минимум i значений S из N оказались Si) минимальна. Olga V. Kalinina, Pavel S. Novichkov, Andrey A. Mironov, Mikhail S. Gelfand, and Aleksandra B. Rakhmaninova. SDPpred: a tool for prediction of amino acid residues that determine differences in functional specificity of homologous proteins // Nucleic Acids Res July 1; 32(Web Server issue): W424–W428. doi: /nar/gkh391. PMCID: PMC441529

Кажется, всё. Спасибо Андрею Миронову, Кате Ермаковой и Майку Оксу.