Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемkodomo.cmm.msu.su
1 Проверка множественных гипотез: p-values, permutation test, FDR – основные идеи (на уровне махания руками)
2 p-value Философский подход: всё плохо: НУЛЕВАЯ ГИПОТЕЗА cdf = Cumulative Distribution Function
3 P-values & Bayesian paradigm p-value – это условная вероятность, годится! Условная вероятность ЧЕГО? Один исход vs хвост Нормировка
4 P-value Параметрические тесты Непараметрические Комбинаторные (Фишер) Пермутации
5 Точный тест Фишера Удивительное – рядом. Нам нужен p-value(OR) а мы его считаем как сумму числа способов разложить истории болезней по ящикам.
6 Тест Фишера: почему это работает? Интуиция – какие события вообще бывают. Правильная параметризация – со значением написанным в уголке монотонно меняются и ассоциация, и число способов маркировки историй болезни. Легко считается стат. сумма
7 Дискриминационные задачи Конфетки и не-конфетки Ошибки первого и второго рода. I : FP Не-конфетку приняли за конфетку II : Конфетку не признали. Мощность – 1-p(II)
8 Лирическое отступление p-values, посчитанные из распределения случайной величины, распределены равномерно
9 Лирическое отступление 2-го порядка: преобразование плотности распределения ξ – случайная величина; ρ(ξ) – плотность её распределения; g(ξ) – функция этой случайной величины; ρ(g(ξ)) – её плотность
10 Лирическое отступление p-values, посчитанные из распределения случайной величины, всегда распределены равномерно
11 Лирическое отступление и определение p-value Вычисленная из плоского распределения вероятность того, что ξ более или так же маргинальна как ξ 0, то есть обладает меньшим или равным p-value, совпадает с определением p-value.
12 Множественность гипотез Пусть мы получили результат с хорошим p-value. И что? 0 p 1 p 2 p 3 p 4 …….. p N Результаты серии N экспериментов: Бонферрони: все p умножить на N Bland, J. M. and D. G. Altman (1995). Multiple significance tests: the bonferroni method. BMJ (Clinical Research Ed.) 310 (6973), 170. PMID: Вспоминаем лирическое отступление: это p i – они же вероятности оказаться слева от p i ЛО
13 Контроль частоты ошибок 0p 1 p 2 p 3 p 4 …….. p N Контроль частоты ошибок: хочется назвать номер n, такой что все эксперименты с i n нас устраивают, а остальные – нет. Зададим число α : вероятность того, что хотя бы один результат из хороших получен случайно, не превосходит α. max i: Np i α FWER : FamilyWise Error rate – ни одного урода в семье!!! Семья – это те, что прошли тест Говоря точнее, α – это вероятность семьи с уродом. Это – тот же Бонферрони 1)Чиним ошибку 1 рода, получаем 2 рода – слишком строгий отбор ( теряем мощность). 2)Независимость (below: WY) 3)А что мы вообще хотим от этой серии экспериментов? (below: FDR) ло
14 Пермутации по Westfall-Young Хочу другие p-values, и пусть они уже знают про множественность гипотез, а про независимость испытаний их вообще не волнует! Westfall, P. H. and S. S. Young (1993). Resampling- based multiple testing. John Wiley and Sons. 0 p 1 p 2 p 3 p 4 …….. p N – наши p-values Перемешиваем исходные данные M раз так, чтобы они стали как можно менее осмысленными, но выглядели как исходные. 0 p 2 1 p 2 2 p 2 3 p 2 4 …….. p 2 N 0 p M 1 p M 2 p M 3 p M 4 … p M N 0 p 3 1 p 3 2 p 3 3 p 3 4 …….. p 3 N 0 p 1 1 p 1 2 p 1 3 p 1 4 …….. p 1 N ….. ….. ….. ….. ….. ….. ….. ….. ….. ОЧЕНЬ МЕДЛЕННО!
15 FDR Test passed Test failed TrueTPFN FalseFPTN p = E(FP/(FP+TN)) FDR =E(FP/(FP+TP)) Тест был применён к куче единичных испытаний. Некоторые из них прошли тест, некоторые нет. Некоторые были на самом деле сигналом, некоторые – шумом. Для оценки p-value было достаточно знать нулевую модель (она же шум). Для FDR – ещё и модель сигнала.
16 Benjamini, Hochberg Мы хотим контролировать FDR на уровне α. 0 p 1 p 2 p 3 p 3 p 4 …….. p N max i : Np i / i α i – это число тех, кто прошёл тест, то есть FP+TP Np i - оценка FP ; как и Бонферрони, предполагает независимость. Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological) 57 (1),
17 Storey, Tibshirani Это наблюдённое распределение (генов). Значения пересчитаны в p-values исходя из предположительной модели шума. Общая площадь под графиком, естественно, 1 Вспомним лирическое отступление. Правый хвост (правее γ) распределения p-values содержит почти только шум. Теперь мы можем приблизительно разделить сигнал и шум!!! Storey, J. D. and R. Tibshirani (2003, August). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences of the United States of America 100 (16), 9440{9445. PMID:
18 Миронов S 1 S 2 S 3 …. S N p(S 1 ) p(S 2 ) p(S 3 ) …. p(S N ) p(S i )=P(S S i ) для нулевой гипотезы Выбираем порог i, который отделит сигнал 1..i от шума i+1..N Модель: N испытаний. Успех – побили S i. Успехов больше или равно i. Выбиремиi : P(i) = P(как минимум i значений S из N оказались Si) минимальна. Olga V. Kalinina, Pavel S. Novichkov, Andrey A. Mironov, Mikhail S. Gelfand, and Aleksandra B. Rakhmaninova. SDPpred: a tool for prediction of amino acid residues that determine differences in functional specificity of homologous proteins // Nucleic Acids Res July 1; 32(Web Server issue): W424–W428. doi: /nar/gkh391. PMCID: PMC441529
19 Кажется, всё. Спасибо Андрею Миронову, Кате Ермаковой и Майку Оксу.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.