1 БМС –Биомедстатистика Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики СПбГМУ им. акад. И.П. Павлова Nikita.KhromovBorisov@gmail.com.

Презентация:



Advertisements
Похожие презентации
Вербальные шкалы 1. Надежность доверительных интервалов (ДИ) Уровень значимости α Уровень доверия 100(1 – α)% Степень надёжности ДИ 0,0595%Низкая 0,0199%Средняя.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______ Масштаб 1 : 5000.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Урок 2. Информационные процессы в обществе и природе.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Зачет по теме "Квадратные уравнения" Автор составитель: Попова Виктория Юрьевна, учитель математики высшей категории, заместитель директора МОУ гимназии.
ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МЕДИЦИНСКИЙ ИНСТИТУТ Хромушин В.А., д.б.н., к.т.н., академик МАИ и АМТН 2010 г. ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ РЕЗУЛЬТИРУЮЩИХ.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Д. Дуброво д. Бортниково с. Никульское д. Подлужье д. Бакунино пос. Радужный - Песчаный карьер ООО ССП «Черкизово» - Граница сельского поселения - Граница.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Ед. дес Задание 1. Задание 2 Задание 9.
РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
Транксрипт:

1 БМС –Биомедстатистика Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики СПбГМУ им. акад. И.П. Павлова (812) – дом. (812) – раб – моб. 1

2 Лекция 2. Гармонизация статистических доказательств и предсказаний 2

3 Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2. При этом надо помнить, что результат обследования является бинарным (дихотомическим): либо положительным, либо отрицательным, т.е. без промежуточных градаций. Дихотомическое деление привлекательно своей простотой. Однако такое упрощение является серьезным ограничением, поскольку результаты подобных обследований зачастую являются мерными.

4 Два основных типа Статистических Данных и их моделей Счетные Данные Счетные Данные получают путем подсчета объектов, предметов. Моделью для них являются Дискретные Случайные Величины и, соответственно, Дискретные Распределения Мерные Данные Мерные Данные получаются путем измерения признаков. Моделью для них являются Непрерывные Случайные Величины и, соответственно, Непрерывные Распределения. Счетные данные подсчитываются. Мерные данные измеряются. 4

5 Пример: каковы признаки этой собаки? Качественные: Ее окрас - коричневый с черным У нее длинная шерсть Она энергичная Количественные: счетные: – У нее 4 ноги – У нее два брата мерные: – Ее вес – 25,5 кг – Ее рост (в холке) 56,5 см 5

6 Цитокины и диагностика синдрома задержки развития плода (СЗРП) Королева Л.И.

7 СЗРП Термин Синдром задержки развития плода (СЗРП) используется для описания плода, масса которого гораздо меньше ожидаемой для данного гестационного возраста. Плод/ребенок, масса тела которого попадает в нижние 10% распределения нормальной популяции данного гестационного возраста, рассматривается как имеющий СЗРП. Оценка базируется на стандартизованных таблицах соотношения массы тела и гестационного возраста. По данным отечественных авторов СЗРП в акушерской практике встречается с частотой от 5% до 17,6%. Согласно последним отечественным данным частота (распространенность) СЗРП на протяжении последних 10 лет находилась в пределах 3,5 – 4,6%.

8 СЗРП Плод с задержкой внутриутробного развития подвержен повышенному риску внутриутробной гибели или неонатальной смерти, асфиксии до или во время родов. Сразу после рождения ему угрожает аспирация мекония, гипогликемия, гипотермия, РДС и множество других состояний. Частота перинатальной смертности при СЗРП повышена в 7-10 раз, очень велика и перинатальная заболеваемость. Перечисленные отрицательные обстоятельства показывают, как важно выявлять СЗРП еще до родов, оптимизировать условия внутриутробного развития плода, планировать и проводить роды, используя наиболее безопасные средства, и обеспечивать наилучший уход в послеродовом периоде.

9 Содержание цитокина у 16 здоровых матерей и у 20 матерей с СЗРП ЗдоровыеСЗРП Цитокин, у.е. Цитокин, у.е. Цитокин, у.е. Цитокин, у.е

10 Гистограмма (от др.-греч. στός столб + γράμμα черта, буква, написание) столбиковая диаграмма способ графического представления табличных данных.

11 Гистограммы содержания цитокина у матерей здоровых детей и детей с СЗРП ЗдоровыеСЗРП

12 Сопоставление гистограмм содержания цитокина у матерей здоровых детей и детей с СЗРП

13 ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

14 Распределения мерного диагностического признака у субъектов с болезнью и без нее Значения мерного диагностического признака Субъекты с болезнью Субъекты без болезни

15 Значения мерного диагностического признака «негативы»«позитивы» Пороговое отсекающее значение

16 Значения мерного диагностического признака «негативы»«позитивы» Субъекты без болезниСубъекты с болезнью Истинные «позитивы»

17 Значения мерного диагностического признака «негативы»«позитивы» Субъекты без болезниСубъекты с болезнью Ложные «позитивы»

18 Значения мерного диагностического признака «негативы»«позитивы» Субъекты без болезниСубъекты с болезнью Истинные «негативы»

19 Значения мерного диагностического признака «негативы»«позитивы» Субъекты без болезниСубъекты с болезнью Ложные «негативы»

20 Операционная характеристика приёмника Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки сигналов, Эту характеристику впервые ввели во время II мировой войны, после поражения американского военного флота в Пёрл Харборе в 1941 году, когда была осознана проблема повышения точности распознавания самолётов противника по радиолокационному сигналу. Позже нашлись и другие применения: медицинская диагностика, приёмочный контроль качества, кредитный скоринг, предсказание лояльности клиентов, и т. д.

21 ROC-кривая – графическая характеристика качества диагностического теста, зависимость доли истинных позитивов среди субъектов с болезнью: Se = f(T+|D+) = f(T+,D+)/f(D+) от доли ложных позитивов среди субъектов с болезнью: (1 - Sp) = f(T+|D-) = f(T+,D-)/f(D+) при варьировании порога отсечения для распознавания наличия или отсутствия болезни.

22 ROC-кривая для данных о содержании цитокина у матерей здоровых детей и детей с СЗРП. Программа AtteStat

23 Графическая интерпретация порога отсечения на ROC- кривой для данных о содержании цитокина у матерей здоровых детей и детей с СЗРП Порог отсечения Tr есть такое значение мерного диагностического признака, для которого расстояние от диагонали на ROC-кривой является максимальным. В данном случае это точка, для которой Se = 0,95 и Sp = 0,88

24 Нахождение оптимального порога отсечения, Tr 0 = 121 Порог, TrSe + SpПорог, TrSe + SpПорог, TrSe + Sp 1731,051401,431011, ,11341,30941, ,041341,53931, ,091321,58921, ,141301,30861, ,081271,68811, ,131231,68711, ,181231,79701, ,23Tr 0 = 1211,83591, ,281151,76581, ,331041,81421, , , ,00

25 Решающее правило: Значения признака, превышающие порог Tr 0 = 121 или равные ему, принимаются за положительный результат диагностического теста. Значения признака ниже порога Tr 0 = 121 принимаются за отрицательный результат диагностического теста.

26 True Positive Rate 0%0% 100% False Positive Rate 0%0% 100% True Positive Rate 0%0% 100% False Positive Rate 0%0% 100% Хороший тест: Посредственный тест: Сравнение ROC-кривых

27 Наилучший тест: Наихудший тест: True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % Распределения значений мерного признака не пересекаются вовсе Распределения значений мерного признака полностью совпадают Предельные варианты ROC-кривых

28 Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

29 Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

30 Результаты ROC-анализа Оптимальный порог отсечения: Tr = 121 AUC = 0,75 0,89 1,00 Указаны границы 99%-го ДИ для AUC. Чувствительность: Se = 0,95 Специфичность: Sp = 0,88

31 «Площадь под кривой» AUC (Area Under Curve) - площадь под ROC-кривой - полезный обо б щенный показатель качества диагностического теста. Чем больше значение AUC, тем «лучше» способность диагностического теста распознавать наличие и отсутствие болезни, Кроме того, данный показатель удобно использовать для сравнительного анализа нескольких методов диагностики.

32 Идеальный, бесполезный и абсурдный тесты в терминах AUC Если тест идеальный, то AUC = 1. Если AUC = 0,5, то тест бесполезен. Если AUC < 0,5, то тест следует признать абсурдным или даже «вредным».

33 С ловесные интерпретации для градаций AUC Интервал AUC Способность диагностического теста распознавать наличие или отсутствие болезни 1,0 – 0,9Отличная 0,8 – 0,9 Хорошая 0, 7 – 0, 8 Удовлетворительная 0, 6 – 0, 7 Посредственная 0,5 – 0,6Неудовлетворительная < 0,5Абсурдная («вредная»)

34 True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % AUC = 50% AUC = 90% AUC = 65% AUC = 100% True Positive Rate 0%0% 100% False Positive Rate 0%0% 100 % AUC для ROC-кривых

35 Обсуждение результатов 99%-й ДИ для AUC = 0,75 0,89 1,00 не накрывает неинформативное значение AUC = 0,50. Следовательно, оцениваемое значение AUC статистически значимо отличается от бесполезного (неинформативного) значения 0,5 на уровне значимости α = 0,01. Однако с практической точки зрения способность проверяемого диагностического теста распознавать наличие или отсутствие болезни следует признать всего лишь удовлетворительной, поскольку нижняя граница 99%-го ДИ для AUC L = 0,75 не выходит за границы соответствующего интервала (0,7 – 0,8).

36 Результирующая таблица 2×2 Тест: цитокин, у.е. СЗРП Всего естьнет < Всего201636

37 Обсуждение результатов Se = 0,78 0,95 0,99 Sp = 0,66 0,88 0,93 99%-ые ДИ и для Se и для Sp не накрывают неинформативные значения Se = 0,5 и Sp = 0,5. Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений. Поскольку нижняя граница 99%-го ДИ для Se превышает значение 0,7, то чувствительность проверяемого диагностического теста следует признать удовлетворительной. Для Sp нижняя граница 99%-х ДИ не превышает значение 0,7. Поэтому специфичность проверяемого диагностического теста следует признать посредственной.

38 Обсуждение результатов LR[+] = 1,4 7,6 42 LR[-] = 0,005 0,057 0,71 99%-ые ДИ и для LR[+] и для LR[-] не накрывают неинформативные значения LR[+] = 1,0 и LR[-] = 1,0. Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений. Однако нижняя граница 99%-го ДИ для LR[+] не превышает значение 3,0, а верхняя граница 99%-го для LR[-] превышает значение 0,3. Поэтому способность как положительных, так и отрицательных результатов данного диагностического теста распознавать как наличие, так и отсутствие болезни следует признать неудовлетворительными.

39 Предостережение Подобные исследования следует рассматривать как сугубо предварительные (пилотные, разведочные, обучающие). Об этом свидетельствуют в частности чрезвычайно широкие доверительные интервалы (ДИ) для оцениваемых параметров. Поэтому такие исследования надо обязательно повтор и ть с выборками гораздо большего объема и удостовер и ться, воспроизводятся ли результаты.

40 Одно распределение «вложено» в другое: ROC- анализ неприменим Гистограмма

41 Еще пример, когда ROC-анализ неприменим Гистограмма

42 Нормальные вероятностные графики ЗдоровыеСЗРП

43 Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с СЗРП Статистический критерий Наблюдаемые Р-значения, P val ЗдоровыеСЗРП Андерсона-Дарлинга0,250,15 Шапиро-Уилка0,190,21 Коэффициента асимметрии0,0590,46 Коэффициент эксцесса0,230,34 Жарка-Бера0,420,14 Гири0.170,26 Д'Агостино0,0680,45 Эппса-Палли0,170,048 Все Р-значения превышают пороговое значение 0,05. Следовательно у нас нет оснований сомневаться в гипотезе о нормальности распределения, порождающего наблюдаемые данные.

44 Графики (диаграммы) «короб с усами», программа Instat+

45 Резко выделяющиеся значения – «выбросы» Выскакивающие значения можно и нужно выявлять. Но отбрасывать их следует на основе внестатистических соображений. Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0. 45

46 Сжатие (свертка, редукция) статистических данных Статистика – любая функция от случайных величин, порождающих получаемые статистические данные. Простейший пример - выборочное среднее: 46

47 Основная логика статистического оценивания: интервальные оценки Понятно, что если мы многократно повторим эксперимент, то вычисленные средние значения неизбежно будут варьировать. Поэтому задача математиков – вывести математический закон (вероятностное распределение), которому подчиняется варьирование этих выборочных средних. Если такой закон найден, то тогда можно построить доверительные интервалы (ДИ) для оцениваемого среднего с заданной доверительной вероятностью (1 – α).

48 Статистические гипотезы В обычном языке слово «гипотеза» означает предположение. В том же смысле оно употребляется и в научном языке для предположений, вызывающих сомнения. В математической статистике, термин «гипотеза» означает предположение, которое не только вызывает сомнения, но и которое мы собираемся в данный момент проверить. Проверка статистической гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимися данными.

49 Проверяемая гипотеза В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об отсутствии того или иного эффекта: об отсутствии различий, например, о равенстве нулю разности средних; об отсутствии тех или иных эффектов, связей, соответствий, зависимостей и т.п. Поэтому проверяемую гипотезу принято назвать нулевой и обозначать символом H 0.

50 Использование доверительных интервалов (ДИ) для проверки нулевых гипотез Например, для проверки нулевой гипотезы о равенстве двух средних: H 0 : M 1 – M 2 = 0 можно построить ДИ для разности средних. Тогда, если вычисленный 100(1 – α)%-й ДИ не накрывает постулируемое этой гипотезой значение 0, то отклонение оцениваемой разности от 0 можно признать статистически значимым на заранее выбранном уровне значимости α.

51 Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта 51

52 Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с СЗРП, 1-α = 0,99. Программа ESCI JSMS.xls 99%-й ДИ для разности средних не накрывает значение 0. Следовательно оцениваемая разность статистически значимо отличается от 0 на уровне значимости 0,01. Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную.

53 Статистики критериев (тестовые статистики) Тестовая статистика – статистика, используемая для проверки конкретной статистической гипотезы. Пример: статистика t-критерия Стьюдента В этом случае проверка гипотезы H 0 о равенстве двух средних: H 0 : M 1 – M 2 = 0 сводится к проверке гипотезы о том, что t = 0. Когда эта нулевая гипотеза верна, то распределение этой статистики известно – это t-распределение Стьюдента с параметром (числом степеней свободы), равным df. 53

54 Р-значение Для проверки нулевых гипотез с помощью статистических критериев основным приемом является вычисление значения вероятности, которое называется Р- значением.

55 Р-значение P-значение есть условная вероятность, а именно: Вероятность получить наблюдаемое значение t набл. статистики некоего критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H 0 : P val = Pr[|T| |t набл. | | H 0 ]. Тут следует обратить внимание на то, что «еще менее вероятные данные» не являются «данными», мы их не наблюдаем. Мы их додумываем из всех возможных значений в рамках выбранной нами (нулевой) модели. 55

56 Выбор порога для P-значения, и можно ли его обосновать? Когда наблюдаемое P-значение мало, то появляется соблазн отвергнуть H 0. Однако нет никаких статистических соображений, какое значение P следует считать настолько малым, чтобы смело отклонить H 0. Это решение является внестатистическим. На практике решение отклонить или принять H 0 должно зависеть от обстоятельств. Исследователь в каждой конкретной ситуации должен сам с делать этот выбор. 56

57 Андрей Николаевич Колмогоров (урождённый Катаев, 12(25) ) Пророк в своем отечестве 57

58 Колмогоров А. Н. Вероятность. ВиМСЭ (1951). С. 97: При практическом употреблении вычисленных значений вероятности мы неизбежно приходим к вопросу о том, сколь малыми значениями вероятностей мы можем пренебречь. В математической статистике вероятность, которой решено пренебрегать в данном исследовании, называют уровнем значимости. На практике этот вопрос решается каждый раз по-разному, в зависимости от того, насколько велика необходимость быстрого перехода от накопления надежных данных к их действительному употреблению. 58

59 Колмогоров, 1951, 1956 «Норма в 0,05 для серьезных научных исследований явно недостаточна» (1956). «Хотя в статистике обычно рекомендуют пользоваться уровнями значимости от 0,05 при предварительных ориентировочных исследованиях и до 0,001 при окончательных серьезных выводах, часто достижима значительно большая достоверность [статистическая значимость – НХ] вероятностных выводов. Например, основные выводы статистической физики основаны на пренебрежении лишь вероятности порядка меньшего 0, (

60 В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей различных генов, исследователи ориентируются на Р-значения порядка При таком уровне значимости приходится обследовать сотни тысяч людей. Но даже при столь суровой требовательности результаты далеко не всегда воспроизводятся в повторных проверочных исследованиях.

61 «Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – whats wrong with significance tests? BMJ, – Vol – P В наши дни Колмогорову вторят зарубежные авторы: P-значение близкое к 0,05 не является сильным свидетельством против нулевой гипотезы. Сильными свидетельствами против Н 0 следует признавать значения P < 0,001. В публикациях надо представлять точные P-значения без соотнесения их с какими-либо пороговыми (критическими) значениями (типа 0,05). Наравне с P-значениями нужно указывать доверительные интервалы. 61

62 Традиционная интерпретация P-значений (шкала Michelin) P-значениеСтатистическая значимость Шкала Мишлена > 0,05Незначимо 0,05 – 0,01Умеренно значимо* 0,01 – 0,001Значимо** < 0,001Высоко значимо*** 62

63 Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, – 264 с. Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор. В настоящее время многие биометрики склоняются к следующему правилу: а) если P > 0,05, то принимается нулевая гипотеза; б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая; в) если 0,01 < P < 0,05, то результат считается неопределенным. 63

64 [0,05; 0,01] – «серая зона» P-значениеСтатистическая значимость Шкала Мишлена > 0,05Незначимо От 0,05 до 0,01Неопределенно* От 0,01 до 0,001Значимо** < 0,001Высоко значимо*** 64

65 Sir Ronald Aylmer Fisher –

66 Пожелание: « г ибкие» P-значения « В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений ». R. A. Fisher R. A. Statistical Methods and Scientific Inference,

67 Результаты статистического сравнение групп матерей здоровых детей и детей с СЗРП, 1-α = 0,99. Программа ESCI JSMS.xls

68 Основная логика использования Р-значений состоит в том, что если оно малó, то считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза. Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза. Это считается достаточным аргументом для того, чтобы отклонить Н 0 и принять альтернативную гипотезу Н 0. В данном случае P val = Вывод: различие в содержании цитокина у матерей здоровых детей и детей с СЗРП статистически высоко значимо; во второй группе оно выше, чем в первой.

69 Акт интеллектуальной смелости Когда P-значение очень мало, мы берем на себя смелость отклонить нулевую гипотезу (и принять альтернативную). Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости. И этот акт является внестатистическим. 69

70 Распространенный соблазн Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так: чем меньше P-значение, тем весомее доводы против нулевой гипотезы H 0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H 0. Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы. 70

71 Распространенное заблуждение P-значение не есть вероятность нулевой гипотезы ! Поскольку P-значение вычисляется при условии, что справедлива нулевая гипотеза H 0 : P val = Pr{|D| |d набл. ||H 0 }, то оно никак не может быть вероятностью нулевой гипотезы: P{D|H 0 } P{H 0 |D} 71

72 P-значение не есть вероятность нулевой гипотезы! К сожалению, даже в известной книге С.Гланца можно встретить утверждение: «Упрощая, можно сказать, что Р это вероятность справедливости нулевой гипотезы» Гланц С. Медико-биологическая статистика. М.: Практика, с Это мнение глубоко ошибочно и чревато пагубными последствиями. К чести автора, в последующих (у нас не переведенных) изданиях этой его книги оно отсутствует. 72

73 Калибровка P-значения Sellke T., Bayarri M.J., Berger J.O. Calibration of p Values for Testing Precise Null Hypotheses The American Statistician, Vol. 55, No. 1. (2001), pp При 73

74 Калибровка P-значений Held L. A nomogram for P values. BMC Medical Research Methodology 2010, 10:21 doi: /

75

76

77

78 «Цена» Р-значения P-значение Нижняя граница для вероятности нулевой гипотезы P(H 0 ) Верхняя граница для вероятности воспроизведения Р repr 0,05> 30% < 50% 0,01> 10%< 73% 0,001> 2%< 90% Для наглядности значения в таблице округлены до первой значащей цифры. Более точно значения для P(H 0 ) (сверху вниз) равны 29%, 11% и 1,8%. Chow SC, Shao J, and Wang, H. Sample Size Calculations in Clinical Research. Second edition, Chapman Hall/CRC Press, Taylor & Francis, New York, New York. P. 6, Table

79 Бейзовская интерпретация Р-значения Обычно принято интерпретировать P-значения как меру доказательства, предоставляемого имеющимися данными, против нулевой гипотезы. Однако с точки зрения бейзовской статистик и Р-значение есть всего лишь вероятность того, что при повторении эксперимента будет получена разность средних с противоположным знаком. При такой интерпретации понятно, что Р-значение ничего не говорит ни о вероятности нулевой гипотезы P{H 0 |D}, ни о размере эффекта, в данном случае о разности средних.

80 Привычка свыше нам дана Это прекрасно понимал Р.А. Фишер: «Критерий значимости не позволяет нам делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности» (Fisher R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935). Тем не менее многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение, игнорируя практическую (клиническую) важность полученных ими результатов, игнорируя размер эффекта. 80

81 Статистическая значимость и размер эффекта Эффект (различие, связь, риск, польза, ассоциация и т. п.) может быть статистически значимым, но его практическая (например, клиническая) ценность может оказаться ничтожной. «Статистически значимый» не означает «значительный», «практически важный», «ценный». Эффекты могут быть реальными, неслучайными, но практически пренебрежимо малыми. 81

82 Размер эффекта Вопрос о клинической (практической) ценности (важности) наблюдаемого Размера Эффекта является ключевым при интерпретации результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п. Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным. 82

83 Стандартизированный размер эффекта по Ко у эну (Cohen) d C 83

84 Интерпретация стандартизированного размера эффекта d C Размер эффекта, d C Градация эффекта 0 – 0,2Ничтожный 0,2 – 0,6Малый (слабый) 0,6 – 1,2Умеренный 1,2 – 2,0Большой (сильный) 2,0 – 4,0Очень большой 4,0 - Абсолютный 84

85 Результаты статистического сравнения групп матерей здоровых детей и детей с СЗРП, (1 - α) = 0,99. Программа ESCI JSMS.xls В данном примере абсолютный размер эффекта ES есть попросту разность средних: ES = 26,6 52,1 77,6 у.е. Стандартизированный размер эффекта по Коуэну: d C = 1,87 Его можно интерпретировать как сильный (большой).

86 Бейзов фактор, BF Бейзов фактор – это показатель того, насколько хорошо две гипотезы могут предсказать данные. Гипотеза, которая предсказывает наблюдаемые данные лучше – это та из них, которая имеет больше свидетельств в свою пользу. Бейзов фактор BF принципиально отличается от Р-значения. Бейзов фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьировать от нуля до бесконечности. Он требует две гипотезы, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы. BF 01 = P{D|H 0 } / P{D|H 1 } BF 10 = P{D|H 1 } / P{D|H 0 }

87 Интерпретация убедительности Бейзовых факторов, BF 10 и BF 01 BF 10 Свидетельство в пользу гипотезы Н 1 против гипотезы Н 0 >100Убедительное 30 – 100Очень сильное 10 – 30Сильное 3 – 10Умеренное 1 – 3Пренебрежимо малое BF 01 Свидетельство в пользу гипотезы Н 0 против гипотезы Н 1

88 Бейзов фактор, программа Bayes Factor Calculators 88

89 Вывод результатов (output) В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемые различия (ES = 52,1 у.е.) между сравниваемыми группами при условии, что верна гипотеза H 1 : ES 0, нежели при условии, что верна гипотеза H 0 : ES = 0. Такое значение BF 01 принято интерпретировать как чрезвычайно убедительное свидетельство против нулевой гипотезы H 0 : ES = 0 в пользу альтернативной гипотезы H 1 : ES 0. 89

90 Статистические предсказания и воспроизводимость 90

91 Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с СЗРП. Программа LePrep 91

92 Воспроизводимость и предсказания стандартизированного размера эффекта по Ко у эну (Cohen) d C 92

93 Воспроизводимость и предсказания размеров эффекта ES и d C для групп матерей здоровых детей и детей с СЗРП ПоказательESdCdC Предсказательные интервалы (ПИ) для размеров эффекта[16,1; 88,1][0,50; 3,63] Предсказательные интервалы (ПИ) для P val [ ; 0,071] P srep - вероятность во с произведения эффекта с тем же зн а ком и значимого на уровне α = 0,010,96 При независимом повторении эксперимента эффект может не воспроизвестись и оказаться статистически незначимым (нижняя граница ПИ для P val < 0,05) и размер эффекта по Коуэну может оказаться малым, достигая нижней границы ПИ для него: 0,5.

94 Ошибки I и II рода и мощность статистического критерия 94

95 Диагностика Отрица- тельный Положи- тельный Нет болезни (D = 0) Специфичность X Ложный (+) Есть болезнь (D = 1) X Ложный (-) Чувствительность Болезнь Тест 95

96 Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия H 0 не отклонена H 0 отклонена Верна H o, нет различия (D = 0) Верное решение X Ошибка I рода с вероятностью Верна H 1, есть различие (D 0) X Ошибка II рода с вероятностью Мощность 1 - ; Верное решение Действи- тельность Критерий 96

97 Компромисс Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности - к увеличению риска ошибки второго рода (пропуск запрещённого предмета). 97

98 Мощность статистического критерия Мощность статистического критерия есть вероятность того, что критерий правильно отклонит ложную нулевую гипотезу (правильно примет верную альтернативную гипотезу). Традиционно ее обозначают (1 – β), где β - вероятность ошибки II рода. Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода. 98

99 Мощность статистического критерия Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты). Ее можно интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы. 99

100 Доверяя, повторяй Часто считается, что если получен «статистически значимый» результат, то это исключает необходимость повторить исследование. Повторность (воспроизведение) часто рассматривается как нечто суетное и мирское. «Проверка нулевой гипотезы есть метод обнаружения маловероятных событий, которые заслуживают дальнейшего изучения» (Fisher). 100

101 Воспроизводимость P-значений и ДИ Cumming, G. (2008). Replication and p intervals: p values predict the future only vaguely, but confidence intervals do much better. Perspectives on Psychological Science, 3, Программа ESCI PPS p intervals 101

102 Анализ мощности a priori или post-hoc Анализ мощности можно проводить либо a priori, т.е. до получения данных, либо post hoc, т.е. после получения данных. A priori анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности. Post hoc анализ мощности используется для оценки достигнутой мощности. В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров. 102

103 Оценка достигнутой мощности (post hoc). Программа G*Power Достигнутая мощность проведенного исследования составила (1 – β) = 0,

104 Элементы планирования эксперимента 104

105 Программа G*Power Оценка a priori минимально необходимого объема выборки N для достижения статистически значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β). 105

106 Оценка необходимых объемов выборок (a priori) 106 Для достижения приемлемой статистической мощности (1 – β) = 0,95 достаточно было иметь группы по 12 человек.

107 Значение вероятностной P-величины P-значение есть наблюдаемое значение (реализация) соответствующей случайной величины Всякий раз мы наблюдаем одно из ее возможных значений. Когда H 0 верна, то P val имеет непрерывное равномерное распределение на отрезке [0; 1]. 107

108 Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования нельзя делать определенные выводы. Любое научное исследование должно повторяться многократно, и должна исследоваться воспроизвод и мость результатов. 108

109 Научный метод Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д. Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от растений до человека. Смешно было бы, если Мйкельсон и Морли провели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно). 109

110 Культ одиночного изолированного исследования Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю статистическую литературу и является серьезной болезнью статистического образования. Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации. Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным. Наука не дается малой кровью. 110

111 Повторение – мать познания Повторение составляет суть науки: ученый должен всегда задумываться о том, что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977). Ученые разработали метод определения надежности (валидности) своих результатов. Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983). 111

112 Джон Уайлдер Тьюки (John Wilder Tukey, ) Исследования должны быть как минимум двухэтапными. Первый этап – разведочное (пилотное, порождающее гипотезы) исследование. Второй этап – проверочное (подтверждающее или опровергающее) исследование. Оно планируется на основе результатов разведочного исследования. 112

113 Спасибо за внимание! Слайды доступны для всех Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики СПбГМУ им. акад. И.П. Павлова (812) – дом. (812) – раб – моб. 113