Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна
Задача про рак груди 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди. 80% женщин с раком груди имеют положительный результат маммографии. 9.6% здоровых женщин также получают положительный результат (маммография, как любые измерения, не дает 100% результатов). Женщина-пациент из этой возрастной группы получила положительный результат на регулярном обследовании. Какова вероятность того, что она фактически больна раком груди? Только 15%(!) врачей отвечают правильно
Решение задачи про рак груди Возьмем женщин. До маммографии женщин можно разделить на 2 группы: Группа 1: 100 женщин больных раком груди. Группа 2: 9,900 женщин не больных раком груди. После маммографии женщин можно разделить на 4 группы: Группа A: 80 женщин больных раком груди, и с положительной маммограммой. Группа B: 20 женщин больных раком груди, и с отрицательной маммограммой. Группа C: 950 женщин не больных раком груди, и с положительной маммограммой. Группа D: 8,950 женщин не больных раком груди, и с отрицательной маммограммой. Группа A: 80 женщин больных раком груди, и с положительной маммограммой. Группа C: 950 женщин не больных раком груди, и с положительной маммограммой. Вероятность того, что женщина с положительной маммограммой фактически больна раком груди: Доля (A) в (A + C) 80 / ( ) = 80 / 1030 = 7.8%.
Термины теоремы Байеса Исходная доля пациенток с раком груди называется в статистике априорной вероятностью. Шанс, что пациентка с раком груди получить положительную маммограмму, и шанс, что пациентка без рака получит положительную маммограмму, называются условными вероятностями. Результат - ожидаемая вероятность, что пациентка больна раком груди, если ее маммограмма положительна, - называется апостериорной вероятностью. Априорная информация
Обозначения теоремы Байеса p(положительный):0.103 p(~положительный):0.897 p(рак):0.01 p(~рак):0.99 p(положительный|рак):80.0% p(~положительный|рак):20.0% p(положительный|~рак):9.6% p(~положительный|~рак):90.4% p(рак&положительный):0.008 p(рак&~положительный):0.002 p(~рак&положительный):0.095 p(~рак&~положительный):0.895 p(рак|положительный):7.80% p(~рак|положительный):92.20% p(рак|~положительный):0.22% p(~рак|~положительный):99.78%
Теорема Байеса где априорная вероятность гипотезы A; вероятность гипотезы A при наступлении события B (апостериорная вероятность); вероятность наступления события B при истинности гипотезы A; полная вероятность наступления события B.,
Доказательство теоремы Байеса Вероятность совместного события AB двояко выражается через условные вероятности: Следовательно
Задача для тренировки ума Предположим, что в бочке находится множество маленьких пластиковых капсул. Некоторые капсулы окрашены в красный цвет, некоторые - в синий. У 40% от всех капсул внутри жемчужина, 60% пусты. В синий цвет окрашены 30% капсул, содержащих жемчужины, и 10% пустых капсул. Какова вероятность, что синяя капсула содержит жемчужину?
И еще одна задачка У Вас есть большой контейнер, содержащий кучу пластиковых капсул. Некоторые из них содержат жемчужины, остальные пусты. Некоторые капсулы окрашены в синий цвет, остальные в красный. Предположим, что 40% капсул синие, 5/13 от капсул, содержащих жемчужины, синие, и 20% капсул одновременно пустые и красные. Какова вероятность, что синяя капсула содержит жемчужину?
Наивный байесовский классификатор Множество объектов D = {d 1, d 2,..., d m }, Признаки объектов F = {f 1, f 2,..., f q }, Множество меток C = {c 1, c 2,..., c r }. Признаки не зависят друг от друга
Размытие по Лапласу где z >= 0 коэффициент размытия, q это количество параметров.
Наивный байесовский классификатор для непрерывных параметров, где m – количество элементов выборки D d i, ρ – мера на D, h – окрестность d i (ширина окна), K – функция ядра, V (h) – нормирующий множитель.
Наивный байесовский классификатор для непрерывных параметров В качестве функции ядра используется ядро Епанечникова:, Для определения меры используется Евклидова метрика:
Преимущества и недостатки Простота реализации и низкие вычислительные затраты при обучении и классификации; В тех редких случаях, когда признаки (почти) независимы, наивный байесовский классификатор (почти) оптимален; Относительная простота интерпретации. Преимущества Недостатки Низкое качество классификации. Он используется как эталон при экспериментальном сравнении алгоритмов; Неспособность учитывать зависимость результата от сочетания признаков. Ограничения Пригоден для выборок с независимыми параметрами.
Применение метода Оценка надежности банка, Классификация структурированной информации, Фильтрация спама, Классификация налогоплательщиков и заемщиков по группам риска, Оценка реализации продукции, Обнаружение корпоративного мошенничества.
Построение модели в R Построение модели в R хорошо описано в следующем источнике: