Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна.

Презентация:



Advertisements
Похожие презентации
Ст. преп., к.ф.м.н. Богданов Олег Викторович 2010 Элементы теории вероятности.
Advertisements

СТАТИСТИЧЕСКИЕ ИГРЫ Выполнили: Петрук К. Черняк А. Чикиш Ю.
Вероятности случайных событий. Теория вероятностей математическая наука, изучающая закономерности случайных явлений.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Behind LDA Часть 1 Кольцов С.Н.. Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Национальный исследовательский университет « МЭИ » Кафедра прикладной математики Выпускная работа студента гр. А Бочарова Ивана на тему : « Исследование.
1 Теоремы сложения и умножения вероятностей. 2 Терминология Ω – множество всех возможных исходов опыта. ω – элементарное событие (неразложимый исход опыта).
Теория Рамсея Научно - исследовательская работа Приходько Елены.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 6. Сумма и произведение вероятностей 6-1 Задача про шары 6-2 Сложение вероятностей.
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Часть 2 Двойственные задачи Правила построения двойственных задач.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Н ЕЗАВИСИМЫЕ И ЗАВИСИМЫЕ СОБЫТИЯ. У СЛОВНАЯ ВЕРОЯТНОСТЬ. Выполнила: Тихонова Екатерина группа 2125.
Элементы теории вероятности и математической статистики Теория вероятностей возникла как наука из убеждения, что в основе массовых случайных событий лежат.
Критерии принятия решений Максимум правдоподобия Максимум апостериорной вероятности Идеального наблюдателя Минимум средней ошибки Минимум байесовского.
Транксрипт:

Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна

Задача про рак груди 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди. 80% женщин с раком груди имеют положительный результат маммографии. 9.6% здоровых женщин также получают положительный результат (маммография, как любые измерения, не дает 100% результатов). Женщина-пациент из этой возрастной группы получила положительный результат на регулярном обследовании. Какова вероятность того, что она фактически больна раком груди? Только 15%(!) врачей отвечают правильно

Решение задачи про рак груди Возьмем женщин. До маммографии женщин можно разделить на 2 группы: Группа 1: 100 женщин больных раком груди. Группа 2: 9,900 женщин не больных раком груди. После маммографии женщин можно разделить на 4 группы: Группа A: 80 женщин больных раком груди, и с положительной маммограммой. Группа B: 20 женщин больных раком груди, и с отрицательной маммограммой. Группа C: 950 женщин не больных раком груди, и с положительной маммограммой. Группа D: 8,950 женщин не больных раком груди, и с отрицательной маммограммой. Группа A: 80 женщин больных раком груди, и с положительной маммограммой. Группа C: 950 женщин не больных раком груди, и с положительной маммограммой. Вероятность того, что женщина с положительной маммограммой фактически больна раком груди: Доля (A) в (A + C) 80 / ( ) = 80 / 1030 = 7.8%.

Термины теоремы Байеса Исходная доля пациенток с раком груди называется в статистике априорной вероятностью. Шанс, что пациентка с раком груди получить положительную маммограмму, и шанс, что пациентка без рака получит положительную маммограмму, называются условными вероятностями. Результат - ожидаемая вероятность, что пациентка больна раком груди, если ее маммограмма положительна, - называется апостериорной вероятностью. Априорная информация

Обозначения теоремы Байеса p(положительный):0.103 p(~положительный):0.897 p(рак):0.01 p(~рак):0.99 p(положительный|рак):80.0% p(~положительный|рак):20.0% p(положительный|~рак):9.6% p(~положительный|~рак):90.4% p(рак&положительный):0.008 p(рак&~положительный):0.002 p(~рак&положительный):0.095 p(~рак&~положительный):0.895 p(рак|положительный):7.80% p(~рак|положительный):92.20% p(рак|~положительный):0.22% p(~рак|~положительный):99.78%

Теорема Байеса где априорная вероятность гипотезы A; вероятность гипотезы A при наступлении события B (апостериорная вероятность); вероятность наступления события B при истинности гипотезы A; полная вероятность наступления события B.,

Доказательство теоремы Байеса Вероятность совместного события AB двояко выражается через условные вероятности: Следовательно

Задача для тренировки ума Предположим, что в бочке находится множество маленьких пластиковых капсул. Некоторые капсулы окрашены в красный цвет, некоторые - в синий. У 40% от всех капсул внутри жемчужина, 60% пусты. В синий цвет окрашены 30% капсул, содержащих жемчужины, и 10% пустых капсул. Какова вероятность, что синяя капсула содержит жемчужину?

И еще одна задачка У Вас есть большой контейнер, содержащий кучу пластиковых капсул. Некоторые из них содержат жемчужины, остальные пусты. Некоторые капсулы окрашены в синий цвет, остальные в красный. Предположим, что 40% капсул синие, 5/13 от капсул, содержащих жемчужины, синие, и 20% капсул одновременно пустые и красные. Какова вероятность, что синяя капсула содержит жемчужину?

Наивный байесовский классификатор Множество объектов D = {d 1, d 2,..., d m }, Признаки объектов F = {f 1, f 2,..., f q }, Множество меток C = {c 1, c 2,..., c r }. Признаки не зависят друг от друга

Размытие по Лапласу где z >= 0 коэффициент размытия, q это количество параметров.

Наивный байесовский классификатор для непрерывных параметров, где m – количество элементов выборки D d i, ρ – мера на D, h – окрестность d i (ширина окна), K – функция ядра, V (h) – нормирующий множитель.

Наивный байесовский классификатор для непрерывных параметров В качестве функции ядра используется ядро Епанечникова:, Для определения меры используется Евклидова метрика:

Преимущества и недостатки Простота реализации и низкие вычислительные затраты при обучении и классификации; В тех редких случаях, когда признаки (почти) независимы, наивный байесовский классификатор (почти) оптимален; Относительная простота интерпретации. Преимущества Недостатки Низкое качество классификации. Он используется как эталон при экспериментальном сравнении алгоритмов; Неспособность учитывать зависимость результата от сочетания признаков. Ограничения Пригоден для выборок с независимыми параметрами.

Применение метода Оценка надежности банка, Классификация структурированной информации, Фильтрация спама, Классификация налогоплательщиков и заемщиков по группам риска, Оценка реализации продукции, Обнаружение корпоративного мошенничества.

Построение модели в R Построение модели в R хорошо описано в следующем источнике: