ДРЕВОВИДНЫЕ МОДЕЛИ Деревья решений, случайный лес.

Презентация:



Advertisements
Похожие презентации
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Advertisements

НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
1 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает.
ИССЛЕДОВАНИЕ ДЕРЕВА РЕШЕНИЙ В РЕАЛИЗАЦИИ МЕТОДА ВЕТВЕЙ И ГРАНИЦ ДЛЯ РЕШЕНИЯ ЗАДАЧИ КОММИВОЯЖЕРА Ермошин А.С., Плиско В.А. (МГУПИ)
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Оптимальное планирование эксперимента. Цель планирования эксперимента нахождение таких условий и правил проведения опытов при которых удается получить.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Классификация и регрессия (продолжение) Храброва М.О.
Методы выбора оптимального набора информативных признаков для задач классификации текстов Борисова Татьяна 3 курс ВМК МГУ.
ДИНАМИЧЕСКИЕ ЭКОНОМЕТРИЧЕСКИЕ МОДЕЛИ. Опр. Эконометрическая модель является динамической, если в данный момент времени она учитывает значения входящих.
Принятие решений в условиях риска Методы принятия решений в условиях риска разрабатываются и обосновываются в рамках так называемой теории статистических.
Применение метода «Бритва Оккама» в задачах машинного обучения Выполнила Дьякова Ярослава.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Анализ данных Лекция 5 Методы построения математических функций.
Контроль знаний Экспресс - контроль. Постановка задачи структурного синтеза.
ВЫБОР СИСТЕМЫ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ КЛАССИФИКАЦИИ ТРАНСПОРТНЫХ СРЕДСТВ НА ОСНОВЕ ЭВОЛЮЦИОННОГО ПОИСКА.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
Разработка алгоритмов на базе FRiS-функции Лекция 6.
РАДИОМЕТРИЧЕСКИЕ СВОЙСТВА СНИМКОВ И ИХ КОМПЬЮТЕРНАЯ ОБРАБОТКА.
Транксрипт:

ДРЕВОВИДНЫЕ МОДЕЛИ Деревья решений, случайный лес

Дерево решений Деревья решений - это метод, позволяющий предсказывать значения зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных (независимых) переменных. Применяется в задачах классификации и (реже) регрессии.

Графическая иллюстрация нелинейного разделения классов На рисунки приведен пример классификации объектов по двум непрерывным признакам. Объекты, относящиеся к разным классам, отмечены знаками "+" и "–".

Использование деревьев решений в задачах регрессии

Этапы построения дерева решений 1. Выбор критерия точности прогноза 2. Выбор типа ветвления 3. Определение момента прекращения ветвлений 4. Определение "подходящих" размеров дерева Выбор критерия точности прогноза Accuracy, precision, recall – в задачах классификации МSE,MAE– в задачах регрессии

Выбор типа ветвления (criterion) Есть различные способы выбирать очередной признак для текущего ветвления: Алгоритм ID3, где выбор атрибута происходит на основании прироста информации ( Gain ).Gain Алгоритм C4.5 (улучшенная версия ID3), где выбор атрибута происходит на основании нормализованного прироста информации ( Gain Ratio).Gain Ratio Алгоритм CART где выбор атрибута происходит на основании индекса Джини.

Энтропия Энтропия Шеннона для системы с s возможными состояниями:

Прирост информации (ID3)

Прогноз игры в футбол Первый вариант дерева Второй вариант дерева

Вычисление энтропии и прироста информации

Нормализованный прирост информации (C4.5)

Индекс Gini (CART)

Правила разбиения (CART)

Правила остановки Минимальное число объектов, при котором выполняется расщепление (min_samples_split). В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений). Минимальное число объектов в листьях (min_samples_leaf) Доля неклассифицированных. В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданную долю неправильно классифицированных объектов (наблюдений). Максимальная глубина деревьев (max_depth)

Механизм отсечения дерева (CART)

Иллюстрация переобучения

Случайный лес (Random forest) Случайный лес алгоритм машинного обучения, заключающийся в использовании комитета (ансамбля) деревьев решений.

Обучение случайного леса

Достоинства и недостатки Достоинства: Способность эффективно обрабатывать данные с большим числом признаков и классов. Нечувствительность к масштабированию значений признаков. Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Существуют методы построения деревьев по данным с пропущенными значениями признаков. Существуют методы оценивания значимости отдельных признаков в модели. Высокая параллелизуемость и масштабируемость. Недостатки: Большой размер получающихся моделей.