ДРЕВОВИДНЫЕ МОДЕЛИ Деревья решений, случайный лес
Дерево решений Деревья решений - это метод, позволяющий предсказывать значения зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных (независимых) переменных. Применяется в задачах классификации и (реже) регрессии.
Графическая иллюстрация нелинейного разделения классов На рисунки приведен пример классификации объектов по двум непрерывным признакам. Объекты, относящиеся к разным классам, отмечены знаками "+" и "–".
Использование деревьев решений в задачах регрессии
Этапы построения дерева решений 1. Выбор критерия точности прогноза 2. Выбор типа ветвления 3. Определение момента прекращения ветвлений 4. Определение "подходящих" размеров дерева Выбор критерия точности прогноза Accuracy, precision, recall – в задачах классификации МSE,MAE– в задачах регрессии
Выбор типа ветвления (criterion) Есть различные способы выбирать очередной признак для текущего ветвления: Алгоритм ID3, где выбор атрибута происходит на основании прироста информации ( Gain ).Gain Алгоритм C4.5 (улучшенная версия ID3), где выбор атрибута происходит на основании нормализованного прироста информации ( Gain Ratio).Gain Ratio Алгоритм CART где выбор атрибута происходит на основании индекса Джини.
Энтропия Энтропия Шеннона для системы с s возможными состояниями:
Прирост информации (ID3)
Прогноз игры в футбол Первый вариант дерева Второй вариант дерева
Вычисление энтропии и прироста информации
Нормализованный прирост информации (C4.5)
Индекс Gini (CART)
Правила разбиения (CART)
Правила остановки Минимальное число объектов, при котором выполняется расщепление (min_samples_split). В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений). Минимальное число объектов в листьях (min_samples_leaf) Доля неклассифицированных. В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданную долю неправильно классифицированных объектов (наблюдений). Максимальная глубина деревьев (max_depth)
Механизм отсечения дерева (CART)
Иллюстрация переобучения
Случайный лес (Random forest) Случайный лес алгоритм машинного обучения, заключающийся в использовании комитета (ансамбля) деревьев решений.
Обучение случайного леса
Достоинства и недостатки Достоинства: Способность эффективно обрабатывать данные с большим числом признаков и классов. Нечувствительность к масштабированию значений признаков. Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Существуют методы построения деревьев по данным с пропущенными значениями признаков. Существуют методы оценивания значимости отдельных признаков в модели. Высокая параллелизуемость и масштабируемость. Недостатки: Большой размер получающихся моделей.