Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 5 лет назад пользователемСергей Кожевников
1 ДРЕВОВИДНЫЕ МОДЕЛИ Деревья решений, случайный лес
2 Дерево решений Деревья решений - это метод, позволяющий предсказывать значения зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных (независимых) переменных. Применяется в задачах классификации и (реже) регрессии.
3 Графическая иллюстрация нелинейного разделения классов На рисунки приведен пример классификации объектов по двум непрерывным признакам. Объекты, относящиеся к разным классам, отмечены знаками "+" и "–".
4 Использование деревьев решений в задачах регрессии
5 Этапы построения дерева решений 1. Выбор критерия точности прогноза 2. Выбор типа ветвления 3. Определение момента прекращения ветвлений 4. Определение "подходящих" размеров дерева Выбор критерия точности прогноза Accuracy, precision, recall – в задачах классификации МSE,MAE– в задачах регрессии
6 Выбор типа ветвления (criterion) Есть различные способы выбирать очередной признак для текущего ветвления: Алгоритм ID3, где выбор атрибута происходит на основании прироста информации ( Gain ).Gain Алгоритм C4.5 (улучшенная версия ID3), где выбор атрибута происходит на основании нормализованного прироста информации ( Gain Ratio).Gain Ratio Алгоритм CART где выбор атрибута происходит на основании индекса Джини.
7 Энтропия Энтропия Шеннона для системы с s возможными состояниями:
8 Прирост информации (ID3)
9 Прогноз игры в футбол Первый вариант дерева Второй вариант дерева
10 Вычисление энтропии и прироста информации
11 Нормализованный прирост информации (C4.5)
12 Индекс Gini (CART)
13 Правила разбиения (CART)
14 Правила остановки Минимальное число объектов, при котором выполняется расщепление (min_samples_split). В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений). Минимальное число объектов в листьях (min_samples_leaf) Доля неклассифицированных. В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданную долю неправильно классифицированных объектов (наблюдений). Максимальная глубина деревьев (max_depth)
15 Механизм отсечения дерева (CART)
16 Иллюстрация переобучения
17 Случайный лес (Random forest) Случайный лес алгоритм машинного обучения, заключающийся в использовании комитета (ансамбля) деревьев решений.
18 Обучение случайного леса
19 Достоинства и недостатки Достоинства: Способность эффективно обрабатывать данные с большим числом признаков и классов. Нечувствительность к масштабированию значений признаков. Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Существуют методы построения деревьев по данным с пропущенными значениями признаков. Существуют методы оценивания значимости отдельных признаков в модели. Высокая параллелизуемость и масштабируемость. Недостатки: Большой размер получающихся моделей.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.