Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемmodis.ispras.ru
1 Методы выбора оптимального набора информативных признаков для задач классификации текстов Борисова Татьяна 3 курс ВМК МГУ
2 Для чего нужен выбор признаков? Количество признаков может достигать – Это слишком много для многих алгоритмов обучения (нейронные сети, наивная байесовская модель и т.д.) – «проклятье размерности»
3 Достоинства выбора признаков Лучше работают алгоритмы обучения Проще понять природу данных Меньше размер хранилищ
4 Методы выбора признаков Filters (методы-фильтры) Wrappers (методы-обертки) Embedded (встроенные методы)
5 Filters (методы-фильтры) Этап препроцессинга Не зависит от результата работы классификатора Достоинства: – Вычислительно быстрые – Простая реализация – Хорошо масштабируются
6 Независимое ранжирование признаков Information gain (прирост информации) Mutual information (взаимная информация) Критерий хи-квадрат Term strength («мощность признака») mRMR (minimum redundancy-maximum relevance, минимальная избыточность- максимальная релевантность)
7 Обозначения
8 Принцип работы Вычисляем ранг каждого признака Выкидываем признаки, для которых ранг меньше заданного значения порога Значение порога можно подобрать на кросс-валидации (или путем выделения из тестовой выборки специального подмножества и тестирования на нем различных значений порога)
9 Information gain (прирост информации)
10 Mutual information (взаимная информация)
11 AB CD
14 Критерий хи-квадрат AB CD
15 Term strength («мощность признака»)
16 mRMR (minimum redundancy- maximum relevance) Не использует информацию о категориях Может использовать взаимную информацию, критерий корреляции и т.д. Показано, что этот метод приближает теоретически оптимальный maximum-dependency метод
17 mRMR (minimum redundancy- maximum relevance)
18 Методы выбора признаков Filters (методы-фильтры) Wrappers (методы-обертки) Embedded (встроенные методы)
19 Wrappers (методы-обертки) Алгоритм обучения используется как «черный ящик» Оценивается информативность конкретного подмножества признаков для алгоритма обучения
20 Принцип работы Выполняется поиск по пространству подмножеств исходного множества признаков Для каждого шага поиска используется информация о качестве обучения на текущем подмножестве признаков
21 Принцип работы
22 Экспоненциальные алгоритмы поиска
23 Последовательные алгоритмы поиска
24 Прямой жадный алгоритм (forward selection) Обратный жадный алгоритм (backward elimination) Алгоритм восхождения на вершину (hill climbing)
25 Рандомизированные алгоритмы поиска Использование рандомизации для выхода из локальных минимумов Anytime-алгоритмы
26 Рандомизированные алгоритмы поиска Симуляция отжига Генетические алгоритмы
27 Прямой и обратный жадный алгоритмы Пример – прямой жадный алгоритм – обратный жадный алгоритм
28 Прямой и обратный жадный алгоритмы прямой жадный алгоритм обратный жадный алгоритм
29 Методы выбора признаков Filters (методы-фильтры) Wrappers (методы-обертки) Embedded (встроенные методы)
30 Выбор признаков является одним из этапов алгоритма обучения Достоинства: Наилучшим образом приспособлены для конкретной модели Не нужно проводить кросс-валидацию или разбивать тренировочную выборку
31 Embedded (встроенные методы) Линейная регрессия – LASSO SVM – SVM-RFE (Recursive Feature Elimination) Полиномиальная логистическая регрессия – RMNL (Random Multinomal logit): основан на случайном лесе
32 Методы построения признаков PCA (Principal Component Analysis, метод главных компонент) Кластеризация Автокодировщик Регуляризованный случайный лес (RRF) Применяют также спектральные и волновые преобразования
33 Пример работы
35 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.