Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемКонстантин Малахов
2 МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ (K-NEAREST NEIGHBOR) Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков. Это один из простейших алгоритмов обучения классификационных моделей. Число k – это количество соседних объектов в пространстве признаков, которое сравнивается с классифицируемым объектом.
3 МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ
4 АЛГОРИТМ Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции: Вычислить расстояние до каждого из объектов обучающей выборки, Отобрать k объектов обучающей выборки, расстояние до которых минимально, Класс классифицируемого объекта это класс, наиболее часто встречающийся среди k ближайших соседей.
5 ЭВКЛИДОВО РАССТОЯНИЕ
6 НОРМАЛИЗАЦИЯ
7 ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ
9 ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ
11 ПРИМЕНЕНИЕ kNN ДЛЯ РЕГРЕССИОННЫХ ЗАДАЧ
12 ПРИМЕР: ИРИСЫ ФИШЕРА 150 цветков трех классов: Два параметра: длина чашелистика и длина лепестка. Два новых цветка со следующими значениями длины чашелистика и лепестка: 5,3 и 1,6 ( цветок 1 ), 6,1 и 4,8 ( цветок 2 ). Iris SetosaIris VersicolourIris Virginica
13 ИРИСЫ ФИШЕРА: ДИАГРАММА РАЗМЕЩЕНИЯ КЛАССОВ
14 ИРИСЫ ФИШЕРА: ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Объект ЧашелистикЛепесток РасстояниеКласс Цветок 15,31,6-- A5,31,50,1Iris Setosa B5,21,50,14Iris Setosa C5,21,50,14Iris Setosa Класс цветка 1 : Iris Setosa
15 ИРИСЫ ФИШЕРА: ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Объект ЧашелистикЛепесток РасстояниеКласс Цветок 26,14,8-- A6,14,70,14Iris Versicolour B64,80,1Iris Virginica C6,24,80,1Iris Virginica Класс цветка 2 : Iris Virginica
16 ИРИСЫ ФИШЕРА: ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Класс цветка 2 : Iris Virginica
17 ДОСТОИНСТВА МЕТОДА kNN Программная реализация алгоритма относительно проста. Возможность модификации алгоритма. Алгоритм устойчив к аномальным выбросам. Возможность интерпретации результатов работы алгоритма.
18 НЕДОСТАТКИ МЕТОДА kNN Набор данных, используемый для алгоритма, должен быть репрезентативным. Необходимость хранить обучающую выборку целиком. В простейших случаях метрические алгоритмы имеют крайне бедный набор параметров, что исключает возможность настройки алгоритма по данным. Затраты в производительности велики, поскольку нам необходимо вычислить расстояния между каждым экземпляром и всеми пробными экземплярами.
19 ПРИМЕНЕНИЕ МЕТОДА kNN Распознавание текста, Сельское хозяйство, Финансы, Медицина, Обнаружение мошенничества, QSAR.
20 ПОСТРОЕНИЕ МОДЕЛИ В R preProc
21 ВЫБОРКА ПО РАСТВОРИМОСТИ РЕЗУЛЬТАТЫ
22 ВЫБОРКА ПО МУТАГЕННОСТИ РЕЗУЛЬТАТЫ 22
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.