МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ (K-NEAREST NEIGHBOR) Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство.

Презентация:



Advertisements
Похожие презентации
Лабораторная работа Классификация ирисов. План Классификация ирисов Постановка задачи. Описать, какие задачи являются задачами классификации Описать алгоритм.
Advertisements

Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Методы многомерной классификации Кучерявский С.В.
ВАРИАЦИОННЫЕ МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗ ДАННЫХ Бауман Е.В.(ВАВТ,ИПУ), Дорофеюк А.А.(ИПУ)
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Модели принятия решений Задачи распознавания Детерминированный случай Распознавание при стохастических данных Показатели качества распознавания Оптимальный.
Разработка комплекса программ для кластерного анализа регионов Сибирского федерального округа Исполнитель: Пилиненская Анна Александровна Научный руководитель:
Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило.
1 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает.
Информатика ЕГЭ Уровень А5. Вариант 1 Определите значения переменных a, b, c после выполнения следующего фрагмента программы: a:=5; b:=1; a:=a+b; if a>10.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Национальный исследовательский университет « МЭИ » Кафедра прикладной математики Выпускная работа студента гр. А Бочарова Ивана на тему : « Исследование.
Христова Татьяна Михайловна Христова Татьяна Михайловна 2014.
Расположение связей на диаграмме Савин Н.С. 345 гр. Научный руководитель Ю. Литвинов.
Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
Повышение качества результатов анонимного интернет-голосования на основе анализа сетевых объектов Студеникин Роман Науч.рук. Гамаюнов Денис.
График линейной функции с модулями и его практическое применение.
Повышение качества результатов анонимного интернет-голосования на основе анализа сетевых объектов Студеникин Роман Науч.рук. Гамаюнов Денис.
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
Применение метода «Бритва Оккама» в задачах машинного обучения Выполнила Дьякова Ярослава.
Транксрипт:

МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ (K-NEAREST NEIGHBOR) Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков. Это один из простейших алгоритмов обучения классификационных моделей. Число k – это количество соседних объектов в пространстве признаков, которое сравнивается с классифицируемым объектом.

МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ

АЛГОРИТМ Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции: Вычислить расстояние до каждого из объектов обучающей выборки, Отобрать k объектов обучающей выборки, расстояние до которых минимально, Класс классифицируемого объекта это класс, наиболее часто встречающийся среди k ближайших соседей.

ЭВКЛИДОВО РАССТОЯНИЕ

НОРМАЛИЗАЦИЯ

ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ

ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ

ПРИМЕНЕНИЕ kNN ДЛЯ РЕГРЕССИОННЫХ ЗАДАЧ

ПРИМЕР: ИРИСЫ ФИШЕРА 150 цветков трех классов: Два параметра: длина чашелистика и длина лепестка. Два новых цветка со следующими значениями длины чашелистика и лепестка: 5,3 и 1,6 ( цветок 1 ), 6,1 и 4,8 ( цветок 2 ). Iris SetosaIris VersicolourIris Virginica

ИРИСЫ ФИШЕРА: ДИАГРАММА РАЗМЕЩЕНИЯ КЛАССОВ

ИРИСЫ ФИШЕРА: ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Объект ЧашелистикЛепесток РасстояниеКласс Цветок 15,31,6-- A5,31,50,1Iris Setosa B5,21,50,14Iris Setosa C5,21,50,14Iris Setosa Класс цветка 1 : Iris Setosa

ИРИСЫ ФИШЕРА: ПРОСТОЕ НЕВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Объект ЧашелистикЛепесток РасстояниеКласс Цветок 26,14,8-- A6,14,70,14Iris Versicolour B64,80,1Iris Virginica C6,24,80,1Iris Virginica Класс цветка 2 : Iris Virginica

ИРИСЫ ФИШЕРА: ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ Класс цветка 2 : Iris Virginica

ДОСТОИНСТВА МЕТОДА kNN Программная реализация алгоритма относительно проста. Возможность модификации алгоритма. Алгоритм устойчив к аномальным выбросам. Возможность интерпретации результатов работы алгоритма.

НЕДОСТАТКИ МЕТОДА kNN Набор данных, используемый для алгоритма, должен быть репрезентативным. Необходимость хранить обучающую выборку целиком. В простейших случаях метрические алгоритмы имеют крайне бедный набор параметров, что исключает возможность настройки алгоритма по данным. Затраты в производительности велики, поскольку нам необходимо вычислить расстояния между каждым экземпляром и всеми пробными экземплярами.

ПРИМЕНЕНИЕ МЕТОДА kNN Распознавание текста, Сельское хозяйство, Финансы, Медицина, Обнаружение мошенничества, QSAR.

ПОСТРОЕНИЕ МОДЕЛИ В R preProc

ВЫБОРКА ПО РАСТВОРИМОСТИ РЕЗУЛЬТАТЫ

ВЫБОРКА ПО МУТАГЕННОСТИ РЕЗУЛЬТАТЫ 22