Информативность и выбор признаков Лекция 2.4 Введение в когнитивный анализ данных д.т.н. Загоруйко Николай Григорьевич
Выбор признаков Качество решения зависит задач анализа зависит от информативности выбранных признаков. Информативность признаков понятие относительное. Оценка информативности признаков зависит от списка распознаваемых образов S = (S1,S2,…,Si,..., SК). Первоначальный состав признаков (система Х0) задается неформализованным путем, на основе опыта и интуиции специалиста. Формальные методы применяются для проверки этой исходной системы на достаточность и необходимость. Достаточной считаем систему, которая при заданных S и D обеспечивает затраты R, не превышающие определенного порога R0. Необходимой является достаточная система минимальной сложности (стоимости). При обучающей выборке А решается следующая задача: β = argmin R(Xβ)/S,D,A,R0 βВ 2
Схема алгоритмов выбора признаков 3
4
Селекция МГУА- метод группового учета аргументов (Ивахненко А.Г.) Первичные признаки X= Вторичные признаки: X= f(x1,x2)= ; f(x1,x2)=x1*x2; f(x1.x2)=x1/x2 5
Жадные алгоритмы Логические решающие правила – итеративное добавление признаков с распознаванием по пороговым функциям (Лбов Г.С., Михальский Р.С., 1962). Если (x2 10)^(x3=0), то (х0=1) Addition – итеративное добавление лучшего к имеющимся (Ю.Л. Барабаш, 1963) n
Итеративный алгоритм AdDel (Kittler J.,1985) Чередование n1 Add – n2 Del. n2
Алгоритм FRiS-GRAD Вторичные признаки - Гранулы из m признаков: m=1, 2, 3,.. Полный перебор? 8
Критерии информативности Внутренние критерии: Тестовое распознавание всей обучающей выборки или ее части (U) Внешние критерии: Критерий Фишера FRiS-компактность 9
Сравнение критериев 10 U-CV, Q-Fisher, Fs-FRiS
Устойчивость к помехам 11 Обучение Контроль ********* ********* F=0.87 * * * * * * * * * * * * * * * * * * F=0.56
12
13
14
Jeffery I., Higgins D., Culhane A.: Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data, BMC Bioinformatics, 2006, 7:359. ( 10 методов выбора * 4 типа реш. правил ……. 40 решений 9 задач Сравнение c «мировыми рекордами» Задача N0 m1/m2 max of 40 GRAD ALL / ALL / ALL / ALL / Prostate / Myeloma / ALL/AML / DLBCL / Colon / average
16
17
Заключение Сравнение с лучшими опубликованными методами показало, что FRiS- подход при выборе признаков и решающих правил не уступает им по качеству получаемых решений. 18