Д.т.н. Загоруйко Николай Григорьевич. х 1 х 2…xj…xN a1****** a2****** …****** ai**** ?** …****** aM****** Обнаружение ошибок Таблица не имеет пробелов.

Презентация:



Advertisements
Похожие презентации
Регрессионный анализ и заполнение пробелов Лекция 4.
Advertisements

Цель урока: повторить и закрепить понятие «система координат»
Вариант Презентация "Осень золотая".
Н Как можно назвать эти фигуры одним словом? Какая из фигур лишняя и почему?
Найди недостающее слагаемое
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Задача о назначениях. Венгерский метод решения задачи о назначениях. Малофеевой Екатерины гр. ММ-61.
Задача о назначениях. Венгерский метод решения задачи о назначениях. Малофеевой Екатерины гр. ММ-61.
Устный счет. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА И 5 ЕДИНИЦ. НАЗОВИТЕ ЧИСЛО, КОТОРОЕ НА 1 ЕДИНИЦУ БОЛЬШЕ, ЧЕМ.
Информативность и выбор признаков Лекция 2.4 Введение в когнитивный анализ данных д.т.н. Загоруйко Николай Григорьевич.
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
Информатика ЕГЭ Уровень А5. Вариант 1 Определите значения переменных a, b, c после выполнения следующего фрагмента программы: a:=5; b:=1; a:=a+b; if a>10.
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)

О AB C a c b 6 A B C D a b c d 8 A B C D E a b c d e.
Двумерные массивы. Задачи обработки двумерных массивов.
Перед вами тест, который поможет вам подготовиться к контрольной работе по теме «Степень с натуральным показателем»
ДВИЖЕНИЕ: скорость, время, расстояние
Разработка и исследование метода относительных координат потребителя по сигналам СРНС ГЛОНАСС Студентка гр. ЭР Стесина Л.Д. Научный руководитель:
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Транксрипт:

д.т.н. Загоруйко Николай Григорьевич

х 1 х 2…xj…xN a1****** a2****** …****** ai**** ?** …****** aM****** Обнаружение ошибок Таблица не имеет пробелов. Требуется обнаружить ошибки или умышленные искажения. 2

Постановка задачи 3

4

Предсказание по похожим объектам Гипотеза многомерной аналогии : «Объекты, похожие по n свойствам, похожи и по (n+1)-му свойству» x1x2…xj…xN aibi1bi2bi… bij ? bi…biN asbs1bs2bs…bsjbs…bsN bij/bsj =bi1/bs1 bij=bsj*bi1/bs1 bij – ср. значение bij 5

Предсказание по похожим столбцам xjxk a1bj1bk1 a2bj2bk2 a…bj…bk... aibjibki a…bj…bk… aMbjMbiM Если есть связь между значениями признаков на m объектах, то такая же связь есть и на (v+1)-м объекте. Xj bji bki xk * Варианты подсказок bji по всем столбцам k усредняются с весом Lk компетентности k столбца 6

Формирование компетентной подматрицы (КП) Использовать только компетентные столбцы и строки Ядро КП – пересечение k наиболее компетентных элементов, выбранных из всей таблицы по каждой координате. AdDel расширение КП – поочередное добавление n1 наиболее компетентных элементов (строк или столбцов), исключение n2 наименее компетентных элементов. Оценка компетентности в пространстве растущей размерности. На каждом шаге оценивается компактность КП 7

Компетентность и компактность Компетентность FА элемента элемента А **** * * * * * * * * r1r2 A FА=(r2-r1)/(r2+r1) Остановка, если FА

Заполнение пробелов Тот же метод, что и при редактировании. Новая проблема – оценка ожидаемой ошибки. Компактность С компетентной подматрицы Дисперсия δ подсказок Ошибки заполнения известных элементов целевой строки и целевого столбца КП 9

ZET – прогнозирование Алгоритм «Змейка» ??? ??? ??? Алгоритм FRiS-Pro 2009 г. Международный конкурс по DM. Таблица имела 1962 столбца. Обучающих объектов 2394, контрольных – Нужно было заполнить клеточки. Участвовало 618 команд из 42 стран. Отобрано лучших 49 результатов. Самый слабый результат – до 100 единиц ошибок на клеточку. Лучший FRiS-Pro – е место. 10

Применение ZET Восстановление скрытых или утерянных данных. Обнаружение ошибок или умышленных искажений (Fraud detection). Обнаружение сбоев в технологическом процессе или в системе измерений. Прогнозирование динамических объектов. 11

ZET на кубах данных 12

Требуется заполнить клеточку на пересечении 3-х «целевых» плоскостей. a0 из A, |A|=M, x0 из X, |X|=N, t0 из T, |T|=T. а 0 t0t0 x0x0 13

Формирование компетентного под куба (КП) Зародыш КП – пересечение 3-х самых компетентных плоскостей, выбранных их всего куба по каждой координате. AdDel расширение КП – поочередное добавление n1 наиболее компетентных элементов (строк, столбцов или рядов), исключение n2 наименее компетентных элементов. Компетентность плоскостей в пространстве меняющейся размерности. 14

Критерий остановки 1. А – очередная присоединяемая плоскость. R1 – расстояние от А до k соседей из КП R2 –расстояние от А до k соседей среди не входящих в КП. Остановка, если FA=(r2-r1)/(r2+r1) n* 15

Ожидаемая ошибка При заполнении каждого пробела делается редактирование известных клеточек компетентных плоскостей. Полученное среднее значение ошибок является оценкой ожидаемой ошибки заполняемого пробела. 16

Применение 3D-ZET 17

Применение 3D-ZET 18

Редактирование данных о нефтяных скважинах 19

Ошибка редактирования 20

Гистограмма ошибок 21

Решаемые проблемы Обучение без переобучения Прогнозирование на кубах данных Универсальная программа SDX Таблицы и кубы с разнотипными свойствами Адаптация к большим данным 22