Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемДмитрий Бадыгин
1 д.т.н. Загоруйко Николай Григорьевич
2 х 1 х 2…xj…xN a1****** a2****** …****** ai**** ?** …****** aM****** Обнаружение ошибок Таблица не имеет пробелов. Требуется обнаружить ошибки или умышленные искажения. 2
3 Постановка задачи 3
4 4
5 Предсказание по похожим объектам Гипотеза многомерной аналогии : «Объекты, похожие по n свойствам, похожи и по (n+1)-му свойству» x1x2…xj…xN aibi1bi2bi… bij ? bi…biN asbs1bs2bs…bsjbs…bsN bij/bsj =bi1/bs1 bij=bsj*bi1/bs1 bij – ср. значение bij 5
6 Предсказание по похожим столбцам xjxk a1bj1bk1 a2bj2bk2 a…bj…bk... aibjibki a…bj…bk… aMbjMbiM Если есть связь между значениями признаков на m объектах, то такая же связь есть и на (v+1)-м объекте. Xj bji bki xk * Варианты подсказок bji по всем столбцам k усредняются с весом Lk компетентности k столбца 6
7 Формирование компетентной подматрицы (КП) Использовать только компетентные столбцы и строки Ядро КП – пересечение k наиболее компетентных элементов, выбранных из всей таблицы по каждой координате. AdDel расширение КП – поочередное добавление n1 наиболее компетентных элементов (строк или столбцов), исключение n2 наименее компетентных элементов. Оценка компетентности в пространстве растущей размерности. На каждом шаге оценивается компактность КП 7
8 Компетентность и компактность Компетентность FА элемента элемента А **** * * * * * * * * r1r2 A FА=(r2-r1)/(r2+r1) Остановка, если FА
9 Заполнение пробелов Тот же метод, что и при редактировании. Новая проблема – оценка ожидаемой ошибки. Компактность С компетентной подматрицы Дисперсия δ подсказок Ошибки заполнения известных элементов целевой строки и целевого столбца КП 9
10 ZET – прогнозирование Алгоритм «Змейка» ??? ??? ??? Алгоритм FRiS-Pro 2009 г. Международный конкурс по DM. Таблица имела 1962 столбца. Обучающих объектов 2394, контрольных – Нужно было заполнить клеточки. Участвовало 618 команд из 42 стран. Отобрано лучших 49 результатов. Самый слабый результат – до 100 единиц ошибок на клеточку. Лучший FRiS-Pro – е место. 10
11 Применение ZET Восстановление скрытых или утерянных данных. Обнаружение ошибок или умышленных искажений (Fraud detection). Обнаружение сбоев в технологическом процессе или в системе измерений. Прогнозирование динамических объектов. 11
12 ZET на кубах данных 12
13 Требуется заполнить клеточку на пересечении 3-х «целевых» плоскостей. a0 из A, |A|=M, x0 из X, |X|=N, t0 из T, |T|=T. а 0 t0t0 x0x0 13
14 Формирование компетентного под куба (КП) Зародыш КП – пересечение 3-х самых компетентных плоскостей, выбранных их всего куба по каждой координате. AdDel расширение КП – поочередное добавление n1 наиболее компетентных элементов (строк, столбцов или рядов), исключение n2 наименее компетентных элементов. Компетентность плоскостей в пространстве меняющейся размерности. 14
15 Критерий остановки 1. А – очередная присоединяемая плоскость. R1 – расстояние от А до k соседей из КП R2 –расстояние от А до k соседей среди не входящих в КП. Остановка, если FA=(r2-r1)/(r2+r1) n* 15
16 Ожидаемая ошибка При заполнении каждого пробела делается редактирование известных клеточек компетентных плоскостей. Полученное среднее значение ошибок является оценкой ожидаемой ошибки заполняемого пробела. 16
17 Применение 3D-ZET 17
18 Применение 3D-ZET 18
19 Редактирование данных о нефтяных скважинах 19
20 Ошибка редактирования 20
21 Гистограмма ошибок 21
22 Решаемые проблемы Обучение без переобучения Прогнозирование на кубах данных Универсальная программа SDX Таблицы и кубы с разнотипными свойствами Адаптация к большим данным 22
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.