Регрессионный анализ и заполнение пробелов Лекция 4
Регрессионный анализ Генеральная совокупность изучаемых объектов Г. Генеральная совокупность изучаемых объектов Г. Каждый объект из Г описывается набором характеристик Х={X 1,…,X j,…,X n }, j – множество возможных значений признака X j Каждый объект из Г описывается набором характеристик Х={X 1,…,X j,…,X n }, j – множество возможных значений признака X j Имеется переменная Y c множеством значений Y R Имеется переменная Y c множеством значений Y R Произвольному объекту а Г может быть поставлен в соответствие вектор Х(а)=( X 1 (a),…,X j (a),…,X n (a)) и Y(a) Произвольному объекту а Г может быть поставлен в соответствие вектор Х(а)=( X 1 (a),…,X j (a),…,X n (a)) и Y(a) Задача прогнозирования состоит в том, чтобы для произвольного а Г по значениям x 1,…,x j,…x n предсказать y, восстановить отображение f: X Y. Задача прогнозирования состоит в том, чтобы для произвольного а Г по значениям x 1,…,x j,…x n предсказать y, восстановить отображение f: X Y.
Построение регрессионной зависимости Дана обучающая выборка А, представленная таблицей {x i (a j ),y(a j )|i=1,..,N, j=1,..,M} Дана обучающая выборка А, представленная таблицей {x i (a j ),y(a j )|i=1,..,N, j=1,..,M} Требуется восстановить зависимость f Требуется восстановить зависимость f Выдвигаются гипотезы о виде зависимости с точностью до параметров Выдвигаются гипотезы о виде зависимости с точностью до параметров f F( ), f(x)=f(x, ) f F( ), f(x)=f(x, ) Подходы к задаче: Подходы к задаче: Геометрический Метод наименьших квадратов: Геометрический Метод наименьших квадратов: Статистический Метод максимального правдоподобия Статистический Метод максимального правдоподобия y=f(x, )+, где N(0, 2 ) y=f(x, )+, где N(0, 2 ) Решения совпадают Решения совпадают
Линейная регрессия Ищем зависимость вида y= 1 x x 2 +…+ n x n + Ищем зависимость вида y= 1 x x 2 +…+ n x n + x 1 (a 1 ) x 2 (a 1 ) … x n (a 1 ) 1 1 y(a 1 ) x 1 (a 1 ) x 2 (a 1 ) … x n (a 1 ) 1 1 y(a 1 ) L= x 1 (a 2 ) x 2 (a 2 ) … x n (a 2 ) y(a 2 ) L= x 1 (a 2 ) x 2 (a 2 ) … x n (a 2 ) y(a 2 ) … n … … n … x 1 (a m ) x 2 (a m )…x n (a m ) 1 y(a m ) x 1 (a m ) x 2 (a m )…x n (a m ) 1 y(a m ) ||L|| 2 = || -y|| 2 min ||L|| 2 = || -y|| 2 min *=( T ) -1 T y= + y *=( T ) -1 T y= + y + - псевдообратная матрица + - псевдообратная матрица
Заполнение пробелов в таблицах данных. Обнаружение ошибок. Базовые гипотезы Базовые гипотезы Избыточность (по строкам и столбцам) Избыточность (по строкам и столбцам) Локальная компактность Локальная компактность Линейность зависимостей Линейность зависимостей Связано со следующими задачами анализа данных Связано со следующими задачами анализа данных Построение решающего правила (для качественных переменных) Построение решающего правила (для качественных переменных) Регрессионный анализ (для количественных переменных) Регрессионный анализ (для количественных переменных) Оценка качества работы алгоритма заполнения пробелов Оценка качества работы алгоритма заполнения пробелов Алгоритм ZET Алгоритм ZET Выявление компетентной подматрицы Выявление компетентной подматрицы Восстановление параметров зависимостей Восстановление параметров зависимостей Прогнозирование Прогнозирование Алгоритм WANGA для разнотипных признаков Алгоритм WANGA для разнотипных признаков
Алгоритм ZET Компетентность L ij =(1-r ij )*t ij Компетентность L ij =(1-r ij )*t ij r ij - расстояние между строками (столбцами) r ij - расстояние между строками (столбцами) t ij – заполненность строк (столбцов) t ij – заполненность строк (столбцов) Прогнозы по компетентным строкам и столбцам Прогнозы по компетентным строкам и столбцам строятся прогнозы по всем компетентным строкам и столбцам (линейная регрессия) строятся прогнозы по всем компетентным строкам и столбцам (линейная регрессия) усредняются, с учетом L ij усредняются, с учетом L ij Влияние компетентности оценивается на известных данных Влияние компетентности оценивается на известных данных На них же оценивается ожидаемая погрешность прогноза и дисперсия погрешности На них же оценивается ожидаемая погрешность прогноза и дисперсия погрешности Прогнозы по строкам и столбцам усредняются Прогнозы по строкам и столбцам усредняются
Модификации ZET Обнаружение грубых ошибок и выбросов в данных Обнаружение грубых ошибок и выбросов в данных Прогнозирование динамических процессов Прогнозирование динамических процессов t1t1t1t1 t2t2t2t2 t3t3t3t3… tktktktk t2t2t2t2 t3t3t3t3 t4t4t4t4… t k+1 …………… t T+1-k t T+2-k t T+3-k … tTtTtTtT
Алгоритмы семейства WANGA WANGA-R – для шкалы отношений WANGA-R – для шкалы отношений b lk /b ik =b lj /b ij b lk `=b lj *b ik /b lk b lk /b ik =b lj /b ij b lk `=b lj *b ik /b lk дисперсии всех прогнозов по l-строке и k-столбцу используются в качестве меры компетентности дисперсии всех прогнозов по l-строке и k-столбцу используются в качестве меры компетентности окончательный прогноз –средневзвешенные подсказки по компетентной подматрице окончательный прогноз –средневзвешенные подсказки по компетентной подматрице WANGA-I – для шкалы интервалов WANGA-I – для шкалы интервалов (b ij -b lj )/(b lj -b tj )=(b ik -b lk )/(b lk -b tk ) (b ij -b lj )/(b lj -b tj )=(b ik -b lk )/(b lk -b tk ) b ltk `=blj +(b lj -b tj )*(b ik -b lk )/(b lk -b tk ) b ltk `=blj +(b lj -b tj )*(b ik -b lk )/(b lk -b tk ) Дисперсия в качестве меры компетентности Дисперсия в качестве меры компетентности WANGA-0 – для шкалы порядка WANGA-0 – для шкалы порядка b ij `b lk b ij `=b lj если b ik =b lk b ij `=b lj если b ik =b lk Устраивается голосование за все возможные значения признака Устраивается голосование за все возможные значения признака В качестве меры компетентности используется энтропия В качестве меры компетентности используется энтропия WANGA-N – для шкалы порядка WANGA-N – для шкалы порядка b ij ` b lj если b ik b lk b ij ` b lj если b ik b lk b ij `=b lj если b ik =b lk b ij `=b lj если b ik =b lk В качестве меры компетентности используем энтропию В качестве меры компетентности используем энтропию b lk … b lj … b ik … b ij b lk … b lj … b ik … b ij … b tk … b tj