Регрессионный анализ и заполнение пробелов Лекция 4.

Презентация:



Advertisements
Похожие презентации
Д.т.н. Загоруйко Николай Григорьевич. х 1 х 2…xj…xN a1****** a2****** …****** ai**** ?** …****** aM****** Обнаружение ошибок Таблица не имеет пробелов.
Advertisements

КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Задача построения решающего правила Лекция 4,5. Статистический подход к задаче распознавания. Генеральная совокупность изучаемых объектов Г. Генеральная.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Задача таксономии и частичного обучения Лекция 6.
Моделирование и формализация.. Моделирование как метод познания. Моделирование-это метод познания, состоящий в создании и исследовании моделей. Моделирование-это.
Разработка алгоритмов на базе FRiS-функции Лекция 6.
Случайные и систематические погрешности при измерениях и расчетах.
Свойства Коэффициентов Множественной Регрессии Оценки b j – случайные величины. При выполнении определенных условий (4-х условий Гаусса-Маркова): E(b j.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Транксрипт:

Регрессионный анализ и заполнение пробелов Лекция 4

Регрессионный анализ Генеральная совокупность изучаемых объектов Г. Генеральная совокупность изучаемых объектов Г. Каждый объект из Г описывается набором характеристик Х={X 1,…,X j,…,X n }, j – множество возможных значений признака X j Каждый объект из Г описывается набором характеристик Х={X 1,…,X j,…,X n }, j – множество возможных значений признака X j Имеется переменная Y c множеством значений Y R Имеется переменная Y c множеством значений Y R Произвольному объекту а Г может быть поставлен в соответствие вектор Х(а)=( X 1 (a),…,X j (a),…,X n (a)) и Y(a) Произвольному объекту а Г может быть поставлен в соответствие вектор Х(а)=( X 1 (a),…,X j (a),…,X n (a)) и Y(a) Задача прогнозирования состоит в том, чтобы для произвольного а Г по значениям x 1,…,x j,…x n предсказать y, восстановить отображение f: X Y. Задача прогнозирования состоит в том, чтобы для произвольного а Г по значениям x 1,…,x j,…x n предсказать y, восстановить отображение f: X Y.

Построение регрессионной зависимости Дана обучающая выборка А, представленная таблицей {x i (a j ),y(a j )|i=1,..,N, j=1,..,M} Дана обучающая выборка А, представленная таблицей {x i (a j ),y(a j )|i=1,..,N, j=1,..,M} Требуется восстановить зависимость f Требуется восстановить зависимость f Выдвигаются гипотезы о виде зависимости с точностью до параметров Выдвигаются гипотезы о виде зависимости с точностью до параметров f F( ), f(x)=f(x, ) f F( ), f(x)=f(x, ) Подходы к задаче: Подходы к задаче: Геометрический Метод наименьших квадратов: Геометрический Метод наименьших квадратов: Статистический Метод максимального правдоподобия Статистический Метод максимального правдоподобия y=f(x, )+, где N(0, 2 ) y=f(x, )+, где N(0, 2 ) Решения совпадают Решения совпадают

Линейная регрессия Ищем зависимость вида y= 1 x x 2 +…+ n x n + Ищем зависимость вида y= 1 x x 2 +…+ n x n + x 1 (a 1 ) x 2 (a 1 ) … x n (a 1 ) 1 1 y(a 1 ) x 1 (a 1 ) x 2 (a 1 ) … x n (a 1 ) 1 1 y(a 1 ) L= x 1 (a 2 ) x 2 (a 2 ) … x n (a 2 ) y(a 2 ) L= x 1 (a 2 ) x 2 (a 2 ) … x n (a 2 ) y(a 2 ) … n … … n … x 1 (a m ) x 2 (a m )…x n (a m ) 1 y(a m ) x 1 (a m ) x 2 (a m )…x n (a m ) 1 y(a m ) ||L|| 2 = || -y|| 2 min ||L|| 2 = || -y|| 2 min *=( T ) -1 T y= + y *=( T ) -1 T y= + y + - псевдообратная матрица + - псевдообратная матрица

Заполнение пробелов в таблицах данных. Обнаружение ошибок. Базовые гипотезы Базовые гипотезы Избыточность (по строкам и столбцам) Избыточность (по строкам и столбцам) Локальная компактность Локальная компактность Линейность зависимостей Линейность зависимостей Связано со следующими задачами анализа данных Связано со следующими задачами анализа данных Построение решающего правила (для качественных переменных) Построение решающего правила (для качественных переменных) Регрессионный анализ (для количественных переменных) Регрессионный анализ (для количественных переменных) Оценка качества работы алгоритма заполнения пробелов Оценка качества работы алгоритма заполнения пробелов Алгоритм ZET Алгоритм ZET Выявление компетентной подматрицы Выявление компетентной подматрицы Восстановление параметров зависимостей Восстановление параметров зависимостей Прогнозирование Прогнозирование Алгоритм WANGA для разнотипных признаков Алгоритм WANGA для разнотипных признаков

Алгоритм ZET Компетентность L ij =(1-r ij )*t ij Компетентность L ij =(1-r ij )*t ij r ij - расстояние между строками (столбцами) r ij - расстояние между строками (столбцами) t ij – заполненность строк (столбцов) t ij – заполненность строк (столбцов) Прогнозы по компетентным строкам и столбцам Прогнозы по компетентным строкам и столбцам строятся прогнозы по всем компетентным строкам и столбцам (линейная регрессия) строятся прогнозы по всем компетентным строкам и столбцам (линейная регрессия) усредняются, с учетом L ij усредняются, с учетом L ij Влияние компетентности оценивается на известных данных Влияние компетентности оценивается на известных данных На них же оценивается ожидаемая погрешность прогноза и дисперсия погрешности На них же оценивается ожидаемая погрешность прогноза и дисперсия погрешности Прогнозы по строкам и столбцам усредняются Прогнозы по строкам и столбцам усредняются

Модификации ZET Обнаружение грубых ошибок и выбросов в данных Обнаружение грубых ошибок и выбросов в данных Прогнозирование динамических процессов Прогнозирование динамических процессов t1t1t1t1 t2t2t2t2 t3t3t3t3… tktktktk t2t2t2t2 t3t3t3t3 t4t4t4t4… t k+1 …………… t T+1-k t T+2-k t T+3-k … tTtTtTtT

Алгоритмы семейства WANGA WANGA-R – для шкалы отношений WANGA-R – для шкалы отношений b lk /b ik =b lj /b ij b lk `=b lj *b ik /b lk b lk /b ik =b lj /b ij b lk `=b lj *b ik /b lk дисперсии всех прогнозов по l-строке и k-столбцу используются в качестве меры компетентности дисперсии всех прогнозов по l-строке и k-столбцу используются в качестве меры компетентности окончательный прогноз –средневзвешенные подсказки по компетентной подматрице окончательный прогноз –средневзвешенные подсказки по компетентной подматрице WANGA-I – для шкалы интервалов WANGA-I – для шкалы интервалов (b ij -b lj )/(b lj -b tj )=(b ik -b lk )/(b lk -b tk ) (b ij -b lj )/(b lj -b tj )=(b ik -b lk )/(b lk -b tk ) b ltk `=blj +(b lj -b tj )*(b ik -b lk )/(b lk -b tk ) b ltk `=blj +(b lj -b tj )*(b ik -b lk )/(b lk -b tk ) Дисперсия в качестве меры компетентности Дисперсия в качестве меры компетентности WANGA-0 – для шкалы порядка WANGA-0 – для шкалы порядка b ij `b lk b ij `=b lj если b ik =b lk b ij `=b lj если b ik =b lk Устраивается голосование за все возможные значения признака Устраивается голосование за все возможные значения признака В качестве меры компетентности используется энтропия В качестве меры компетентности используется энтропия WANGA-N – для шкалы порядка WANGA-N – для шкалы порядка b ij ` b lj если b ik b lk b ij ` b lj если b ik b lk b ij `=b lj если b ik =b lk b ij `=b lj если b ik =b lk В качестве меры компетентности используем энтропию В качестве меры компетентности используем энтропию b lk … b lj … b ik … b ij b lk … b lj … b ik … b ij … b tk … b tj