Обратные задачи: теория и практика Лекция 6. Проверка изначальных предположений и модификации стандартной процедуры регрессии. Новосибирский Государственный Университет Физический факультет Кафедра биомедицинской физики к.ф.-м.н. Юркин М.А. This work is licensed under the Creative Commons Attribution 3.0 Unported License.
Обратные задачи. Лекция 6: Проверка изначальных предположений.2 План лекции Проверка изначальных предположений. Обобщённый метод наименьших квадратов. Определение выпадающих точек. Ненормальное распределение погрешностей. Зависимость погрешностей разных точек между собой. Общая адекватность модели. Сравнение разных моделей. Модификации экспериментальной схемы. Учёт повторных измерений. Регрессия нескольких наборов данных при одинаковых значениях части параметров.
Обратные задачи. Лекция 6: Проверка изначальных предположений.3 Обобщённый метод наим. квадр. Любая положительно определённая V U T U = LL T, R L 1 Решаем, находим и Формулы для доверительных интервалов на основе S(β) полностью идентичны Вместо явного нахождения матрицы R и умножения на неё, можно решать систему: w = Ry Lw = y
Обратные задачи. Лекция 6: Проверка изначальных предположений.4 Веса разных измерений «Стьюдентизированные» погрешности Верно, если неотъемлемая кривизна несущественна. При этом эти погрешности почти независимы ( p
Обратные задачи. Лекция 6: Проверка изначальных предположений.5 Пример стьюдент. погрешностей
Обратные задачи. Лекция 6: Проверка изначальных предположений.6 Выпадающие точки Определение по исходным данным или по графикам стьюдентизированных погрешностей. Удаление Критерий Шовене: отбрасываем x, если. Только один раз! Критерий Граббса: отбрасываем самый дальний от среднего x i, если потом пересчитываем и повторяем. Очень противоречивая процедура. Применять только, если есть предположения, какие причины вызвали выпадающие точки.
Обратные задачи. Лекция 6: Проверка изначальных предположений.7 Выпадающие точки Использование «устойчивой» регрессии Минимизация суммы модулей Специальные весовые функции ( ε ) вместо ε 2, например «Tukey biweight» (биквадрат) Используя текущее значение параметров (на каждой итерации), определить невязки ε i. Определить медиану ε i (средний элемент в списке по порядку) – M, уровень отсечки C 6M. Остатки больше чем C игнорируются, остальные: Эквивалентно предположению о распределении погрешностей с бóльшими хвостами
Обратные задачи. Лекция 6: Проверка изначальных предположений.8 Проверка нормальности График нормальной вероятности: от медиан нормальной порядковой статистики. Существует много количественных тестов Удовлетворительные примеры:
Тест Шапиро-Вилка (Shapiro-Wilk) x (i) – порядковая статистика ( i -тая по порядку) m i = E(x (i) ) – её ожидаемое значения V – матрица ковариаций, V ij = cov(x (i),x (j) ) Тестовая статистика Отвергается, если значение меньше табулированного Или переводится в достоверность p Обратные задачи. Лекция 6: Проверка изначальных предположений.9
10 Ненормальность погрешностей Если распределение погрешностей известно из постановки эксперимента, то надо его использовать. Основная проблема с ненормальностью – сильное влияние точек с большой погрешностью. Общий подход без конкретной информации – устойчивая регрессия. Во многих случаях, это более предпочтительно чем обычная регрессия, но вычисления сложнее, меньше готовых программ, и другие формулы для доверительных интервалов. С практической точки зрения, рекомендуется только если есть явные дефекты «нормального» подхода.
Обратные задачи. Лекция 6: Проверка изначальных предположений.11 Проверка зависимости погрешностей Критерий серии (Вальда-Вольфовица) Серия – это набор последовательных погрешностей ε i одинакового знака. Количество серий (количество пересечений + 1) – это случайная величина с: n, n – количество погрешностей > и
Обратные задачи. Лекция 6: Проверка изначальных предположений.12 Проверка зависимости погрешностей Автокорреляционная функция Рекомендуется k n/5 (или n/3 ) Если все погрешности независимы, то доверительный интервал Критерий Дурбина-Ватсона (таблицы доверительных интервалов на d )
13 Зависимость погрешностей Микрочастица Лимфоцит Обратные задачи. Лекция 6: Проверка изначальных предположений.
14 Зависимость погрешностей Модели автокорреляционных функций Авторегрессионный процесс (например, монотонная функция от времени). Скользящее среднее (например, при интегрировании в измерительной системе) ρ k 0, k k 0. Их комбинация.
Обратные задачи. Лекция 6: Проверка изначальных предположений.15 Ожидаемый результат Авторегрессионный процесс ( ϕ = 0.69 ) Независимые погрешности коррекция
Пример: коррекция авторегрессии y n = f (x n,β) + z n, z n = ε n + ϕ z n1, y n ϕ y n1 = f (x n,β) ϕ f (x n1,β) + ε n ϕ = ρ 1 минимизируем S( β, ϕ ) обновляем ϕ Проверяем независимость получившихся ε n Обратные задачи. Лекция 6: Проверка изначальных предположений.16 повторяем до сходимости
Обратные задачи. Лекция 6: Проверка изначальных предположений.17 Зависимость погрешностей Уменьшение степеней свободы (для быстрых оценок) Если проредить данные, корреляция уменьшится. По автокорреляционной функции оценивается эффективное n * – используется для доверительных интервалов.
Обратные задачи. Лекция 6: Проверка изначальных предположений.18 Зависимость погрешностей При наличии корреляций Произвольную матрицы V можно определить итерационно при наличии повторных измерений. Предполагая стационарный нормальный процесс – тогда V определяется (меньше неизвестных). подгонка V
Пример для бактерий E.Coli Обратные задачи. Лекция 6: Проверка изначальных предположений.19 Изначальная невязкаУмноженная на R
Пример для бактерий E.Coli Обратные задачи. Лекция 6: Проверка изначальных предположений.20 N = 152 N = 61 Критерий серий (должно быть N/2 + 1 )
Обратные задачи. Лекция 6: Проверка изначальных предположений.21 Общая адекватность модели Построить графики от скрытых параметров, таких как время, порядок измерения, номер пациента и т.п. Если есть видимые зависимости, то надо включить этот скрытый параметр в рассмотрении. Если знаем величину экспериментального шума σ, то при нормальных и независимых погрешностях должно быть Поэтому должно попадать в соответствующий (двухсторонний) доверительный интервал Адекватность может нарушаться как при пере-, так и при недооценке σ
Сравнение разных моделей Обратные задачи. Лекция 6: Проверка изначальных предположений.22 f (x) = a + bx + cx 2 a = 0.8 ± 0.2 b = 3.8 ± 0.9 c =2.7 ± 0.8 f (x) = a + bx a = 1.29 ± 0.13 b = 1.06 ± 0.22
Сравнение разных моделей Одна модель – частный случай другой ( B 0 B ) Отношение правдоподобий Нулевая гипотеза (модель B 0 ) отвергается, если Λ < t D = 2ln(Λ) асимптотически (при n ) проверяем Для нормальных погрешностей F-тест: (асимпт.) Обратные задачи. Лекция 6: Проверка изначальных предположений.23
Обратные задачи. Лекция 6: Проверка изначальных предположений.24 Повторные измерения Если повторные измерения независимые (например, в отдельных пробирках), то используются в регрессии как отдельные точки. Но дополнительно можно: Оценить матрицу V – как веса, так и зависимости. подгонка новое значение ŷ При этом требуется k не зависит от i (полные данные) k > n (иначе V вырождена) Но есть алгоритмы коррекции.
Обратные задачи. Лекция 6: Проверка изначальных предположений.25 Повторные измерения Если повторений совсем мало, то можно выбрать один из стандартных весов ( 1, y, y 2 ) одно из стандартных преобразований модели, например, пробовать 0, 0.5, 1, … Количественно оценить адекватность подгонки. Модель адекватна, если
Обратные задачи. Лекция 6: Проверка изначальных предположений.26 Повторные измерения Если зависимые (например, несколько измерений одной пробирки), надо оставить среднее по всем повторениям ожидаемая погрешность в каждой точке уменьшается на инструментальную ошибку (или часть этой ошибки)
Обратные задачи. Лекция 6: Проверка изначальных предположений.27 Общие параметры Все данные из разных ( k ) серий собираются в один большой набор. Часть параметров независимы – разные для разных серий ( β i ), а часть – общие ( γ ). С одной стороны, общие параметры отражают суть эксперимента и модели, с другой – увеличивают отношение n/p, что может быть критично, когда данных мало. Выполняется в рамках общего подхода: f {f (x,β 1,γ)| … | f (x,β k,γ)}, только матрица F сильно разрежена (для раздельных параметров). Можно пробовать параметр как общий и раздельный и проверить, есть ли достоверное различие.
Общие параметры – пример Разреженность упрощает: определение задачи (задание матрицы) операции с матрицей, например (X T X) 1 Некоторые программы имеют отдельный интерфейс для такой регрессии. Обратные задачи. Лекция 6: Проверка изначальных предположений.28