BLOSUM62 Matrix Модели эволюции нуклеотидных и аминокислотных последовательностей. AGA GGA AAA AAG AAA AGA AAA
Допущения при построении филогенетического дерева Топология T : бифуркационная –Листья - 1 … N –Внутренние узлы N+1 … 2N-2 Длины t = { t i } для каждой ветви Филогенетическое дерево = (Топология, Длины) = ( T, t ) лист ветвь внутренний узел
Метод максимального правдоподобия Пусть филогенетическое дерево представляет собой стохастический процесс AGA GGA AAA AAG AAA AGA AAA Вероятность перехода от символа a к символу b равна b|a. Вероятность найти символ a в корне равна q a. Эти параметры определяются через скорости изменения за единицу времени, умноженное на время. Имея полное дерево, вероятность данных определяются через значения b|a и q a. Наблюдаемые Ненаблюдаемые
Вероятностные методы Филогенетическое дерево представляет собой обобщенную вероятностную модель для наблюдаемых последовательностей. Корневые вероятности: q( a ) Вероятности мутаций: P( a | b, t ) Модели мутаций –Модель Джукса-Кантора (Jukes Cantor,1969) JC69 –Двупараpsqметрическая модель Кимуры (Kimura, 1980) K2P –Модель Хасегава-Кишино-Яно (Hasegawa, Kishino and Yano, 1985) HKY85
Накопление замен Две последовательности, происшедшие от общего предка. Предполагается, что замены происходят случайным образом с постоянной скоростью Число видимых замен меньше или равно числу реальных замен D - процент сайтов, которые различаются между собой
Отношение D и t На малых временах D пропорционально t На больших временах D растет медленнее, чем t Очень большое время -> очень много замен -> получились случайные последовательности Выравненные случайные последовательности с равновероятным распределением нуклеотидов -> 3/4 сайтов будут различными D=3/4 при t -> бесконечности Почему D плоха для использования? нелинейная зависимость от t неаддитивна (D 12 не равно D 01 +D 02 )
Что необходимо? Определить эволюционное расстояние, которое было бы аддитивно и линейно зависило от времени Пусть d - среднее число замен в каждом сайте между двумя последовательностями Если замены происходят случайным образом с постоянной скоростью, то d пропорционально t d аддитивно, так как d 12 =d 01 +d 02 по определению Но d не подлежит наблюдению, в отличие от D Чтобы оценить d нужна эволюционная модель
Оценка эволюционного расстояния d Пусть скорость замены одного нуклеотида. 3 скорость замены одного нуклеотида на любой другой t - время, прошедшее после расхождения двух последовательностей d=3 t=6 t
Модель Джукса-Кантора (1969) Модель для скоростей мутации Мутации происходят с постоянной скоростью Каждый нуклеотид РАВНОВЕРОЯТНО может перейти в любой другой со скоростью.
Модель Джукса-Кантора Нужно получить формулу эволюции ДНК через вероятности Prob(y | x, t), где x и y взяты из {A, C, G, T} и t - временной интервал. Модель Джукса-Кантора подразумевает равные скорости переходов нуклеотидов : GA TC -3
Модель Джукса-Кантора Пусть S(t) - матрица вероятностей переходов (транзиций) : Мы предполагаем, что матрица мультипликативна, то есть S ( t + s ) = S ( t ) S ( s ) для любых интревалов времени s или t.
Модель Джукса-Кантора Для короткого интервала времени : Из свойства мультипликативности следует : S(t+ ) = S(t) S( ) S(t)(I+R ) Отсюда : [S(t+ ) - S(t)] / S(t) R Приходим к линейному дифференциальному уравнению : S (t) S(t)R С дополнительным условием, что в пределе при t, стремящемся к бесконечности :
Модель Джукса-Кантора Подставляя S(t) в дифференциальное уравнение, получаем систему : Система имеет единственное решение, известное под названием модели Джукса-Кантора:
Модель Джукса-Кантора вероятность мутации 1-3 вероятность отсутствия мутации Процент идентичных сайтов - i(t); процент неидентичных сайтов - n(t): i(t)+n(t)=1 За период времени (t+1), каждый идентичный сайт остается без изменения с вероятностью 1-3 Вероятность, что обe последовательности не мутировали (1-3 )^2=1-6 ^2~1-6
Зависимость D и d от t
Двупараметрическая модель Кимуры Учитывает разные скорости для транзиций и трансверсий.
Модель Кимуры K2P (1980) Модель Джукса-Кантора не принимает во внимание, что скорости транзиций ( между пуринами ) A G и ( между пиримидинами ) C T отличаются от скоростей трансверсий A C, A T, C G, G T. Кимура предложил следующую матрицу скоростей :
Модель Кимуры K2P (1980) Матрицу скоростей S(t) можно проинтегрировать, так же как и для модели Джукса-Кантора, и получится общая, зависящая от времени форма где И эта модель еще далека от реальности, так как частоты нуклеотидов равны между собой: qA=qC=qG=qT=1/4 У многих организмов AT и GC сильно сдвинуто.
Модель Кимуры K2P S - процент неидентичных сайтов, получившихся в результате транзиции V - процент неидентичных сайтов, получившихся в результате трансверсии D=S+V Аналогично подходу в модели Джукса-Кантора D=0.3 S=0.2 V=0.1 d(JC69)=0.383 d(K2P)=0.402
Модель Хасегава-Кишино-Яно HKY85 (Hasegawa-Kishino-Yano, 85) Частоты встречаемости нуклеотидов неодинаковы -
Модели эволюции аминокислотных последовательностей. Аминокислотные последовательности (20 аминокислот) Протеин-кодирующие последовательности ДНК
Модели эволюции аа последовательностей 1.Эмпирические матрицы 20 x 20 –Dayhoff et al. (1978) матрица основана на наблюдениях 1572 фиксированных мутаций в 34 суперсемействах достаточно близких последовательностях –JTT матрица (Jones et al. 1992; Gonnett et al. 1992): методология такая же как и у Dayhoff, но данные взяты из современных баз данных (позднее были сделаны модификации для трансмембранных белков Jones et al. 1994) –mtREV (Adachi and Hasegawa 1995, 1996) matrix derived from maximum likelihood-inferred replacements in mitochondrial proteins of 20 vertebrate species –WAG (Whelan and Goldman 2001) matrix derived from maximum likelihood improvement of JTT –Poisson assumes equal stationary state frequencies and equal substitution rates (equivalent to JC model for DNA). Not really empirical, but it is fixed
Матрица счета PAM250
Матрицы счета S = [s ij ] дает число выравнивания символа i с символом j для каждой пары i, j. C12 S02 T-213 P-3106 A CSTPA STPPCTCASTPPCTCA (-3) + 1 = 1
Типы матриц PAM BLOSUM Gonnet JTT DNA matrices матрицы PAM, Gonnet, JTT, и DNA PAM основаны на явных эволюционных моделях; Матрицы BLOSUM основаны на неявных эволюционных моделях
Матрицы PAM основаны на простой эволюционной модели GAATCGAGTT GA(A/G)T(C/T)GA(A/G)T(C/T) Последовательность предка ? Два изменения Разрешены только мутации Сайты эволюционируют независимо
Матрицы замен PAM Point Accepted Mutation: точечные мутации, которые распространяются и фиксируются. Единица эволюционного изменения для белковых последовательностей [Dayhoff78]. Единица PAM - это такая единица эволюции, при которой в среднем изменяется 1% аминокислот внутри белковых последовательностей.
Первая PAM Dayhoff et al семейство 15 % - расхождение аа последовательностей 1572 замены Дерево построено методом максимальной бережливости. Пример для 6 аа Матрица замен PAM
Число фиксированных точечных мутаций 1572 мутации A ij
Определение PAM Пусть P(i,j) - вероятность находиться в состоянии j во время t, при условии, что в при t=0 сайт находился в состоянии i. Определим матрицу PAM1 как где t - время одной единицы PAM N i - общее количество данной аминокислоты
Итак Пусть частота аминокислот i =N i /N total A tot - общее число элементов в матрице A Вероятность, что данная аминокислота осталась неизмененной за единицу времени PAM1.
PAM1 Значения умножены на , для удобства. Каждый ряд суммируется в m - способность к мутациям (вероятность мутировать >1% или
Экстраполяция модели на большие растояния -- PAM1 матрица вероятностей мутаций. -- PAM2 матрица вероятностей мутаций ? -- Мутации, происшедшие за эволюционное расстояние в две единицы PAM1
В два интервала PAM1: {A R} = {A A and A R} or {A N and N R} or {A D and D R} or … or {A V and V R}
Матрица вероятностей замен PAM- 2
Матрица замен PAM-k
Матрица весов PAM-k
Матрица весов PAM250
Соответствия PAM-k проценту схожести белков PAM6060%, PAM8050%, PAM12040% матрица PAM-250 дает лучший вес выравнивания по сравнению с более низкими версиями PAM для белков со схожестью 14-27%
Построение матриц BLOSUM Blocks Substitution Matrices
Матрицы BLOSUM заданной схожести отбираются последовательности выше порогового значения. Если схожесть равна 62%, окончательная матрица называется BLOSUM62
Пример для 6 аа Так считали PAM Так считают BLOSUM Считаем пары выравненных аминокислот, а не число замен
Пример построения матрицы BLOSUM на основе 4 последовательностей
Построение матрицы BLOSUM. 1. Подсчет пар
2. Cуммирование частот мутаций
3. Матрица мутационных вероятностей.
4. Посчитать избыточность каждого символа (маргинальные вероятности)
5. Получаем матрицу BLOSUM
Построение реальной матрицы BLOSUM62
1.2.3.Таблица частот мутаций
4. Расчет избыточности аминокислот
5. Получение матрицы BLOSUM62
Оригинальная публикация матрицы BLOSUM S. Henikoff and J. Henikoff (1992). Amino acid substitution matrices from protein blocks. PNAS 89: Данные для обучения: ~2000 консервативных блоков из базы данных BLOCKS. Выравненные белковые участки без пробелов. Каждый блок представляет консервативный участок семейства белка.
Выбор матрицы счета
Сравнение матриц счета PAM Основана на экстраполяции последовательностей с малым эволюционным периодом Отслеживает эволюционное происхождение Гомологичные последовательности BLOSUM Основана на последовательностях с разными эволюционными периодами. Консервативные блоки Поиск консервативных доменов