Cравнение биологических последовательностей А.Б.Рахманинова, 2008
Biologists must constantly keep in mind that what they see was not designed, but rather evolved. It might be thought, therefore, that evolutionary arguments would play a large part in guiding biological research, but this is far from the case. Francis Crick What Mad Pursuit (1988) pp «Копирование с модификацией» центральная парадигма эволюции, в которой новые белки и/или новые биологические функции моделируются из имевшихся ранее.» (Д.Гасфильд, 2003)
Пути эволюции последовательностей
Точечные мутации Молчащая мутация Замена аминокислотного остатка Терминация (обрыв цепи) Сдвиг рамки считывания
Дупликации «удачных» вариантов один из важнейших путей эволюции Равный кроссинговер Неравный кроссинговер
25 белков 9 белков 2 белка 12 белков 223 белка 243 белка 507 белков ЕС ЕС ЕС Перемешивание и дупликация «удачных» доменов
Пути эволюции последовательностей В основе случайное изменение нуклеотидной последовательности ДНК: –точечные замены, –дупликации, –рекомбинации. Давление естественного отбора направлено на функциональные свойства последовательности, например, на свойства кодируемого белка или на свойства регуляторного участка ДНК. Разные изменения нуклеотидной последовательности гена в разной степени влияют на функциональные свойства кодируемого белка.
Основные задачи биоинформатики Автоматическая аннотация геномов Похожие последовательности имеют похожие структуры и сходные функции Обратное – неверно! Реконструкция филогенетических деревьев ……..
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность разные другие соображения… Основные понятия биоинформатики
Гомологи Ортологи Паралоги Ксенологи ? ( W.M.Fitch, Syst.Zool.19,99(1970) Основные понятия биоинформатики
Ортологи последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции. Основные понятия биоинформатики
«Идеальное» выравнивание – запись последовательностей одной под другой так, чтобы гомологичные фрагменты оказались друг под другом. домовой скупидом водомерка ? лесовоз---лесо---воз ледоходлед---оход--- ? Гэп – пропуск в последовательности
Гэп – пропуск в последовательности Задача выравнивания последовательностей часто сводится к задаче поиска сходства. Сходство не то же, что гомология !
Выравнивание на основе сопоставления пространственных структур Этим Ca-атомам в «синей» структуре ничего не соответствует в «зелёной» ? Большая часть остатков двух цепей соответствуют друг другу. Соответствие в данном случае определяется хорошим наложением структур в пространстве.
Бывает и такое…. (пример структурного выравнивания)
Гэп – пропуск в последовательности Задача выравнивания последовательностей часто сводится к задаче поиска сходства. Сходство не то же, что гомология !
# Matrix made by matblas from blosum62.iij # * column uses minimum score # BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Blocks Database = /data/blocks_5.0/blocks.dat # Cluster Percentage: >= 62 # Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X *
Основные понятия науки о выравниваниях Гэп (пробел) – несовпадение в последовательностях, обусловленное или вставкой а.о. в одной последовательности или делецией в другой. Гэп (пропуск) – непрерывная последовательность пробелов. Простой штраф за пропуск – сумма штрафов за каждый пробел. Аффинный штраф подразумевает большой штраф за открытие пропуска и минимальный за его удлинение на каждый следующий пробел. Вес выравнивания – вычисляется как сумма весов колонок: сумма весов совпадений и замен, а также штрафов за пропуски. Для определения весов совпадений и замен используют матрицы замен
AAAЕQAAAAA AACАDEAQAА Что лучше? AA-A-Е-QAAAAA AA-AЕQAAAAA * * * * * * * * * * * * * * * AACАDEAQAAA-- AACАDEAAAA-
«...трудно осознать, как бы мы управились без техники работы с последовательностями. Биология уже никогда не будет такой, как прежде.» С.Оливер о работе по расшифровке генома дрожжей, цит. по Д.Гасфельду, 2003, стр.265