Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова
Повторяем… Зачем строят выравнивания аминокислотных последовательностей? Данные: новая последовательность Биологические задачи: Предсказание функции, а.к. остатков в «активном центре» Предсказание 3D-структуры Реконструкция эволюции Общий подход к решению оценка сходства последова- тельностей: Выбор алгоритма и программы Построение выравнивания Анализ выравнивания
Какое выравнивание интереснее?
Повторяем… Какие бывают выравнивания аминокислотных последовательностей? Выравнивания парные множественные глобальныелокальные глобальныелокальные классический алгоритм Нидельмана-Вунша, см. needle из EMBOSS, алгоритм Маейрса- Миллера, см. stretcher из EMBOSS ……… классический алгоритм Смита-Ватермана, см. matcher, water из EMBOSS …….. Динамическое программирование Carillo& Lipman, см MSA Эвристические алгоритмы прогрессивного выравнивания, см. ClustalX, emma в EMBOSS, muscle, T-Coffee, ……. Dialign, ProDA
Какие выравнивания строит программа BLASTP? BlastP (Basic Local Alignment Search) – программа для быстрого поиска в БД последовательностей, похожих на заданную. Программа строит локальные выравнивания, но не гарантирует, что это будут оптимальные выравнивания!
Зачем нужны множественные выравнивания?
Построение парного выравнивания по алгоритму Нидельмана- Вунша (пример из упр. студента ФББ) Можно найти самое лучшее выравнивание за время t seq1: MA-RR seq2: CADRQ при условии,что вес совпадения: 2 вес замены: -1 штраф за делецию: -2 В чем проблема? Построение множественного выравнивания N последовательностей t =L N !!!
Алгоритм ClustalW – пример эвристического прогрессивного алгоритма Руководящее дерево Очевидные недостатки: 1)Результат зависит от порядка выравниваний; 2)«один раз гэп – всегда гэп»
Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод. muscle (программа установлена на kodomo) – быстрее и немного точнее. T-COFFEE – заметно точнее, но существенно медленнее
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Biologists must constantly keep in mind that what they see was not designed, but rather evolved. It might be thought, therefore, that evolutionary arguments would play a large part in guiding biological research, but this is far from the case. Francis Crick What Mad Pursuit (1988) pp
Мутации, рекомбинация, …. ?
Точечные мутации и их последствия ATAAAGGTCCTGATAAAG GT A CTG «молчащая» мутация IleLysValLeuIleLysValLeu ATAAAGGTCCTGATAAAG T T TC CTG замена а.к.остатка IleLysValLeuIleLysPheLeu ATAAAGGTCCTGATA T T AG GTCCTG терминация трансляции IleLysValLeuIleTer ATAAAGGTCCTGATAAAGTCCCT сдвиг рамки IleLysValLeuIleLysSer
Геномные перестройки: рекомбинации, транспозиции Следствие 1 - дупликации Кластер –глобинов в 16-ой хромосоме человека Кластер –глобинов в 11-ой хромосоме человека
Геномные перестройки: рекомбинации, транспозиции Следствие 2 – перемешивание (перетасовка) доменов 223 белка 243 белка 507 белков 25 белков 9 белков 2 белка 12 белков
Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белок может состоять из одного или многих доменов. nitrogen fixation positive activator protein
Вернемся к дупликации… Эволюция глобинов
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность разные другие соображения…
Гомологи Ортологи Паралоги Ксенологи ? ( W.M.Fitch, Syst.Zool.19,99(1970)
Ортологи последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.
Гэп – пропуск в последовательности Задача выравнивания = задача поиска сходства. Сходство не то же cамое, что гомология !
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры ( - спираль, -шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.
Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?
Пример простого мотива Алкогольдегидрогеназа 6 (человек) : GHEgAGIvesiGegV Алкогольдегидрогеназа класса 3 (рис) : GHEaAGIvesvGegV Алкогольдегидрогеназа, специфичная к пропанолу (кишечная палочка) : GHEgIGVvaevGpgV Распознающее правило типа «паттерн»: G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC] Паттерн – регулярное выражение UNIXa: Например, выражение [AC]-x-V-x(4)-{ED} читается как Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)
Более сложное распознающее правило – PSSM. Какая а.к. последовательность будет иметь максимальный вес по этому профилю? A C D E F G H I K L M N P Q R S T V W Y
Pfam Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей: PfamA – курируемая часть, покрывает 74% UniProt PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков.
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Типичные задачки Описать доменную архитектуру заданной последовательности Сравнить доменную организацию нескольких белков Получить множественное выравнивание полных последовательностей заданной выборки, выделить консервативные позиции. *Сравнить множественные выравнивания, полученные с помощью разных инструментов. Получить множественное выравнивание определенных доменов белков заданной выборки, выделить консервативные а.о. Найти на множественном выравнивании возможный мотив. *Создать распознающее правило для найденного мотива и найти белки, удовлетворяющие этому правилу. Проверить, не соответствует ли найденный вами мотив уже известному мотиву. *Определить степень консервативности какого-либо остатка в заданном белке (например, степень консервативности остатков, контактирующих с лигандом)