Семейства белков Pfam Rubens: Holy Family with St Elizabeth
Что такое семейство?
Родство белков Последовательность? Структура? Функция?
Гомология и аналогия Гомология белков родство (общность происхождения) белков, которое можно установить по сходству последовательностей, иногда - структур Аналогия
Гомология аминокислотных остатков Кодоны происходят из одного и того же кодона общего предка белков напрямую проверить нельзя! можно угадать по сходству последовательностей участков полипептидной цепи, содержащих остатки При совмещении структур C_alpha атомы расположены рядом нужны 3D структуры, а их мало свои проблемы (подвижность частей белков, например) Одинаковая роль остатков в структуре и функции белка нужны эксперименты и/или структура
Как установить консервативность участка множественного выравнивания Критерии не являются законом природы или юридическим законом Приведены ориентиры из личного опыта. Можно говорить о консервативности и предположительной гомологичности, если длина участка во множественном выравнивании не менее 4-5 остатков! Критерии сходства зависят от длины участка: – длина 4 – все позиции функционально консервативны – длина 5 – не менее 3х функционально консервативных позиций, нет символов пропуска - – длина 10 – не менее 50% функционально консервативных позиций, нет символов пропуска - или есть не более, чем в одной колонке – длина 100 – содержит, по крайней мере, несколько коротких консервативных участков
Выравнивание – способ выявления гомологичных остатков Красным выделены консервативные и функционально консервативные остатки Множественное выравнивание гомеодоменов
Пример выравнивания
Определение 1. Белки гомологичны, если содержат гомологичный участок
Пример 1: гомеобелки Белки гомологичны или нет?
Пример 2: триптофансинтазы Выравнивание продолжается на следующем слайде
Пример 2. Белки гомологичны или нет?
Пример 3: регуляторы транскрипции семейства Ars Белки гомологичны или нет? Выравнивание участков и (середина выкинута!) Белки гомологичны или нет?
Как описать то, что обнаруживается в трех примерах?
Эволюционный домен белка – это консервативный фрагмент его последовательности. Точнее – см. следующий слайд. Совокупность фрагментов называется семейством доменов, или просто доменом. С каждым доменом (семейством) связаны: - название - идентификаторы - набор сходных фрагментов последовательностей белков и их выравнивание - аннотация домена - способ идентификации домена в последовательности (паттерн, профиль)
Как найти домен Для нахождения домена нужно собрать все последовательности, имеющие общий консервативный участок и построить выравнивание например, с помощью паттерна более прогрессивная технология – т.н. профили Доменом называется достаточно длинный консервативный участок в выравнивании, выделяющийся на фоне неконсервативных участков достаточно длинный – например, более 20 остатков; строгой границы нет Подтверждением того, что домен выделен правильно, служит наблюдение явления перетасовки доменов. nitrogen fixation positive activator protein Пример белка со сложной доменной архитектурой
Гомеодомены активно перемешивались в эволюции. Об этом можно судить по 125 различным доменным архитектурам гомеобелков, представленным в банке Pfam Гомеодомен Парный домен и гомеодомен Lim домены и гомеодомен Гомеодомен, продолженный лейциновой молнией POU домен и гомеодомен Два гомеодомена PBX-домен и гомеодомен
Примеры перетасовки доменов (domain shuffling) 25 белков 9 белков 2 белка 12 белков 223 белка 243 белка 507 белков
Определение 1. Белки гомологичны, если содержат гомологичный участок Определение 2. Фрагменты последовательностей белков, принадлежащие одному семейству доменов, гомологичны Белки, имеющие одинаковые домены идущие в одинаковом порядке, гомологичны Говорят также о гомологичности белков по основному – несущему основную функцию белка - домену
Эволюционные домены часто, но не всегда совпадают со структурными доменами.
Домены часто, но не всегда, имеют одинаковую функцию. Например: – HTH_5 - ДНК- связывающий домен ряда транскрипционных факторов – TrpA – цепочка А триптофансинтазы – Homeobox, он же гомеодомен, – ДНК- связывающий домен множества эукариотических транскрипционных факторов
Словарик Сайт – чем-либо знаменитый набор остатков остатки сближены в структуре, но не обязаны идти подряд в последовательности например, сайт связывания ДНК например, сайт связывания иона кальция Мотив – короткий консервативный участок короткий – меньше 20 (это не мировая константа!) Домен (эволюционный) Повтор – повторяющийся в данной последовательности мотив или домен Клан – набор семейств доменов, предположительно, родственных, но таких, что стандартными методами построения выравниваний родство доказать не удается
Базы семейств доменов Pfam Prosite Prints SMART Superfamilies Prodom TIGERFAM Interpro
Pfam Большая коллекция семейств доменов Для каждого семейства есть множественное выравнивание и профиль-HMM. Состоит из 2-х частей: PfamA – курируемая часть, покрывает 76% UniProt PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов, не вошедших в PfamA (раньше – ProDom, теперь – ADDA). Удобна для анализа доменной структуры белков.
Язык Pfam : Семейство – коллекция гомологичных белков. Домен – структурная единица, которую можно найти во множественном выравнивании. Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий. Мотив – короткая единица структуры вне глобулярных доменов. Клан – группа родственных записей.
Какая информация закодирована в картинке доменов белка Прямоугольники с закругленными краями – найден домен целиком. Край прямоугольника зубчатый – найден только фрагмент домена, за зубчиками домен не продолжается, хотя должен был бы быть. Прямоугольник с острыми краями – мотив, трансмебранный участок, участок малой сложности (например, десять остатков A) и т.п. – не является эволюционным доменом! Цветная полоска – домен из PfamB, т.е. найденные программой, автоматически выровненные, но не проанализированные экспертом, сходные по последовательности фрагменты разных белков. Домен, имеющий ID вида DUF… с номером - Domain of Unknown Function
Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Сравнение
Домен внутри другого домена! В нижней последовательности – всего 2 домена из PfamA плюс домен из PfamB (разноцветная полоска). Домен Hom_end встроен внутрь домена Hom_end_hint. Это значит, что если из нижней последовательности вырезать фрагмент от начала зеленого до конца второго зеленого а потом удалить красный кусочек и склеить то, что осталось, то полученная последовательность целиком гомологична зеленому фрагменту из верхней последовательности.
Создание интегрированной базы данных InterPro InterPro entries IPR IPR Интегрирование родственных подписей «вручную» PROSITE PFAM PRINTS ProDom SMART TIGRFAMs PIRSF SUPERFAMILY InterPro- an inte grated r esource of pro tein families, domains and functional sites.