Семейства белков. Мотив и распознающее правило. БД Pfam, InterPro. А.Б.Рахманинова, 2010, второй семестр
Первые же попытки классификации коллекций аминокислотных последовательностей показали существование семейств гомологичных белков консервативных мотивов в негомологичных белках
Мотив ? Мотив в аминокислотной последовательности набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры ( -спираль, - шпилька, -поворот, 4-х-спиральный пучок, ТИМ-баррель). Не в любом выравнивании легко найти мотив!
Словарик Типы мотивовТипы подписей Сайт(site) - Мотив (motif) – Повтор (repeat)– Домен (domain) – ….. Паттерн (pattern) – Профиль–PSSM – Профиль–HМM - ….. CCHC- цинксвязывающий мотив Подпись типа паттерн – CX2CX4HX4C Простой пример:
PROSITE БД белковых доменов, семейств и функциональных сайтов. Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Релиз 20-Apr документов, 1308 паттернов, 886 профилей ProRule Вспоминаем БД PROSITE
БД белковых доменов, семейств и функциональных сайтов. Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Паттерн – регулярное выражение UNIXa: [AC]-x-V-x(4)-{ED} Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu и не Asp) Выравнивание хорошо изучен- ного семейства Функционально важные остатки 4-5 консервативных остатков Паттерн Если находим только«пра- вильные», то ОК Если много лишнего, то увеличиваем паттерн Поиск в UniProt
БД белковых доменов, семейств и функциональных сайтов. Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Позиция Sequence 1A T G T C G Sequence 2A A G A C T Sequence 3T A C T C A Sequence 4C G G A G G Sequence 5 A A C C T G Pos123456Сред. частота A T G C Pos A T G C Pos A T G C Наблюдаемые частоты по позициям Нормализированные значения Переведённые в log 2
PSSM для С2Н2 из Prosite /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=28; /DISJOINT: DEFINITION=PROTECT; N1=3; N2=26; /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1= ; R2= ; TEXT='-LogE'; /CUT_OFF: LEVEL=0; SCORE=441; N_SCORE=8.5; MODE=1; TEXT='!'; /CUT_OFF: LEVEL=-1; SCORE=344; N_SCORE=6.5; MODE=1; TEXT='?'; /DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105; A B C D E F G H I K L M N P Q R S T V W Y Z /I: B1=0; BI=-105; BD=-105; /M: SY='C'; M=-10,-20,118,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /M: SY='E'; M= -5, 3,-24, 3, 6,-22,-11, -6,-20, 1,-21,-14, 4, -1, 1, -3, 5, 2,-18,-29,-15, 3; /I: I=-12; MI=0; MD=-30; IM=0; DM=-30; /M: SY='E'; M= -9, -2,-26, 1, 14,-18,-17, -4,-13, -1,-11, -8, -5,-12, 4, -5, -5, -8,-12,-24, -9, 8; /M: SY='C'; M=-10,-20,119,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-29,-30; /M: SY='G'; M= -3, -1,-28, -1, -7,-28, 36,-11,-33,-11,-27,-18, 4,-15,-10,-12, 1,-13,-27,-24,-23, -9; /M: SY='K'; M=-10, -2,-28, -3, 8,-25,-19, -7,-26, 36,-24, -8, -1,-12, 10, 27, -9, -9,-18,-19, -8, 8; /M: SY='A'; M= 8, -7, -9,-11, -7,-17, -7,-14,-16, -6,-16,-11, -4,-15, -6, -5, 8, 4, -7,-27,-15, -7; /M: SY='F'; M=-19,-29,-19,-37,-28, 71,-29,-17, 0,-28, 9, 0,-20,-30,-36,-19,-19, -9, -1, 9, 31,-28; /M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 99,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 20, 0; /M: SY='Q'; M=-10,-10,-25,-12, 1,-16,-22, -2, -6, 1, -3, 6, -9,-17, 13, 3, -9, -8, -9,-19, -4, 6; /M: SY='R'; M=-13, -8,-26, -9, 0,-19,-19, -4,-21, 20,-16, -6, -2,-17, 6, 35, -8, -7,-14,-21, -9, 0; /I: I=-12; MI=0; MD=-29; IM=0; DM=-29; /M: SY='V'; M= -3,-16,-17,-21,-17, -6,-25,-20, 11,-15, 2, 3,-12,-18,-14,-14, -2, 9, 13,-25, -7,-17; /M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 97,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 19, 0; /I: E1=0; C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H Встречается в ProSite и PsiBlast
Профиль HMM P 12 P 23 P 34 P 45 P 12 P 23 P 34 P 45 СтартФиниш Наблюдаемые состояния Спрятанные состояния HMM вероятностная модель. HMM допускает возможность вставок и делеций. Хорошо подготовленная HMM может быть использована для поиска далеких гомологов. Используется также для классификации белков, для определения доменов, для предсказания генов и промоторов, для предсказания трансмембранных участков белков….
Домен – единица эволюции, структуры и функции белков. Структурный домен – компактная, относительно независимо сворачивающаяся структура. Домен в последовательности – относительно консервативная в процессе эволюции последовательность. Белки могут состоять из одного или многих доменов. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Малые мотивы могут и не входить в домены. nitrogen fixation positive activator protein Домен
Домены, найденные в последовательностях, часто, но далеко не всегда совпадают со структурными доменами.
25 белков 9 белков 2 белка 12 белков 223 белка 243 белка 507 белков ЕС ЕС ЕС Почему это интересно? Примеры доменных перестроек
Pfam Большая коллекция семейств доменов Для каждого семейства есть множественное выравнивание и профиль- HMM. Состоит из 2-х частей: PfamA – курируемая часть, покрывает 76% UniProt PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов, не вошедших в PfamA (раньше – ProDom, теперь – ADDA). Удобна для анализа доменной структуры белков.
Язык Pfam : Семейство – коллекция гомологичных белков. Домен – структурная единица, которую можно найти во множественном выравнивании. Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий. Мотив – короткая единица структуры вне глобулярных доменов. Клан – группа родственных записей.
Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Сравнение
Создание интегрированной базы данных InterPro InterPro entries IPR IPR Интегрирование родственных подписей «вручную» PROSITE PFAM PRINTS ProDom SMART TIGRFAMs PIRSF SUPERFAMILY InterPro- an inte grated r esource of pro tein families, domains and functional sites.
Entry types in InterPro Family group of evolutionarily related proteins, that share one or more domains/repeats in common. Domain independent structural unit which can be found alone or in conjunction with other domains or repeats. Repeat region occurring more than once that is not expected to fold into a globular domain on its own. PTM (post-translational modification) The sequence motif is defined by the molecular recognition of this region in a cell. Active site catalytic pockets of enzymes where the catalytic residues are known. Binding site binds compounds but is not necessarily involved in catalysis.
Осторожно: белковое семейство….. Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение. Аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру. Мнения расходятся, когда речь идет о критериях: насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства иметь в точности одну и ту же доменную структуру? Superfamily Family Subfamily Не корректнее ли говорить о семействах доменов?