Предсказание мембранной разметки альфа-спиральных мембранных белков Роман Сутормин
Примерный план Мембранные белки Методы предсказания мембранной разметки Дальнейшее развитие
Мембранные белки Бета-слойные белки составляют около 10% всех мембранных белков.
Функции транспорт строительного материала запасание энергии, создание перепада концентраций вдоль мембраны передача сигналов между клетками преобразование энергии света (в бактериях) сортировка белков между отделами клетки и т.д. вывод продукта из клетки, …
[транс-] мембранность Геномы Кол-во белков (NCBI) Предсказ. как мембранные, Pedant System Классифицир. как трансмембранные, Saier-Paulsen Escherichia coli K (24%)351 (8.3%) Bacillus subtilis (28%)290 (7.1%) Mycoplasma genitalium G (29%)26 (5.4%) Buchnera sp APS (21%)14 (2.5%) Drosophila melanogaster (34%)639 (4.5%) Homo sapiens NCBI (21%)805 (2.0%) Pedant System - Saier-Paulsen classification -
PDB PDB: количество мембранных белков – около 1,6% всех белков, количество бета-слойных белков – около 20% всех мембранных. (информация взята с ресурса PDBTM)
Задача предсказания Метод предска- зания Реальные мембранные сегменты Предсказанные мембранные сегменты 1)однозначное соответствие сегментов 2)соответствие положений в каждой паре Критерий правильности предсказания разметки Качество предсказания: 1 - правильно 0 - нет Задачу поставили Kyte и Doolittle еще в 1982 Оценка качества = усреднение по известным белкам
Зачем пространственная структура информация для понимания метаболических путей предсказание функции по структуре улучшение гомологического поиска
Сравнение качества ConPredENSEMBLERostTHUMBUP Усреднени е MEMSAT65,272,8-81,073,0 HMMTOP63,872,966,073,068,9 TMHMM60,971,972,068,068,2 PHDhtm-67,0 - PRED-TMR--58,0- TMAP45,7--67,056,4 SOSUI59,4-49,0-54,2 DAS34,8-39,0-36,9 Различные критерии соответствия сегментов: ConPred – расст. между центрами предск. и действит. сегмента =9 остатков Rost - перекрывание предск. и действ. сегментов >=3 остатков THUMBUP - перекрывание предск. и действ. сегментов >=5 остатков
Метод DAS Карта локальных выравниваний RReM – матрица весов пар аминокислот, отражающая перепредставленные пары в белковой последовательности на расстоянии 10 аминокислот. Анализируемый белок Библиотечный белок (Dense Alignment Surface) Аккомулированные весовые профили усредняются по всем библиотечным белкам. Мембранные сегменты - области, где профиль больше парога.
Метод SOSUI Карта разделения Гидрофобность Амфифильность слабо полярные (Trp, Ter) сильно полярные (Lys, Arg, His, Glu, Gln)
Метод TMAP Для 7756 сегментов, описанных в SwissProt как FT TRANSMEM взяты (-15,+15) области вокруг средних позиций. Алгоритм для выравнивания: 1) для каждой позиции каждой последоват-ти вычисл. P m и P e как среднее по окну длиной 15 и 4; 2) для каждого столбца вырав-я P m и P e усредняются в соотв. с весом последовательности 3) 8 подряд идущих столбцов с P m больше 1.23 – кандидат для TM 4) на краях кандидатов добавл-ся столбцы, где P m >1.17 5) точное положение краев устанавливается там, где P e >1.08 6) очень длинные сегменты разрезаются и т.д. – величины propensity
Метод PRED-TMR - величины propensity аминокислот в мембране похожи на TMAP - на краях propensity вычисляется отдельно для каждой позиции Применяется жадный алгоритм, находящий сегменты с наибольшим весом. Вес сегмента, длины l начинающегося с k-ой позиции.
Метод PHDhtm Query Sequence Nonoptimized Filtering (длинные сегменты разрезаются, короткие – удаляются или склеиваются)
Метод TMHMM, часть 1 (от TransMembrane HMM, где HMM = Hidden Markov Model) -N-I-E-T-L-L-F-M-V-A-V-W-S-W-W-G-R-T-Y- -l-l-l-l-m-m-m-m-m-m-m-m-m-m-m-l-l-l-l- m l L-L-F-M-V-A-V-W-S-W-W / \ -N-I-E-T G-R-T-Y- p ij – вероятности переходов между состояниями b s (a) – вероятности символов в состояниях - Алгоритм (Баума-Велча) обучения по размеченным последоват-ям; - Алгоритм (Витерби) максимизации вероятности по разметке.
Метод TMHMM, часть 2 Схема скрытой марковской модели: Каждая из трех петель: Каждый из двух мембр. сегментов:
Метод HMMTOP
Метод MEMSAT Устроен очень схожим с HMM образом. Исп. схожий с HMM граф динамического программирования (ДП). Модель включает 5 состояний: - внешняя петля, - внутренняя петля, - внутр. часть TM-сегмента - средняя часть - внешняя часть Есть веса букв в каждом состоянии и штрафы за смену состояний. Метод работает с частотным профилем множественного выравнивания, и есть локальный вариант, где можно его задать.
Разработан метод FwdBck Был разработан метод, совмещающий преимущества: - HMM - дополнительная эволюционная информация (множественное выравнивание) В основе лежит не алгоритм Витерби поиска наилучшей разметки (как TMHMM и HMMTOP), а алгоритм Forward-Backward. m l L-L-F-M-V-A-V-W-S-W-W / / \ -N-I-E-T-L G-R-T-Y- Можно оценить вероятность данной буквы находиться в каждом состоянии не зависимо от остальных букв.
FwdBck, продолжение Схема TMHMM + Работа с частотным профилем (множ.выр.), делеции усиливают петлевой частотный фон (т.к. в мембранных сегментах делеций мало) Алгоритм Forward-Backward
Тестовая выборка Задача: Структурные выравнивания мембранных белков + TM сегменты 1)Взяли 442 мембранных белка (+ структуры) с PDBTM; 2)Проcеяли дубли по правилу identity20 белков; 5)Для каждого из 11 кластеров (55 белков) проделали структурное выравнивание (алгоритм MAMMOTH); 6)Для каждого из 55 белков по структуре установили TM-сегменты (алгоритм TMDET); 7)Чтобы избежать ошибок в определении положения мембраны вокруг белковой структуры по краям предсказанной мембраны были введены области толщиной 5 ангстрем; 8)На выравниваниях построены TM-ядра (если в столбце 60% букв лежат в мембране, то столбец – мембранный.
Тестовая выборка (2 часть) Типичная картина TM-ядер в кластерах: TM-ядра выделены рамочкой, K – аминокислоты в 5-ти ангстремных слоях на поверхности мембраны, V – аминокислоты внутри мембраны. Точками выделены столбцы, выравниванию в которых можно доверять. Некоторые ядра были изъяты (если они не покрыты точками на 60% или если длина
Проверка качества Проверялось качество трех методов предсказания: - MEMSAT - FwdBck (разработанный нами) - HMMTOP, результаты усреднялись по выравниванию Критерий: пара сегментов соответствия пересекается хотя бы по 7-ти аминокислотам. (Если предсказанный сегмент не покрывался на 60% точками достоверных столбцов, то он не рассматривался). Результаты MEMSAT: 0.82 FWDBCK: 0.91 HMMTOP: 0.73