Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми цепями аминокислот. Что можно делать: Вычисление физико-химических параметров белка Предсказание продуктов расщепления протеазами Гидрофобные, гидрофильные участки: например, трансмембранные сегменты Пост-трансляционные модификации Функциональные домены, принадлежность к функциональным семействам
Компьютерный анализ белковой последовательности … и где это можно делать: The ExPASy server – протеомика The Swiss EMBnet – coiled-coil участки, выравнивания и др. биоинф. анализ The CBS Prediction Servers – локализация, пост-трансляционные модификации…
Программы для предсказания физико-химических параметров белка: ProtParam
ProtParam
Molecular weight (не учитывает пост-трансляционных модификаций) Аминокислотный состав Теоретическая pI Extinction coefficients (280 nm) (не учитывает пространственных взаимодействий аминокислот) Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo; N-terminal rule) Алифатический индекс Grand average of hydropathicity (GRAVY) гидрофильность – (-), гидрофобность – (+)
Compute pI/Mw Выбирается участок белка (или весь белок), для него вычисляются теоретическая pI и молекулярный вес
Простейшие программы по вычислению параметров: PeptideMass Можно учитывать или не учитывать пост-трансляционные модификации для белков из Swiss-Prot, а также полиморфизмы, AS изоформы и конфликты
PeptideMass - output
PeptideCutter Для трипсина и хемотрипсина можно выбрать другую модель, в которой будет посчитана вероятность расщепления по каждому остатку
PeptideCutter - output
Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV Window 1 Window 2 Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: Учитывать только очень четко выраженные сигналы Не зависящие от параметров программы – размера окна, конкретного метода и т.п.
56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна Предсказание трансмембранных сегментов: ProtScale
ProtScale - output Правильный порог для метода – 1.6. Здесь находит не все
Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb ( ); PRED-TMBB ( TBBPred ( )
TMHMM - результаты TMHMM предсказывает сегменты, а также топологию межсегментных участков Находит только 7! TMs
Домены Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?
История коллекций доменов 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена начало 1990х – BLOCKs, PRINTs, Prodom… PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)
3 сервера для поиска доменов InterProScan CD (Conserved Domain) server (NCBI) wrpsb.cgi Pfscan
InterPro InterPro is a database of protein families, domains and functional sites in which identifiable features found in known proteins can be applied to unknown protein sequences. Классификация базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt
Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документация IP семейства подробно описывает функцию и структуру соответствующей белковой подписи.
Поиск доменов: InterProScan
InterProScan - результаты
Table View
CD server Input - Accession number, gi или последовательность в FASTA формате
CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена
CDART – поиск белков с аналогичной доменной структурой
Pfscan Как правило, работает несколько минут
Pfscan - output
Особенности вывода Pfscan Схема – легенда, как всегда под рисунком За легендой следует таблица с локализацией доменов Далее расшифровка каждого хита – с оценкой вероятности: ? или ! Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)
Match detail (или графическая схема)