Биоинформатика: биологические тексты М.С.Гельфанд 29 октября 2006 Первый фестиваль науки МГУ Факультет биоинженерии и биоинформатики
Расшифрован геном!
Расшифрован ли геном? Перехватить зашифрованное сообщение – еще не значит его понять
Фрагмент генома (0.1% генома E. coli) Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
Фрагмент генома (0.0001% генома человека) Геном человека: нуклеотидов Примерно 25 тысяч генов, < 5% генома кодирует белки
Что же мы хотим понять? Где –картировать гены в геноме и определить аминокислотные последовательности кодируемых белков Что –предсказать функции генов (кодируемых белков) Когда –описать регуляцию генов, зависимость экспрессии от внешних условий и внутреннего состояния клетки Где – 2 –определить локализацию белка в клетке (или вне её) Таблица генетического кода
Пропаганда Проблемы: нет возможности исследовать все экспериментально Возможности: можно использовать методы сравнительной геномики –> 1000 геномов бактерий (~400 полных) –простейшие: малярийный плазмодий, инфузория, лейшмания, … –растения: арабидопсис, тополь, рис –пара дюжин дрожжей и другие грибы –насекомые: дюжина дрозофил, комар, пчела, … –позвоночные: человек, шимпанзе, мышь, крыса, собака, курица, 2 рыбы, … последовательности статьи
Поиск генов если известен белок: просто
… или родственный белок: тоже просто
Статистические особенности Отличия в частотах олигонуклеотидов в кодирующих и некодирующих областях Стартовые кодоны GenMark
Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG
Участок связывания рибосом dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG
Сравнение генов в родственных геномах Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие)
Мораль Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)
Как предсказывать функции Белки, похожие по последовательности, имеют сходные функции Если нет родственных белков с известной функцией, то: –предсказав структурные особенности, можно определить функциональный класс –изучение геномного контекста позволяет отнести белок к функциональной подсистеме
Метаболический путь биосинтеза рибофлавина (витамина В 2 )
Консервативная последовательность перед генами рибофлавинового пути
… и еще перед одним геном (ypaA) цветные стрелки – гены пути желтые стрелки – ypaA, ген с неизвестной функцией черные стрелки – регуляторный элемент
YpaA: транспортёр рибофлавина 5 предсказанных ТМ-сегментов => потенциальный транспортёр регуляторный RFN-элемент => ко-регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника S. pyogenes, E. faecalis, Listeria spp.: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: YpaA переносит рибофлавин (генетический анализ, Кренева и др., 2000) ypaA регулируется рибофлавином (анализ экспрессии на микрочипах, Lee et al., 2001; прямой эксперимент, Winkler et al., 2002).
Молекулярная эволюция После расхождения видов изменения в генах накапливаются почти случайно => гены в близких видах более похожи, чем в далеких => степень различия генов можно использовать для датировки расхождений
Молекулярная палеонтология: как видели динозавры
Таксономическое дерево
Реконструированный белок и его свойства
Не только тексты Можно использовать данные, которые порождаются другими типами массовых экспериментов Уровень экспрессии: –Концентрации мРНК –Концентрации белков –Время жизни мРНК и белков Взаимодействия: –Белок-ДНКовые –Белок-белковые Структура генома –Метилирование ДНК –Положение и модификация нуклеосом Функционально-генетические –Летальность мутаций –Фенотип –Синтетические летали
Графы белок-белковых (структурных, сигнальных и др.) и белок-ДНКовых (регуляторных) взаимодействий в дрожжах
Экспрессия (уровень работы) генов Цикл развития малярийного плазмодия
Биоинформатика Биоинформатика – это биология in silico Кто этим занимается: –биологи, математики, физики, химики –… биоинформатики Хорошая биоинформатика связана с биологией –обработка результатов –проверка предсказаний –в хороших современных проектах эти шаги повторяются несколько раз, начиная с этапа планирования
Происхождение жизни