Биоинформатика, или молекулярная биология in silico М.Гельфанд Семинар в ИППИ 7 апреля 2006
Пропаганда 1 красный: статьи синий: последовательности
Анализ индивидуальных генов Поиск родственных белков в банках последовательностей – перенос функции от гомологов Функциональные сайты (каталитические центры) Функциональные участки (трансмембранные сегменты, сигнальные пептиды и т.п.)
Анализ на уровне индивидуальных генов даёт возможность охарактеризовать 50-75% генов в новом геноме Но: ~100 универсально отсутствующих генов (нет ни одного известного гена для известной функции) множество функций, для которых неизвестны представители в больших таксонах в каждом геноме ~5-10% консервативных генов с неизвестной функцией трудно предсказывать специфичность в мультигенных семействах (транспортёры, факторы транскрипции) нельзя найти что-то принципиально новое
Characterized experimentally Hypothetical Function inferred by similarity only Conserved hypothetical How much do we know about the Escherichia coli proteome?
Пропаганда – 2 Полные геномы
Haemophilus influenzae, 1995
Vibrio cholerae, 2000
Сравнительно-геномные подходы Positional clustering Phylogenetic profiling Gene fusions
Metabolic pathways
Functionally dependent genes tend to cluster on chromosomes in many different organisms
More genomes (stronger links) => highly significant clustering
… особенно в линейных путях (справа)
Распределение уровней связи (бимодальное для изоферментов, монотонное для субъединиц)
Phyletic profiles in the Phe/Tyr pathway
Arithmetics of phyletic patterns 3-dehydroquinate dehydratase (EC ): Class I (AroD) COG0710 aompkzyq---lb-e----n---i-- Class II (AroQ) COG y-vdr-bcefghs-uj---- Two forms combined aompkzyqvdrlbcefghsnuj-i enolpyruvylshikimate 3-phosphate synthase (EC ) AroA COG0128 aompkzyqvdrlbcefghsnuj-i-- + Shikimate dehydrogenase (EC ): AroE COG0169 aompkzyqvdrlbcefghsnuj-i-- Shikimate kinase (EC ): Typical (AroK) COG yqvdrlbcefghsnuj-i-- Archaeal-type COG1685 aompkz Two forms combined aompkzyqvdrlbcefghsnuj-i-- Chorismate synthase (EC ) AroC COG0082 aompkzyqvdrlbcefghsnuj-i--
STRING: trpB – fusions
Утилизация пектина E. chrysanthemi
… и транспорт олигогалактуронатов E. chrysanthemi Y. pestis K. pneumoniae
YpaA: транспортёр рибофлавина 5 предсказанных ТМ-сегментов => потенциальный транспортёр регуляторный RFN-элемент => ко- регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: YpaA переносит рибофлавин (генетический анализ, Кренева и др., 2000 ) ypaA регулируется рибофлавином (анализ экспрессии на микрочипах, Lee et al., 2001; прямой эксперимент, Winkler et al., 2002 ).
Метаболическая реконструкция пути биосинтеза лизина: Идентификация пути ацетилированных интермедиатов в B. subtilis и родственных бактериях
Идентификация пути ацетилированных интермедиатов - 0 dapD (yquQ): ортолог известного гена E. coli
Идентификация пути ацетилированных интермедиатов - 1 patA: пиридоксаль-фосфат- зависимая аминотрансфераза (по гомологии) ко-локализуется и ко- регулируется с генами биосинтеза лизина во многих грам-положительных бактериях
Идентификация пути ацетилированных интермедиатов - 2 ykuR: N-ацил-L-аминокислота амидогидролаза (по гомологии) ко-локализуется и ко-регулируется с геном биосинтеза лизина dapD во многих грам-положительных бактериях в некоторых случаях принадлежит к большому лизиновому оперону, регулируемому LYS-элементом
Идентификация пути ацетилированных интермедиатов - 3 dapX: dapF отсутствует у некоторых бактерий (Staphylococcus aureus, Oenococcus oeni, Leuconostoc mesenteroides) во всех этих геномах есть dapX, гомологичный аланиновой рацемазе и другим эпимеразам в S. aureus dapX принадлежит к большому лизиновому оперону в O. oeni оперон dapX-asd регулируется LYS-элементом
Сравнительная геномика систем утилизации цинка Две роли цинка в бактериях: Структурная в ДНК-полимеразах, праймазах, рибосомных белках Каталитическая в протеазах и других белках
Регуляторы и сигналы nZUR- AdcRpZUR TTAACYRGTTAA GATATGTTATAACATATC GAAATGTTATANTATAACATTTC GTAATGTAATAACATTAC TAAATCGTAATNATTACGATTTA
Цинк и паралоги белков рибосом L36L33L31S14 E. coli, S.typhi –– – +– + – K. pneumoniae –– – –– – – Y. pestis,V. cholerae – – – +– + – B subtilis – – + –– + –– +– + – +– + S. aureus – – – –– – – – – +– + Listeria spp. – – –– – – – +– + E. faecalis – – – – – – + –– + – S. pne., S. mutans – – – –– – – –– S. pyo., L. lactis – – – –– – – – – +– + nZUR pZUR AdcR
(в скобках – мотив «цинковая лента») L36L33L31S14 E. coli, S.typhi (–)(–) – ( – ) + – K. pneumoniae (–)(–) – ( – ) – – Y. pestis,V. cholerae ( – ) – ( – ) + – B subtilis (–)(–)( – ) + – ( – ) + S. aureus (–)(–)( – ) – – – ( – ) + Listeria spp. (–)(–)( – ) – – ( – ) + E. faecalis (–)(–) ( – ) – – – ( – ) + – S. pne., S. mutans (–)(–)( – ) – – – (–)(–) S. pyo., L. lactis (–)(–)( – ) – – – ( – ) + nZUR pZUR AdcR
Сводка наблюдений: Makarova-Ponomarev-Koonin, 2001: –L36, L33, L31, S14 – это единственные рибосомные белки, дуплицированные более, чем в одном геноме –L36, L33, L31, S14 – четыре из семи рибосомных белков, содержащих мотив цинковой ленты (четыре цистеина) –Из двух (или более) копий L36, L33, L31, S1, обычно одна содержит мотив цинковой ленты, а другая – нет Среди генов, кодирующих паралоги рибосомных белков, как правило одни регулируется цинковым репрессором, а соответствующий белок никогда не имеет мотива цинковой ленты
Плохой сценарий достаточно цинка недостаточно цинка: весь цинк потреблен рибосомами, ферменты голодают
Хороший сценарий достаточно цинка недостаточно цинка: часть рибосом включает белки, не содержащие цинка – остается для ферментов
Регуляторный механизм ribosomes Zn-dependent enzymes R Sufficient Zn Zn starvation R repressor
Предсказание … (Proc Natl Acad Sci U S A Aug 19;100(17): ) … и подтверждения (Mol Microbiol Apr;52(1): )
Регуляторная система «с нуля под ключ» Консервативный сигнал перед генами рибонуклеотид-редуктаз Потенциальный регулятор (через филогенетический паттерн + домены)
Другие члены регулона Реутилизация дезоксирибонуклеотидов Репликация (ДНК-лигазы, топоизомеразы, ДНК-полимеразы
Как регулируется: репрессия в результате кооперативного связывания
Что осталось за кадром Эукариоты Структуры Молекулярная эволюция –Гены –Геномы –Метаболические и регуляторные системы Другие виды данных и что с ними делать –Экспрессия –Белок-ДНКовые взаимодействия –Белок-белковые взаимодействия –Структура хроматина (метилирование, гистоны и их модификации и т.д.) «Системная биология»