ТВ-биология (Отрывок, взгляд и нечто) М.С.Гельфанд 23 января 2009
Экспоненциальный рост объема данных красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) из 18 миллионов ссылок, ~675 тыс. отвечают на bioinformat* OR comput* 16 тыс. bioinformat* 65 тыс. bioinformat* OR computat*
622 полных генома (прокариот)
Фрагмент генома (0.1% генома E. coli) Геном бактерии: несколько миллионов нуклеотидов (сотен тысяч у облигатных паразитов и эндосимбионтов) От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
Фрагмент генома (0.0001% генома человека) Геном человека: нуклеотидов Примерно 25 тысяч генов, < 5% генома кодирует белки
Не только тексты Другие типы массовых экспериментов: Транскриптомика –«выстилающие массивы»: полная карта транскриптов –уровень экспрессии и время жизни мРНК –ДНК-белковые взаимодействия Протеомика –концентрации белков –белок-белковые взаимодействия, белковые комплексы –структуры белков Эпигенетика –метилирование ДНК –положение и модификации нуклеосом Генетика –летальность мутаций –фенотипы –синтетические летали
Экспрессия (уровень работы) генов Цикл развития малярийного плазмодия
Развитие цветка резухи Таля двойная кластериза- ция – на генах и на условиях
Графы белок-белковых (структурных, сигнальных и др.) и белок-ДНКовых (регуляторных) взаимодействий в дрожжах
Цель (локальная): аннотировать гены / белки in silico Что? –(биохимическая) функция –клеточная роль Когда? –Регуляция Экспрессия Время жизни (мРНК, белка) Где? –Локализация Внутри/снаружи Органеллы и компартменты Как? –Механизм Специфичность, регуляция Наиболее важные предсказания затем проверяются экспериментально
Биологический ликбез регуляторные участки ген ДНК белок транскрипция трансляция РНК
Translation
Elongation
Polysomes
Распознавание генов
Таблица генетического кода
Поиск генов если известен белок: просто
… или родственный белок: тоже просто
Генетический код: стоп-кодоны
Открытые рамки считывания Ген должен располагаться внутри области от стоп- кодона до следующего стоп-кодона (в той же фазе)
Сильное перепред- сказание (Aeropyrum pernix)
Генетический код: синонимы
Codon usage (статистика употребления кодонов) частоты кодонов отличаются от частот триплетов в некодирующих областях –различия в частотах аминокислот в белках –различия в частотах синонимичных кодонов частоты синонимичных кодонов –специфичны для генома –коррелируют с концентрациями тРНК
GenMark, окно 96 нт
Генетический код: старт-кодоны
Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG
Участок связывания рибосом dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG
Сравнительный анализ (один и тот же ген в нескольких геномах) Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие)
rbsD в E. coli Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
rbsD в энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
rbsD в энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
Мораль Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)
Идеология Сходство => гомология (общность происхождения) Гомология => сходная функция Принцип Пирсона: консервативно то, что важно –функциональные мотивы в белках –регуляторные сайты в ДНК –не обязательно последовательности структура белка и РНК расположение генов на хромосоме ко-экспрессия генов
Метаболические пути
Метаболизм аргинина и пролина
Предсказание функции по сходству с уже известными генами Анализ на уровне индивидуальных генов даёт возможность охарактеризовать 50-75% генов в новом (бактериальном) геноме Но: ~100 универсально отсутствующих генов (нет ни одного известного гена для известной функции) множество функций, для которых неизвестны представители в больших таксонах в каждом геноме ~5-10% консервативных генов с неизвестной функцией трудно предсказывать специфичность в мультигенных семействах (некоторые классы ферментов, транспортёры, факторы транскрипции) Скучно: нельзя найти что-то принципиально новое
Сравнительная геномика и метаболическая реконструкция Метаболическая реконструкция Идентификация пробелов Позиционный анализ (гены и домены) Анализ филогенетического распределения Анализ регуляторных сигналов Отнесение генов к функциональным и метаболическим системам Уточнение специфичности
Функциональный анализ транспортеров Предсказание общей функции –гомология –анализ трансмембранных сегментов Отнесение к функциональной подсистеме (метаболическому пути) –ко-локализация –ко-регуляция Предсказание специфичности –анализ филогенетического профиля конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует
Расстояние между генами (реакциями) «в промежуточных метаболитах» Функционально-зависимые гены (элементы одного пути) во многих геномах располагаются рядом «Геномная ассоциация» - мера позиционной кластеризации для пары генов (гены находятся рядом в большом числе геномов)
Больше геномов (более сильные связи) => более значимая корреляция
Метаболический путь синтеза рибофлавина (витамин В2)
Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий
Консервативная вторичная структура RFN-элемента Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion
Attenuation of translation SD-sequestor The RFN element Antisequestor
Attenuation of transcription Terminator The RFN element Antiterminator
RFN: the mechanism of regulation Transcription attenuation Translation attenuation
YpaA/RibU: транспортёр рибофлавина 5 предсказанных ТМ-сегментов => потенциальный транспортёр регуляторный RFN-элемент => ко- регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: генетический анализ ( Кренева и др., 2000) биохимический эксперимент ( Burgess et al., 2006)
Регуляция транскрипции в прокариотах
Структура ДНК-связывающего домена (cI)
регуляция транскрипции: сайты связывания PurR codB ACTCATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGTGCCCTCTAAA pyrD CGGGTTGAGTGCAAAGAAGGAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC purT GAGAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAGGATG purC ATCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTTATTTTTC purH AATTGTGATCACCATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA purL TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCCTTGG
Невыравненные сайты codB ACTCATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGTGCCCTCTAAA pyrD CGGGTTGAGTGCAAAGAAGGAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC purT GAGAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAGGATG purC ATCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTTATTTTTC purH AATTGTGATCACCATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA purL TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCCTTGG
Выравненные сайты codB CATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGT pyrD GAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC purT GAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAG purC TCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTT purH ATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA purL T TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGAC consensus ACGCAAACGTTTGCGT
Биотиновый транспортер BioY
Метаболическая реконструкция тиаминового биосинтеза = thiN (confirmed) (Gram-positive bacteria) (Gram-negative bacteria) Transport of HMP Transport of HET
yuaJ(=thiT): тиаминовый транспортер (возможно, H + - зависимый) в фирмикутах 6 предсказанных трансмембранных сегментов Почти всегда регулируется THI-рибопереключателями Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococci); В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol., 1977)
Почти всегда регулируются THI-рибопереключателями Не встречаются в геномах, в которых отсутствует тиаминовый путь Всегда встречаются вместе с thiD и thiE В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thiC thiX-thiY-thiZ и ykoF-ykoE-ykoD- ykoC: предсказанные АТФ-зависимые транспортеры HMP
Co и Ni ко-локализация (хромосомные локусы) –транспортеры Ni – с генами никель-зависимых ферментов –транспортеры Co – с генами синтеза кобаламина ко-регуляция –транспортеры Ni – фактор транскрипции NikR –транспортеры Co – рибопереключатель В12
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni NikM CbiM Ni 2+ Co 2+ + CbiN + NikL, NikK + NikN + NikL
Структура локусов B12-элементсайт связывания NikRгены
Структура cbiO=NikO~bioM cbiQ=NikQ~bioN
Проверка: тест на транспорт ионов Co Ni
Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль
Вспомним BioY. Действительно, BioY достаточно; у BioMNY более крутая кинетика
Универ- сальный «энергети- ческий комплекс» + компоненты, определя- ющие специфич- ность
Цель (глобальная) Предсказать свойства организма путем (компьютерного) анализа его генома (возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т.п.) сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т.д. Понять эволюцию геномов/организмов
«Неприкладная» биоинформатика Молекулярная эволюция –филогения генов –таксономия организмов –горизонтальные переносы и т.п. –положительный и отрицательный отбор что сделало нас людьми? лекарственная устойчивость –эволюция геномов Системная биология –строение геномов –сети взаимодействий белок-белковые регуляция транскрипции сигнальные пути
Задачи биоинформатики С проверяемым ответом –предсказание функции, регуляции, структуры и т.п.: ставим эксперимент С непроверяемым ответом –эволюционные деревья но если бы знать все геномы всех (в том числе очень давно умерших) существ, то задача станет тривиальной С принципиально непроверяемым ответом (который зависит от операциональных определений) –идентификация повторов, консервативных областей, островов метилирования и т.п. (так ли он непроверяем?) Без ответа (общеописательные) –статистика геномов (изохоры и т.п.) –описание регуляторных и пр. сетей (hubs, мотивы и т.п.)
«В принципе не проверяемые ответы» (зависящие от определений) Так ли они непроверяемы? Повторы –если иметь все геномы, то можно описывать вставки/замены фрагментов генома и их последующее расхождение Консервативные области –если иметь все геномы, то можно просто оценивать локальную скорость эволюции (но это будет функцией времени) Статистика ДНК (локальный нуклеотидный состав) –это следствие локального паттерна замен, так и надо описывать Микросателлиты –можно ли «функционально» (а не операционально) определить микросателлит, исходя из динамики вставок/замен/дупликаций? CpG-острова –можно ли «функционально» (а не операционально) определить CpG-остров, исходя из паттерна мутаций, состояния метилирования и т.п.? (тут уже эволюция + эксперимент)
Цель (недостижимая?) откуда оно все взялось? первое приближение – реконструкция генома/свойств LUCA реально ли заглянуть глубже? реально ли смоделировать? (времена) реально ли смоделировать «по частям»?
Происхождение жизни