Биоинформатика, или молекулярная биология in silico М.С.Гельфанд 15 января 2008 Институт проблем передачи информации им. А.А.Харкевича РАН
Расшифрован геном!
Перехватить зашифрованное сообщение – еще не значит его понять Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) На этом слайде – 0,1% генома Escherichia coli
Экспоненциальный рост объема данных красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) из 18 миллионов ссылок, ~675 тыс. отвечают на bioinformat* OR comput* 16 тыс. bioinformat* 65 тыс. bioinformat* OR computat*
Цель (локальная): аннотировать гены / белки in silico Что? –(биохимическая) функция –клеточная роль Когда? –Регуляция Экспрессия Время жизни (мРНК, белка) Где? –Локализация Внутри/снаружи Органеллы и компартменты Как? –Механизм Специфичность, регуляция Наиболее важные предсказания затем проверяются экспериментально
622 полных генома (прокариот)
Цель (глобальная) Предсказать свойства организма путем (компьютерного) анализа его генома (возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т.п.) сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т.д. Понять эволюцию геномов/организмов
Сравнительная геномика Базовые постулаты: Сходство => гомология (общность происхождения) Гомология => сходная функция Консервативно то, что важно –структурные и функциональные мотивы в белках –регуляторные сайты в ДНК
Математические и алгоритмические проблемы Формализация понятия сходства –теория вероятностей: значимость наблюдаемого уровня сходства –вычислительная геометрия: сходство структур Алгоритмические проблемы: –быстрый поиск сходных последовательностей большой объем базы данных (растет быстрее, чем быстродействие процессоров) –множественное выравнивание оптимальный алгоритм имеет полиномиальное время работы, но степень равна числу последовательностей –построение эволюционных деревьев баланс между биологическими соображениями и вычислительными возможностями Идентификация функциональных и регуляторных мотивов в последовательностях –теория предсказания образов: нейронные сети, поддерживающие вектора и т.п.
Первый российский бактериальный геном - Acholeplasma laidlawii Секвенирование: ИФХМ МЗ РФ, аннотация: ИППИ РАН ~1,5 Mb; ~1400 генов. Установлены функции ~80% генов; проведена метаболическая реконструкция
Сравнение с родственными геномами Acholeplasma laidlawii aster yellows Phytoplasma onion yellows Phytoplasma
Сравнительная геномика - 2 Не обязательно последовательности: –структура белка и РНК –расположение генов на хромосоме (ко-локализация) –ко-регуляция и ко-экспрессия генов –филогенетические образцы (совместное появление в геномах) Предсказав структурные особенности белка, можно определить его функциональный класс Изучение геномного контекста позволяет отнести ген (белок) к функциональной подсистеме Задача: формализация этих подходов –Полногеномные сравнения –Статистическая значимость –Распознавание образов и экспертные системы
РНК-переключатели: от биоинформатического анализа к экспериментальной проверке Новый универсальный механизм регуляции экспрессии генов за счет формирования альтернативных структур РНК и прямого связывания малых молекул Структуры и механизм предсказаны биоинформатически и затем подтверждены экспериментально
Регуляция экспрессии генов за счет формирования альтернативных структур РНК Transcription attenuation Translation attenuation Структура предсказана на основе сравнитель- ного анализа выравненных последова- тельностей Механизм предсказан на основе литературных данных и анализа структурных особенностей
5-нетранслируемые области бактериальных генов биосинтеза рибофлавина
Аттенюация транскрипции Terminator The RFN element Antiterminator
Другие РНК-переключатели, найденные методами сравнительной геномики Есть во всех трех основных царствах (бактерии, археи, эукариоты) Древнейшие регуляторные элементы: реликт «РНКового мира»?
Регуляторы гомеостаза цинка nZUR- AdcRpZUR TTAACYRGTTAA GATATGTTATAACATATC GAAATGTTATANTATAACATTTC GTAATGTAATAACATTAC TAAATCGTAATNATTACGATTTA
Регуляция гомологов рибосомальных белков L36L33L31S14 E. coli, S.typhi (–)(–) – ( – ) + – K. pneumoniae (–)(–) – ( – ) – – Y. pestis,V. cholerae ( – ) – ( – ) + – B subtilis (–)(–)( – ) + – ( – ) + S. aureus (–)(–)( – ) – – – ( – ) + Listeria spp. (–)(–)( – ) – – ( – ) + E. faecalis (–)(–) ( – ) – – – ( – ) + – S. pne., S. mutans (–)(–)( – ) – – – (–)(–) S. pyo., L. lactis (–)(–)( – ) – – – ( – ) + nZUR pZUR AdcR
Плохой сценарий достаточно цинка недостаточно цинка: весь цинк использован рибосомами, не хватает цинка для ферментов
Регуляторный механизм рибосомы Zn-зависимые ферменты R Достаточно Zn Голодание по Zn R репрессор
Предсказание … (Proc Natl Acad Sci U S A Aug 19;100(17): ) … и подтверждение (Mol Microbiol Apr;52(1): ) (+ еще пять статей в последующие годы): другие гены, другие бактерии
Сводка подтвердившихся предсказаний Регуляторы –РНК-переключатели витамины: рибофлавин, тиамин, кобаламин аминокислоты: лизин, метионин –Факторы транскрипции NrdR: рибонуклеотид-редуктазы MtaR, CmbR: метионин и цистеин NiaR, NrtR: метаболизм NAD NsrR, NnrA: нитрозативный стресс Регуляторные взаимодействия –регуляторные мотивы в ДНК (>10) –отдельные сайты связывания (>20) Ферменты –ThiN и TenA (биосинтез тиамина) –CobX, CobZ (биосинтез кобаламина) –FadE (синтез жирных кислот) –AbnA, Xca (катаболизм арабинозы) –NagK, NagBII (катаболизм N- ацетилглюкозамина) Транспортеры –витамины и кофакторы YpaA и RibM: рибофлавин BioMNY: биотин ThiXYZ: тиамин NiaP: ниацин Vng : корриноиды –сахара и полисахариды OgtABCD: продукты деградации пектина NagP: N-ацетилглюкозамин –аминокислоты MetD: метионин SteT: треонин –ионы металлов CbiMNQO, HoxN: кобальт NikMNQO: никель –нуклеотиды: YicE: ксантин
Не только тексты Другие типы массовых экспериментов: Транскриптомика –«выстилающие массивы»: полная карта транскриптов –уровень экспрессии и время жизни мРНК –ДНК-белковые взаимодействия Протеомика –концентрации белков –белок-белковые взаимодействия, белковые комплексы –структуры белков Эпигенетика –метилирование ДНК –положение и модификации нуклеосом Генетика –летальность мутаций –фенотипы –синтетические летали
«Неприкладная» биоинформатика Молекулярная эволюция –филогения генов –таксономия организмов –горизонтальные переносы и т.п. –положительный и отрицательный отбор что сделало нас людьми? лекарственная устойчивость –эволюция геномов Системная биология –строение геномов –сети взаимодействий белок-белковые регуляция транскрипции сигнальные пути
Перспективы Индивидуальные геномы –персональные человеческие геномы –геномы штаммов Метагеномы –некультивируемые бактерии –метагеномы экологических ниш бактериальный метагеном человека Другие виды данных –интеграция Моделирование (пока рано) –построение полных карт
Биоинформатика в России Сильные устойчивые школы –Москва+Пущино: содружество лабораторий в разных учреждениях –Новосибирск: вертикальная структура Высокий уровень –конкурентоспособный в мире Интеграция с образованием –Факультет биоинженерии и биоинформатики МГУ –Кафедра информационной биологии ФЕН НГУ Перспективная область: –относительно дешево –общедоступная информация – можно использовать чужие данные –связь с экспериментальными исследованиями, ведущимися на современном уровне Как развивать: –технические разработки (базы данных, пакеты программ») – контракты, наличие потребителя –интегрированные компоненты в медицинских и молекулярно- биологических проектах (крупные проекты должны иметь биоинформатическую поддержку) –самостоятельные исследовательские работы – гранты
Российский фонд фундаментальных исследований РАН, программа «Молекулярная и клеточная биология» INTAS Howard Hughes Medical Institute