Функции. Введение. Онтологии GO. А.Б.Рахманинова, 2010.

Презентация:



Advertisements
Похожие презентации
Функции Введение Д.А. Равчеев (24 марта 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр.
Advertisements

Функции Введение А.Б.Рахманинова (27 февраля, 1 марта 2006г.)
Функции II. Классификация. Зачем? А.Б.Рахманинова (6 марта 2006 г.)
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Функции белков и генов I keep six honest serving-men (They taught me all I knew); Their names are What, and Why, and When, And How, and Where, and Who.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
Функции Повторение Д.А. Равчеев (31 марта 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Быстрые пути эволюции белков. Домен. БД PFAM, InterPro. Четвертый семестр, занятие 6, 2010, А.Б.Рахманинова.
Развитие цветка резухи Таля двойная кластеризац ия – на генах и на условиях.
Комплексный подход для формального описания, графического представления и моделирования широкого круга биологических и других сложных систем Biosoft.Ru.
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина
12 апреля 2011 г. Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Системная биология – сети М.Гельфанд «Сравнительная геномика» БиБи 4 курс.
Транксрипт:

Функции. Введение. Онтологии GO. А.Б.Рахманинова, 2010

gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca catcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctgg cgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctgg aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag aaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgct aaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatc ttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgc tcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttg atctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacct gatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttat tgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcg atggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgt ctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaa agggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatg gatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttg gctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacga ctggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctg gaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgc cgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtctggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggca atgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtgataccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatc tatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaatatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcag tttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacatcagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgca acgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcgggtctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtg gataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgacgttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttg cgccgcaaaatctggcaactgaaagagctgggttatgcagccgtggatgatgaaaccacgcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgta gcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggat ccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctca aggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcgga taacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctg gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc Давайте помнить цель Мы хотим знать, что закодировано в геномах, как это работает, каким образом это возникло…

Как узнают функцию белка или гена? Эксперимент – прямой или генетический ждите спецкурсов и практикумов Компьютерная аннотация – вспомните третий семестр, ждите лекций М.С.Гельфанда Сообщение хотите верьте, хотите нет

Зачем нужна компьютерная аннотация? EMBL Database Growth

A Summary of the E. coli Chromosome (Gene Type Distribution), data from Updated January 26th, 2006 Updated February 1st, 2007

Компьютерная аннотация: как это обычно происходит? Поиск гена (вспоминаем третий семестр) Поиск гомологов (например, с помощью tblastx) Исследование последовательности гипотетического белка: поиск сигналов, мотивов и т.д Уточнение аннотации Аннотация в первом приближении Исследование геномного контекста: регуляторных сайтов, оперонов и др.

Текущее состояние дел UniProtKB/Swiss-Prot protein knowledgebase release 2010_04 statistics Proteinexistence (PE):entries% 1: Evidence at protein level % 2: Evidence at transcript level % 3: Inferred from homology % 4: Predicted % 5: Uncertain %

Где искать описание функций белка? Genbank (минимальная аннотация) SwissProt (короткая, но вполне содержательная аннотация + ссылки на наиболее популярные БД) PFAM и InterPro (описание функций белковых семейств) Лучшие и наиболее полные аннотации см. БД для отдельных организмов, например, БД для отдельных функциональных групп: БД для ферментов, например, BRENDA БД метаболических путей, например, KEGG БД транспортных белков и другие… и, наконец, PubMed

Функции каких объектов?

Как понимать «гены и их продукты» ГенГен альтернативный сплайсинг у эукариот mRNA Белок 1 Зрелые rRNA и tRNA mRNA Белок 2 Белок 3 mRNA Активны й белок Белок- предшественник процессинг+модификация Неактивный белок Процессинг и/или РТМ ГенГен mRNA Неактивный белок Сборка субъединиц Активны й белок

Сколько записей в SWISS-Prot ?

Малатдегидрогеназа, EC (S)-malate + NAD + = oxaloacetate + NADH + H + Цикл Кребса Гликонеогенез MDHC_YEAST в цитоплазме DHM_YEAST в матриксе митохондрий MDHP_YEAST в пероксисомах Глиоксилатный путь Зачем дрожжам 3 фермента с ID 43-50% ?? У дрожжей есть 3 изофермента

Что такое "Функция"? ( что хочется знать о функции молекулярной машины) Где? Локализация (место в организме, клетке, комплексе) Зачем? Предназначение, роль в организме (клетке) Как? Тип молекулярного механизма С чем? Тип рабочего тела (специфичность)

Например, LacY_Ecoli Клеточная мембрана Транспорт сахаров в бактериальную клетку Симпорт H + /сахар Лактозный транспортер LDH_Ecoli Цитоплазма Анаэробный гликолиз Оксидоредуктаза, донор – группа –CH-OH, акцептор – НАД+ D-Лактатдегидрогеназа

Функция не физический объект, не ген и не белок TRPC_ECOLI ЕС ЕС Один белок и много функций цитохром с окислительное фосфорилирование индукция апоптоза 2.Одна функция и много белков 2.1. Ортологичный ряд алькогольдегидрогеназ 2.2. Аналогичные ферменты.

Самая простая, но обычная проблема 2-фосфо-D-глицерат фосфоенолпируват + H 2 O 1.Сколько разных функций? phosphopyruvate hydratase, 2-phosphoglycerate dehydratase, enolase 2. Как найти то, что непонятно, как называется ? tricarboxylic acid cycle=TCA cycle=Krebs cycle=Citrate cycle=citric acid cycle BioCyc знает «TCA cycle» и «tricarboxylic acid cycle» KEGG понимает «Citrate cycle» и «TCA cycle». -=- Гемоглобин есть в BioCyc и KEGG, но обе базы не понимают oxygen transport

Пример глобализации науки проект Gene Ontology

Цели GO (Gene Ontology ) Создание концепции классификации наших биологических знаний о Молекулярных функциях (Function) (Как? С чем?) Например, carbohydrate binding или ATPase activity Биологических процессах (Process) (Зачем?) Например, митоз или биосинтез пуринов Клеточных компонентах (Component) (Где?) Например, ядро или холофермент РНК-полимераза II Создание общего языка, применимого для всех организмов. Создание формальной терминологии для аннотации генов и сравнении информации о разных видах.

Что такое GO ? 1.3 словаря терминов 1.Molecular Function (Как? С чем?) 2.Biological Process (Зачем?) 3.Cellular Component (Где?) Раньше словари были независимы, теперь, увы, нет. 2.Каждый термины имеет стандартный идентификатор, определение, перечень синонимов и связи с другими терминами. 3.Термины в пределах одной онтологии связаны отношениями "_is_a", "_is_part_of ", а теперь еще и "_regulates.

tricarboxylic acid cycle Accession: GO: Ontology: biological_process Synonyms: exact: citric acid cycle exact: Krebs cycle exact: TCA cycle Definition: A nearly universal metabolic pathway in which the acetyl group of acetyl coenzyme A is effectively oxidized to two C02 and four pairs of electrons are transferred to coenzymes. The acetyl group combines with oxaloacetate to form citrate, which undergoes successive transformations to isocitrate, 2-oxoglutarate, succinyl-CoA, succinate, fumarate, malate, and oxaloacetate again, thus completing the cycle. In eukaryotes the tricarboxylic acid is confined to the mitochondria. See also glyoxylate cycle. Пример термина GO

Аннотация GO для HBB_HUMAN (UniProt) 1.Ген или продукт ассоцируется из одним или несколькими терминами из всех трех онтологий. 2.Термины имеют код обоснования аннотации

DAG ориентированный ациклический граф отношение "is_part_of": "A is part of B" означает, что А часть В, но В не обязательно содержит А. отношение "_is_a": "A is B" означает, что А частный случай В;

Evidence Codes IDA Inferred from Direct Assay TAS Traceable Author Statement IMP Inferred from Mutant Phenotype IGI Inferred from Genetic Interaction IPI Inferred from Physical Interaction RCA Inferred from Reviewed Computational Analysis ISS Inferred from Sequence Similarity IEP Inferred from Expression Pattern NAS Non-traceable Author Statement IEA Inferred from Electronic Annotation IC Inferred by Curator ND No biological Data available Подробнее см.

Статистика GO Biological process terms Molecular function terms 8637 Cellular component terms 2432 Sequence ontology terms 1603 Annotation datasets 52 Species with annotation Annotated gene products Total Electronic Manual Ontology Annotation (GOA) Database

Резюме Функциональная аннотация геномов задача биоинформатики Существуют энциклопедии, где можно узнать о функциях генов и их продуктов, например, BioCyc. Полное описание функции это ответы на вопросы "где?", "зачем?", "как?, "с чем?. GO перспективный подход к разработке общего языка (решение проблемы синонимов), разработке формализованного описания функций, общего для всех организмов.

Использование GO в работе с массовыми данными список генов с аннотацией GO Перепредставленные термины GO

Summary of the GO classification of the gene expression profile. Valor L M et al. PNAS 2007;104: ©2007 by National Academy of Sciences Использование GO в работе с массовыми данными

Есть и другие онтологии, например, exon, promoter, binding_site, non_canonical_splice_site, stop_codon. pseudogene

Open Biomedical Ontologies (OBO) (