Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина 9.02.2009.

Презентация:



Advertisements
Похожие презентации
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Advertisements

Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Вводная лекция Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.Б.Рахманинова, 4/IX – 2009 использованы материалы лекций С.А.Спирина (2006)
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Вводная лекция Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.Б.Рахманинова, 3/IX – 2007, использованы материалы лекции С.А.Спирина, 2006.
Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.В. Алексеевский. Использованы материалы лекций А.Б.Рахманиновой и С.А.Спирина.
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.В. Алексеевский. Использованы материалы лекций А.Б.Рахманиновой и С.А.Спирина.
Выполнил: Сарбалаков А.К. Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
DNA vs. computer 1.Про 5-3 и всякую химию 2.Про банки данных (архивные vs. курируемые) 3.Святая троица EMBL – GenBank – DDBJ 4.Собственно EMBL, его разделы,
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
Pfam, ProSite, InterPro,... Банки структурной биологической информации GenBank, ENA(EMBL), DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Решение задач биоинформатики при помощи веб - и интернет - сервисов.
The PIR-PSD current release 78.03, November 24, 2003, contains entries. 65 proteins The PIR was established in 1984 by the National Biomedical.
Транксрипт:

Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина

Первый банк данных Атлас белковых последовательностей и их структур Первая версия атласа содержала описание 65 (!) последовательностей белков

В конце 1970-х годов был изобретён относительно быстрый и дешёвый метод экспериментального определения последовательности оснований в ДНК Организм ДНК «в пробирке»Последовательность выделение секвенирование...TGCCACAAATCAC... Молекулярная биология

gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa Молекулярная биология

Molecular biology Компьютер Computer Биоинформатика Computational Molecular biology

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был основан GenBank хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов

Банки данных Архивные (примеры:, ) за содержание каждой записи отвечает её автор-экспериментатор Курируемые за содержание записей отвечают специальные люди кураторы Автоматические записи генерируются компьютерными программами

InterPro,... Банки структурной биологической информации Архивные базы последовательностей НК Автоматическая база различных последовательностей НК Курируемая база последовательностей белков Автоматическая база предсказаний последовательностей белков Архивная база пространственных структур макромолекул И многие другие... Банки семейств белков

Банк данных Universal Protein Resource UniProt Archive – UniParc Все доступные белковые последовательности из разных БД Свой неизменный ID История записей про каждую последовательность UniProt Reference – UniRef Избавление от избыточности UniProt Knowlegebase

~ последовательностей DDBJEMBL GenBank ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgccacaacactcacattgcat atcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccacagaaaaattgtacatcttgtgctggataaagattaacggtt tcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagcgtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataac atacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttgaagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa компьютерный поиск гена, трансляция и компьютерная аннотация UniRef (UniProt non-redundant Reference databases) UniParc (UniProt Archive) последовательностей Экспертиза Базы данных научной литературы

Соотношение числа белков, представленных в разных банках Последовательностей во много раз больше, чем структур! Большинство последовательностей не аннотированы!

Документ банка данных Swiss-Prot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность

Основные поля записи SwissProt ID - Идентификатор последовательности, часто кодирует биологически осмысленную информацию, меняется от выпуска к выпуску БД AC - "Код доступа" уникальный идентификатор последовательности, не меняющийся от выпуска к выпуску БД DE - Название (краткое описание) белка, часто указывающее на его функцию OS - Организм, в котором найден белок OC - Полная таксономия организма И сама последовательность, конечно.