Pfam, ProSite, InterPro,... Банки структурной биологической информации GenBank, ENA(EMBL), DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот.

Презентация:



Advertisements
Похожие презентации
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Advertisements

Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
DNA vs. computer 1.Про 5-3 и всякую химию 2.Про банки данных (архивные vs. курируемые) 3.Святая троица EMBL – GenBank – DDBJ 4.Собственно EMBL, его разделы,
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006.
Решение задач биоинформатики при помощи веб - и интернет - сервисов.
Выравнивание … … последовательностей белков и его биологический смысл.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Поисковые системы SRS, MRS, Expasy, Entrez О.Н.Занегина.
Файлы и папки. Что такое файл? Все программы и данные хранятся в долговременной (внешней) памяти компьютера в виде файлов. Файл это определенное количество.
Нуклеиновые кислоты. Открытие НК Открыты во второй половине 19 века швейцарским биохимиком Ф. Мишером Впервые обнаружены в ядре («нуклеус» - ядро)
Все программы хранятся в долговре- менной(внешней)памяти в виде файлов. Файл - это определённое количество информации (программа или данные ), имеющие.
Базы данных База данных (БД) – совокупность хранящихся взаимосвязанных данных, организованных по определенным правилам. БД служат для хранения и поиска.
Выполнил: Сарбалаков А.К. Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
Транксрипт:

Pfam, ProSite, InterPro,... Банки структурной биологической информации GenBank, ENA(EMBL), DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот Автоматическая база различных последовательностей НК /SwissProt Курируемая база последовательностей белков /TrEMBL Автоматическая база предсказаний последовательностей белков PDB Архивная база пространственных структур макромолекул И многие другие... Банки семейств белков Uniprot Геномные проекты Последовательности от исследователей 1

Последовательности белков 2

Базы данных (общие принципы) БД состоит из одного или нескольких хранилищ (таблиц) Единица хранения (строка таблицы) называется записью (entry). Все записи состоят из полей (fields). Поля с одним и тем же названием (колонки таблицы) содержат однородную информацию. Записи из разных хранилищ (таблиц) ссылаются друг на друга 3

Пример: БД библиотека Запись – книга Поля: – Название – Авторы – Год издания – Аннотация – Текст 4

Банк данных Swiss-Prot 1986 Swiss-Prot – база знаний о белковых последовательностях Курируемая база данных Золотой стандарт аннотации 5

Банк данных Swiss-Prot Амос Байрох Долговременный руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики С 1987 поддерживается в сотрудничестве между Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) С 2002 является частью UniProt knowledgebase, поддерживаемой UniProt consortium Физически Swiss-Prot – это один текстовый файл специального формата. 6

Банк данных TrEMBL Вместе со Swiss-Prot образует UniProtKB. Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL. Автоматическая классификация и аннотация. Формат записи тот же, что у Swiss-Prot. Запись можно отличить по слову Unreviewed в первой строке. TrEMBL (Translated EMBL) 7

Документ (запись, entry) Uniprot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность 8

Основные поля Uniprot ID – идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу. AC – так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать при использовании данных Swiss-Prot в публикациях). Может быть не один (по разным причинам). DE – «description», описание белка. Имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.) OS – видовое название организма – источника данного белка OC – таксономия организма (в соответствии с текущим стандартом NCBI) DR – ссылки на другие базы данных FT – feature table, особенности частей последовательности txt txt txt 9

Структура идентификатора записи Swiss-Prot ENO_BACSU: энолаза из сенной палочки Мнемоника функции белка Мнемоника организма Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв видового (Bacillus subtilis BACSU). Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для различения штаммов. Исключения: а) 16 наиболее представленных организмов (BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE for Maize (Zea mays), MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit, RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae)); б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.); в) случаи неопределенного видового названия. 10

Содержимое поля FT Feature Table характеристики участков последовательности В частности: трансмембранные участки; сигнальные последовательности сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот; сайты посттрансляционной модификации; вторичная структура; домены; разночтения в последовательности (CONFLICT); варианты (напр., альтернативный сплайсинг VARSPLIC); и т. п. Имеет строгий формат: Feature Key, FtLocation, FtDescription. Например: FT DISULFID By similarity. FT CONFLICT E -> EE (in Ref. 4; AA sequence). 11

UniProt на 22 июля 2015 SwissProt – ( ~ 0,5 млн. белков) TrEMBL – ( ~ 50 млн. записей) UniRef100 – ( ~ 60 млн. различных аминокислотных последовательностей) 12 Для сравнения: банк PDB (пространственные структуры) содержит записей, представляющих около различных белков.

Последовательностей во много раз больше, чем структур! Большинство последовательностей не аннотированы! 13 Число белков в разных БД

14 Более половины последовательностей Swiss-Prot не охарактеризовано экспериментально

Банки GenBank, EMBL, DDBJ Содержат результаты работ по секвенированию нуклеиновых кислот. Архивные банки: за содержание записей несут ответственность только их авторы. С конца 1980-х годов журналы не публикуют работы о секвенировании последовательностей ДНК и РНК, если сами эти последовательности не депонированы в один из этих банков. Ежедневный обмен данными. Версия EMBL от 7 сентября 2015 г. содержит 630,4 млн. последовательностей и 1,4 трлн. нуклеотидов ( ). Помимо EMBL, Европейский нуклеотидный архив (ENA, включает ещё SRA (Sequence Read Archive): ~ 17 трлн. последовательностей, 2,2 квадрильона нуклеотидов. 15

Разделы EMBL HUM: Human MUS: Mus musculus ROD: Other Rodents MAM: Other Mammals VRT: Other Vertebrates INV: Invertebrates FUN: Fungi PLN: Plants PRO: Prokaryotes VRL: Viruses PHG: Bacteriophage ENV: Environmental Samples SYN: Synthetic TGN: Transgenic UNC: Unclassified 16

Классы данных EMBL

RefSeq Поддерживается NCBI: Не содержит повторений (в отличие от GenBank!) Состоит из трёх частей: RefSeq genomic, RefSeq RNA (только мРНК!), RefSeq protein Призван навести порядок в сумбуре секвенируемых последовательностей. Но, конечно, в связи с этим отстаёт… 18

Геномные браузеры USCS Genome Browser ( ) – продвинутый графический интерфейс для аннотированных геномов избранных эукариот NCBI ( ) – все полные геномы EnsEMBL ( – продвинутый графический интерфейс для хорошо аннотированных геномов избранных эукариот (два десятка животных и дрожжи) EnsEMBL genomes ( ) – расширение возможностей EnsEMBL на все геномы (в процессе…) 19

Форматы хранения последовательностей 20 Swiss-Prot – для белков EMBL, GenBank – для нуклеотидных последовательностей Fasta – универсальный формат для хранения одной или многих последовательностей. Понимается подавляющим большинством программ работы с последовательностями.

Формат Fasta 21 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

Формат Fasta 22 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием

Формат Fasta 23 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей».

Формат Fasta 24 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей». Описание последовательности (от первого пробела до конца строки). Может отсутствовать.

Формат Fasta 25 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей». Описание последовательности (от первого пробела до конца строки). Может отсутствовать. Последовательность в однобуквенном коде, в одну или несколько строк.

Формат Fasta (много последовательностей) 26 >sp|P00167|CYB5_HUMAN Cytochrome b5 OS=Homo sapiens GN=CYB5A PE=1 SV=2 MAEQSDEAVKYYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT ENFEDVGHSTDAREMSKTFIIGELHPDDRPKLNKPPETLITTIDSSSSWWTNWVIPAISA VAVALMYRLYMAED >sp|O43169|CYB5B_HUMAN Cytochrome b5 type B OS=Homo sapiens GN=CYB5B PE=1 SV=2 MATAEASGSDGKGQEVETSVTYYRLEEVAKRNSLKELWLVIHGRVYDVTRFLNEHPGGEE VLLEQAGVDASESFEDVGHSSDAREMLKQYYIGDIHPSDLKPESGSKDPSKNDTCKSCWA YWILPIIGAVLLGFLYRYYTSESKSS >sp|P04166|CYB5B_RAT Cytochrome b5 type B OS=Rattus norvegicus GN=Cyb5b PE=1 SV=2 MATPEASGSGRNGQGSDPAVTYYRLEEVAKRNTAEETWMVIHGRVYDITRFLSEHPGGEE VLLEQAGADATESFEDVGHSPDAREMLKQYYIGDVHPNDLKPKDGDKDPSKNNSCQSSWA YWIVPIVGAILIGFLYRHFWADSKSS >sp|P00173|CYB5_RAT Cytochrome b5 OS=Rattus norvegicus GN=Cyb5a PE=1 SV=2 MAEQSDKDVKYYTLEEIQKHKDSKSTWVILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT ENFEDVGHSTDARELSKTYIIGELHPDDRSKIAKPSETLITTVESNSSWWTNWVIPAISA LVVALMYRLYMAED >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE