Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемНаталья Гофман
1 Pfam, ProSite, InterPro,... Банки структурной биологической информации GenBank, ENA(EMBL), DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот Автоматическая база различных последовательностей НК /SwissProt Курируемая база последовательностей белков /TrEMBL Автоматическая база предсказаний последовательностей белков PDB Архивная база пространственных структур макромолекул И многие другие... Банки семейств белков Uniprot Геномные проекты Последовательности от исследователей 1
2 Последовательности белков 2
3 Базы данных (общие принципы) БД состоит из одного или нескольких хранилищ (таблиц) Единица хранения (строка таблицы) называется записью (entry). Все записи состоят из полей (fields). Поля с одним и тем же названием (колонки таблицы) содержат однородную информацию. Записи из разных хранилищ (таблиц) ссылаются друг на друга 3
4 Пример: БД библиотека Запись – книга Поля: – Название – Авторы – Год издания – Аннотация – Текст 4
5 Банк данных Swiss-Prot 1986 Swiss-Prot – база знаний о белковых последовательностях Курируемая база данных Золотой стандарт аннотации 5
6 Банк данных Swiss-Prot Амос Байрох Долговременный руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики С 1987 поддерживается в сотрудничестве между Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) С 2002 является частью UniProt knowledgebase, поддерживаемой UniProt consortium Физически Swiss-Prot – это один текстовый файл специального формата. 6
7 Банк данных TrEMBL Вместе со Swiss-Prot образует UniProtKB. Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL. Автоматическая классификация и аннотация. Формат записи тот же, что у Swiss-Prot. Запись можно отличить по слову Unreviewed в первой строке. TrEMBL (Translated EMBL) 7
8 Документ (запись, entry) Uniprot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность 8
9 Основные поля Uniprot ID – идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу. AC – так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать при использовании данных Swiss-Prot в публикациях). Может быть не один (по разным причинам). DE – «description», описание белка. Имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.) OS – видовое название организма – источника данного белка OC – таксономия организма (в соответствии с текущим стандартом NCBI) DR – ссылки на другие базы данных FT – feature table, особенности частей последовательности txt txt txt 9
10 Структура идентификатора записи Swiss-Prot ENO_BACSU: энолаза из сенной палочки Мнемоника функции белка Мнемоника организма Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв видового (Bacillus subtilis BACSU). Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для различения штаммов. Исключения: а) 16 наиболее представленных организмов (BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE for Maize (Zea mays), MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit, RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae)); б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.); в) случаи неопределенного видового названия. 10
11 Содержимое поля FT Feature Table характеристики участков последовательности В частности: трансмембранные участки; сигнальные последовательности сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот; сайты посттрансляционной модификации; вторичная структура; домены; разночтения в последовательности (CONFLICT); варианты (напр., альтернативный сплайсинг VARSPLIC); и т. п. Имеет строгий формат: Feature Key, FtLocation, FtDescription. Например: FT DISULFID By similarity. FT CONFLICT E -> EE (in Ref. 4; AA sequence). 11
12 UniProt на 22 июля 2015 SwissProt – ( ~ 0,5 млн. белков) TrEMBL – ( ~ 50 млн. записей) UniRef100 – ( ~ 60 млн. различных аминокислотных последовательностей) 12 Для сравнения: банк PDB (пространственные структуры) содержит записей, представляющих около различных белков.
13 Последовательностей во много раз больше, чем структур! Большинство последовательностей не аннотированы! 13 Число белков в разных БД
14 14 Более половины последовательностей Swiss-Prot не охарактеризовано экспериментально
15 Банки GenBank, EMBL, DDBJ Содержат результаты работ по секвенированию нуклеиновых кислот. Архивные банки: за содержание записей несут ответственность только их авторы. С конца 1980-х годов журналы не публикуют работы о секвенировании последовательностей ДНК и РНК, если сами эти последовательности не депонированы в один из этих банков. Ежедневный обмен данными. Версия EMBL от 7 сентября 2015 г. содержит 630,4 млн. последовательностей и 1,4 трлн. нуклеотидов ( ). Помимо EMBL, Европейский нуклеотидный архив (ENA, включает ещё SRA (Sequence Read Archive): ~ 17 трлн. последовательностей, 2,2 квадрильона нуклеотидов. 15
16 Разделы EMBL HUM: Human MUS: Mus musculus ROD: Other Rodents MAM: Other Mammals VRT: Other Vertebrates INV: Invertebrates FUN: Fungi PLN: Plants PRO: Prokaryotes VRL: Viruses PHG: Bacteriophage ENV: Environmental Samples SYN: Synthetic TGN: Transgenic UNC: Unclassified 16
17 Классы данных EMBL
18 RefSeq Поддерживается NCBI: Не содержит повторений (в отличие от GenBank!) Состоит из трёх частей: RefSeq genomic, RefSeq RNA (только мРНК!), RefSeq protein Призван навести порядок в сумбуре секвенируемых последовательностей. Но, конечно, в связи с этим отстаёт… 18
19 Геномные браузеры USCS Genome Browser ( ) – продвинутый графический интерфейс для аннотированных геномов избранных эукариот NCBI ( ) – все полные геномы EnsEMBL ( – продвинутый графический интерфейс для хорошо аннотированных геномов избранных эукариот (два десятка животных и дрожжи) EnsEMBL genomes ( ) – расширение возможностей EnsEMBL на все геномы (в процессе…) 19
20 Форматы хранения последовательностей 20 Swiss-Prot – для белков EMBL, GenBank – для нуклеотидных последовательностей Fasta – универсальный формат для хранения одной или многих последовательностей. Понимается подавляющим большинством программ работы с последовательностями.
21 Формат Fasta 21 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
22 Формат Fasta 22 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием
23 Формат Fasta 23 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей».
24 Формат Fasta 24 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей». Описание последовательности (от первого пробела до конца строки). Может отсутствовать.
25 Формат Fasta 25 >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE Знак > – показатель строки с названием Имя последовательности (до первого пробела). В данном случае состоит из трёх «полей». Описание последовательности (от первого пробела до конца строки). Может отсутствовать. Последовательность в однобуквенном коде, в одну или несколько строк.
26 Формат Fasta (много последовательностей) 26 >sp|P00167|CYB5_HUMAN Cytochrome b5 OS=Homo sapiens GN=CYB5A PE=1 SV=2 MAEQSDEAVKYYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT ENFEDVGHSTDAREMSKTFIIGELHPDDRPKLNKPPETLITTIDSSSSWWTNWVIPAISA VAVALMYRLYMAED >sp|O43169|CYB5B_HUMAN Cytochrome b5 type B OS=Homo sapiens GN=CYB5B PE=1 SV=2 MATAEASGSDGKGQEVETSVTYYRLEEVAKRNSLKELWLVIHGRVYDVTRFLNEHPGGEE VLLEQAGVDASESFEDVGHSSDAREMLKQYYIGDIHPSDLKPESGSKDPSKNDTCKSCWA YWILPIIGAVLLGFLYRYYTSESKSS >sp|P04166|CYB5B_RAT Cytochrome b5 type B OS=Rattus norvegicus GN=Cyb5b PE=1 SV=2 MATPEASGSGRNGQGSDPAVTYYRLEEVAKRNTAEETWMVIHGRVYDITRFLSEHPGGEE VLLEQAGADATESFEDVGHSPDAREMLKQYYIGDVHPNDLKPKDGDKDPSKNNSCQSSWA YWIVPIVGAILIGFLYRHFWADSKSS >sp|P00173|CYB5_RAT Cytochrome b5 OS=Rattus norvegicus GN=Cyb5a PE=1 SV=2 MAEQSDKDVKYYTLEEIQKHKDSKSTWVILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT ENFEDVGHSTDARELSKTYIIGELHPDDRSKIAKPSETLITTVESNSSWWTNWVIPAISA LVVALMYRLYMAED >sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4 MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.