Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемkodomo.fbb.msu.ru
1 DNA vs. computer 1.Про 5-3 и всякую химию 2.Про банки данных (архивные vs. курируемые) 3.Святая троица EMBL – GenBank – DDBJ 4.Собственно EMBL, его разделы, классы даных и поля; CDS, кодирующие участки, ссылки из Swiss-Prot.
2 АТФ 5`- 3`-
3 Как записывают последовательности нуклеиновых кислот ? 1. Последовательность = последовательность однобуквенных символов. Никаких дефисов и обозначений фосфодиэфирных связей. 2. Одни и те же однобуквенные символы для последовательностей РНК и ДНК (при записи РНК обычно U T ). Любая последовательность по умолчанию считается ДНК (т.е. полимером 2'-дезоксирибонуклеотидов). 3. Одни и те же символы используются для обозначения азотистых оснований, нуклеозидов и нуклеотидов Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные. 4. Последовательность записывается в направлении 5'3' Пример: 5'-CTCGAC-3' Nomenclature Committee of the International Union of Biochemistry (NC-IUB) Nomenclature for incompletely specified bases in nucleic acid sequences Recommendations 1984 Biochem. J. (1985) 229,
4 Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот
5 NCBI и EBI National Center for Biotechnology Information и European Bioinformatics Institute (подразделение EMBL – European Molecular Biology Laboratory) Три базы данных – GenBank, EMBL и DDBJ (японская) – по сути, одно и то же. GenBank EMBL database DNA data bank of Japan
6 Что надо знать про банк EMBL -что это архив (за содержание записи несёт ответственность её автор) - поэтому разнобой в терминологии - поэтому одно и то же по многу раз - поэтому много неисправленных ошибок - что у последовательности из записи часто нет естественных границ - что это часть триединства (EMBL, GenBank, DDBJ) - ежедневный обмен данными - … ну и смысл основных полей, конечно (особенно структуру поля FT!)
7 ~ последовательностей DDBJEMBL GenBank ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgcc acaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccaca gaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagc gtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttg aagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa компьютерный поиск гена, трансляция и компьютерная аннотация UniRef (UniProt non-redundant Reference databases) PIR-PSD UniParc (UniProt Archive) последовательностей Экспертиза Базы данных научной литературы
8 Класс данных
9 Таксономический раздел
10 ID - identification (begins each entry; 1 per entry) AC - accession number (>=1 per entry) PR - project identifier (0 or 1 per entry) DT - date (2 per entry) DE - description (>=1 per entry) KW - keyword (>=1 per entry) OS - organism species (>=1 per entry) OC - organism classification (>=1 per entry) OG - organelle (0 or 1 per entry) RN - reference number (>=1 per entry) RC - reference comment (>=0 per entry) RP - reference positions (>=1 per entry) RX - reference cross-reference (>=0 per entry) RG - reference group (>=0 per entry) RA - reference author(s) (>=0 per entry) RT - reference title (>=1 per entry) RL - reference location (>=1 per entry) DR - database cross-reference (>=0 per entry) CC - comments or notes (>=0 per entry) AH - assembly header (0 or 1 per entry) AS - assembly information (0 or >=1 per entry) FH - feature table header (2 per entry) FT - feature table data (>=2 per entry) XX - spacer line (many per entry) SQ - sequence header (1 per entry) CO - contig/construct line (0 or >=1 per entry) bb - (blanks) sequence data (>=1 per entry) // - termination line (ends each entry; 1 per entry) Поле
11 FT FT Key Location/Qualifiers=value FT CDS /codon=(seq:"cug",aa:Ser) /codon=(seq:"tga",aa:Trp)
12 CDS и exons CDS – кодирующая последовательность, то есть ровно те нуклеотиды, что соответствуют белку (по крайней мере его основной форме). Кодирующие участки – те фрагменты ДНК, из которых составлен CDS. Exons – экзоны, то из чего будет составлена зрелая матричная РНК, они включают в себя 5` и 3` - нетранслируемые области – те части РНК, которые отвечают за регуляцию трансляции.
13 Ссылки из записи Swiss-Prot на EMBL Каждая строка – отдельный сиквенс; первая ссылка в строке – запись в EMBL, вторая – CDS внутри этой записи (здесь идентификатор, например, AAA – это идентификатор CDS в специальном дочернем банке данных EMBL-Coding sequences).
14 Статистика EMBL Total nucleotides Number of entries
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.