Молекулярный филогенез
ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом
extinct extant 1 extant 2 Дистанцию (в генетическом смысле) между двумя огранизмами расчитываема. И эта дистанция может быть переведена во временную шкалу
(5 M лет ) Общий предок
(120 M лет ) Общий предок
(1,500 M лет ) Общий предок
(1,500 M лет ) (120 M лет ) (5 M лет )
Древо Жизни (The Tree of Life Homepage (University of Arizona) )
Задачи филогенеза Реконструкция достоверных генеалогических ветвей биологических сущностей Оценка времени расхождения организмов Хронометраж последовательности событий вдоль вектора эволюции
Источники информации и базы данных в Интернете
Типы баз данных Всеобъемлющие базы данных Организмоспецифические Молекулярноспецифические Дополнительные базы данных
Проблемы Биологические базы данных росли последние 20 лет: 1.Избыточность: множественные записи. 2.Неверные последовательности и записи. Открытость (данные добавляются пользователями): 1.Изменения вносятся владельцами записей. 2.Старые последовательности. 3.Неверные последовательности. 4.Неполные аннотации.
Полные базы данных Большие базы данных ДНК, РНК и белков. Примеры: GenBank, EMBL, swissprot. Имеется обмен информацией между базами
NCBI (National center for biotechnology information) NCBI PubMed Books OMIM Nucleotides Proteins GenomesTaxonomy Structure Domains Exp profiles
NCBI - GenBank GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей Источники информации: 1.Прямая подача от исследователей. 2.Литература. 3.Центры исследований последовательностей (Sanger, TIgr) 4.Обмен с другими базами (swiss-prot, PDB).
NCBI - GenBank GenBank поделён на подбазы: 1.Organism specific (Human, Bacteria, etc). 2.Molecule specific (DNA, RNA, protein). 3.Sequence specific (Genome, mRNA, ESTs etc).
EMBL Параллельная GenBank база данных.
Swiss prot База данных белков: 1.Очень хорошо аннотированная. 2.Отсутствует избыточность. 3.Имеются перекрёстные ссылки. 4.ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы Базы даных, ориентированные на группы молекул GtRDB: The Genomic tRNA Database
PDB – Protein Data Bank Главная база данных 3D структур белков Включает порядка 23,000 белковых структур. Белки организованы в группы, семейства и т.д. Имеет порядка 5600 точных структур.
SCOP - Structural Classification Of Proteins Организована в соответствии со структурными семействами белков. Иерархическая система.
Текстовый поиск Общие принципы: 1.Все главные базы предоставляют удобные средства для тектового поиска. 2.Поиск по ключевым словам или полям. 3.Одновременный поиск в нескольких базах. 4.Дополнительные условия (дата, длина и т.д.).
NCBI - Entrez Entrez - поисковая машина для баз NCBI. Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки). Можно использовать определители полей, логические операторы, условия и т.д.
NCBI - Entrez Ограничения:
Эффективность поиска Эффективность: время и адекватные результаты!
SRS ( Sequence Retrieval System). Исталлирована на множестве серверов. Имеет связи со многими базами данных. Предоставляет множество инструментов и служб для анализа. Позволяет сохранить результаты работы и анализа и продолжить работу локально.
SRS Рабочая среда Выбор базы данных Заполнение формы запроса Страница результатов
Проект ENCODE