Гомологи, ортологи, паралоги. Поиск гомологичных последовательностей Осваиваем программу BLAST Осваиваем программу BLAST.

Презентация:



Advertisements
Похожие презентации
BLAST: Basic Local Alignment Search Tool. BLAST – алгоритм для нахождения участков локального сходства между последовательностями. Алгоритм сравнивает.
Advertisements

Выравнивания (продолжение) С.А.Спирин, Пути эволюции последовательностей В основе случайное изменение нуклеотидной последовательности ДНК: – точечные.
BLAST Что такое выравнивание Выравнивание 2х последовательностей BLAST на NCBI: –Что это такое –Как выбрать правильную программу –Как выбрать правильную.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Автор: учитель информатики МКОУ Плесской средней общеобразовательной школы Юдин Андрей Борисович Часть 1.
1 Массивы 2 Опр. Массивом называется совокупность однотипных данных, связанных общим именем. Основные характеристики массива: 1. Имя массива 2. Тип компонентов.
1 3. Системы линейных уравнений. Леопо́льд Кро́некер.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Выравнивание последовательностей. Простое взвешивания +1 : вес совпадения -μ : штраф за несовпадение -σ : штраф за делецию/вставку Вес выравнивания =
Что нужно знать: динамическое программирование – это способ решения сложных задач путем сведения их к более простым задачам того же типа динамическое.
Массивы 9 класс. Основные теоретические сведения Примеры решения задач.
АЛГОРИТМЫ НАХОЖДЕНИЯ КРАТЧАЙШИХ ПУТЕЙ НА ГРАФАХ..
Основы программирования на Бейсике Массивы. Задание: Найти все 3-хзначные числа, заканчивающихся на 2, 4, 8 и делящихся на 6. Ответ: CLS FOR I=100 TO.
Результаты моделирования триангуляционного способа определения дальности с применением двух и трёх станций ОАО «Центральное конструкторское бюро автоматики»,
Интернет Университет Суперкомпьютерных технологий Лекция 4 Методы построения параллельных программ (продолжение) Учебный курс Введение в параллельные алгоритмы.
1 Программирование на языке Паскаль Циклы. 2 Цикл – это многократное выполнение одинаковой последовательности действий. цикл с известным числом шагов.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 5 Метод максимального правдоподобия. ММП позволяет получить по крайней мере асимптотически несмещенные и эффективные оценки параметров распределения.
Транксрипт:

Гомологи, ортологи, паралоги. Поиск гомологичных последовательностей Осваиваем программу BLAST Осваиваем программу BLAST

"Nothing in biology makes sense except in the light of evolution" Theodosius Dobzhansky

Гомология Крыло птицы Крыло летучей мыши рука человека Определения: гомологичными в биологии называют сопоставимые части сравниваемых биологических объектов. гомологичными в биоинформатике называют последовательности, которые произошли от общего предка

гомология и аналогия Гомология ( общий предок ) против аналогии ( конвергентная эволюция ) Последовательности могут быть похожими из-за конвергентной эволюции крыло птицы крыло бабочки крыло летучей мышикрыло мухи

Парадигма родственных белков Существующие сегодня белки произошли от белков-предков в результате замен и отбора. Родственные белки имеют похожие последовательности И похожую структуру И схожие функции. Под схожими функциями" можно понимать: идентичную функцию, Похожую функцию, т.е.: Катализ одинаковых реакций в различных организмах; или Одинаковый механизм катализа но различные субстраты (дегидрогиназы яблочной и молочной кислоты); Подобные субединицы и домены, которые были соединены вместе в результате перемешивания доменов, например, домены связывания с нуклеотидами в гексокиназе, миозине, HSP70 и АТФ- синтазе.

Две последовательности гомологичны, если существовала молекула- предшественник, от которой произошли обе последовательности Типы гомологов Ортологи : последовательности, происшедшие в результате видообразования Паралоги : последовательности, происшедшие в результате дупликации Типы гомологов: ортологи и паралоги

Если две (сложные) последовательности обладают значительной схожестью между первичными последовательностями, у них общий предок и, возможно, одинаковые функции. (хотя некоторые белки обретают совершенно новые функции, как, например, появление альфа-кристаллина). Cхожесть последовательностей и гомология Следующее утверждение основано на наблюдении и не является истинным a priori:

The Size of Protein Sequence Space (back of the envelope calculation) For comparison the universe contains only about protons and has an age of about 5*10 17 seconds or 5*10 29 picoseconds. If every proton in the universe were a super computer that explored one possible protein sequence per picosecond, we only would have explored 5* sequences, i.e. a negligible fraction of the possible sequences with length 600 (one in about ). Consider a protein of 600 amino acids. Assume that for every position there could be any of the twenty possible amino acid. Then the total number of possibilities is 20 choices for the first position times 20 for the second position times 20 to the third.... = 20 to the 600 = 4* different proteins possible with lengths of 600 amino acids.

Посмотрите обучающую программу о том как пользоваться BLAST NCBI Blast Tutorial

Попробуйте найти эту последовательность сами через поиск в базе данных Protein Скопировать сюда Параметры

Выбор базы данных Выбор алгоритма Прокрутите вниз

удобно, можно вернуться и изменить параметры поиска Раскройте параметры алгоритма Пока можно оставить параметры по умолчанию Нажмите на кнопку BLAST

Откроется промежуточное окно поиска В зависимости от загруженности сервера, надо подождать

прокрутите вниз

Поизучайте выравнивания. Обратите внимание на вес (Score) и ожидание (E-value). Вес получается из матриц счета с учетом пропусков и несовпадений (им присваивается отрицательный вес) Expect - ожидание - ожидаемое число последовательностей, которые при выравнивании будут иметь данный вес или лучше (см теорию дальше).

Элементы теории локального выравнивания Задача: по заданной последовательности найти другие в базе данных последовательностей, которые показывают схожесть на статистически значимом уровне. Цели: –мы предполагаем, что похожие последовательности кодируют белки со схожими функциями => предсказывание функций –мы предполагаем, что похожие последовательности произошли от одного общего предка => проследить эволюционную историю

18 Алгоритм BLAST Программы BLAST (Basic Local Alignment Search Tools) представляют собой набор алгоритмов для сравнения последовательностей. Были впервые опубликованы в 1990 году для поиска оптимального локального выравнивания данной последовательности с другими в базе данных последовательностей. –Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool. J. Mol. Biol. 215: –Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. NAR 25:

19

20 Какие результаты выдает BLAST… BLAST выдает неожидаемые выравнивания -отличные от случайных Допущения -Случайные последовательности -Постоянный композиционный состав Выводы -Неожидаемая схожесть подразумевает эволюционную гомологию Эволюционная гомология: происхождение от общего предка Не всегда подразумевает подобную функцию

21 ПрограммаОписание blastp Сравнивает исходную аминокислотную последовательность с последовательностями из базы данных белков blastn Сравнивает исходную нуклеотидную последовательность с последовательностями из базы данных нуклеотидных последовательностей blastx Сравнивает исходную нуклеотидную последовательность, оттранслированную в аминокислотную по всем шести рамкам считывания, с последовательностями из базы данных белков. Используется для нахождения потенциальных продуктов трансляции неизвестной нуклеотидной последовательности. tblastn Сравнивает исходную аминокислотную последовательность с базой данных нуклеотидных последовательностей, динамически транслируемых по всем шести рамкам считывания tblastx Сравнивает все шесть трансляций исходной нуклеотидной последовательности со всеми шестью трансляциями из базы данных нуклеотидных последовательностей. Программы BLAST

22 ПрограммыХарактеристики Megablast Непрерывный Для близких последовательностей Разрывный Для межвидового сравнения Специфичен к позициям PSI-BLAST Автоматически генерирует матрицу счета специфичную к позициями (Position Specific Score Matrix, PSSM) RPS-BLAST Совершает поиск в базе данных матриц PSSMs, сгенерируемых программой PSI- BLAST. Дополнительные программы BLAST

23 Алгоритм BLAST Вес совпадений считается по матрицам счета Последовательности разбиты на слова (words) (по умолчанию длина n=3) – Обеспечивает скорость и вычислительную эффективность Алгоритм BLAST расширяет исзначальный зародыш (seed) до сегмента с большим весом (High Scoring Pairs, HSP) Параметр, можно менять

24 При поиске близких последовательностей важна статистика Различие между настоящим совпадением и артефактом делается с помощью оценок вероятности, что совпадение могло быть случайным. Мы обсудим значение весов (scores, S) и ожиданий (e-values, E), которые ассоциируются с выравниваниями, отобранными BLAST.

25 Как считается вес (score, S) Качество каждого попарного выравнивания представлено в виде веса, по которому так же определяется порядок расположения найденных последовательностей. Для вычисления веса выравнивания, используются матрицы весов. Вес считается по каждому выравненному основанию (ДНК) или аминокислоте (белок). Общий вес выравнивания есть сумма весов для каждой позиции.

26 Матрица весов Матрицы замен используются для аминокислотных выравниваний Более простая унитарная матрица используется для ДНК- выравнивания (+1 для совпадения, - 2 для несовпадения) 26 6

27 BLOSUM vs PAM По умолчанию в программе BLAST 2.0 используется матрица BLOSUM 62. Хотя она предназначена для поиска умеренно разошедшихся белков, ее использование довольно эффективно при поиске более близких последовательностей. Поиск дальних родственников может оказаться более эффективен с другими матрицами. BLOSUM 45 BLOSUM 62 BLOSUM 90 PAM 250 PAM 160 PAM 100 Более разошедшиеся Менее разошедшиеся

28 Что означают значения веса (score) и ожидания (e-value). Качество выравнивания представлено весом Score (S). Вес выравнивания расчитывается как сумма замен и пропусков. Вес замен берется из матриц (PAM, BLOSUM), а вес пропусков назначается эмпирически. Значимость каждого выравнивания вычисляется в виде ожидания E value (E). Ожидание. Число различных выравниваний с весом равным или большим, чем S, которое ожидается найти в данной базе данных случайным образом. Чем меньше E-value, тем более значим вес. E-value - это не вероятность, а ожидание. Причина, по которой программы BLAST выдают не вероятности, а ожидани, состоит в том, что гораздо легче понять значения ожидания в 5 или 10 последовательностей, чем вероятности и Однако при E

29 Что надо знать о E-values Низкие значения E-values означают, что последовательности гомологичны Однако, высокие не означают негомологичность Статистическая значимость зависит как от размера выравненного участка так и от размера базы данных Important consideration for comparing results across different searches E-value увеличивается с увеличением размера базы данных E-value уменьшается с увеличением размера участка выравнивания

30 Гомология: некоторые соображения Схожесть не является индикатором гомологии Вообще говоря, если две последовательности схожи со статистической значимостью по всей длине, то, вероятно, они гомологичны Участки с низкой сложностью могут быть схожи с высокой степенью значимости, но не быть гомологами Гомологичные последовательности не всегда схожи с высокой степенью значимости

31 Предполагаемые порогвые значения BLAST Для поиска в базах данных нуклеотидных последовательностей надо рассматривать результаты со значениями ожиданий (E- values) меньше 10-6 и процентом идентичности последовательностей 70% или более Для поиска в базах данных аминокислотных последовательностей, надо рассматривать результаты со значениями ожиданий (E-values) меньше 10-3 и процентом идентичности последовательностей 25% или более Необходимо запомнить: Всегда смотрите на выравнивания Необходимо запомнить: Всегда смотрите на выравнивания

32 Как работает BLAST? Качество и относительная скорость поиска программ BLAST (важные свойства при учете того, что базы данных постоянно растут) достигается с помощью подхода, при котором исходная последовательность и последовательности базы данных разбиваются на фрагменты (слова, "words"), и первоначальный поиск совпадений производится между фрагментами. После изначального нахождения совпадающих слов выравнивание расширяется по обоим направлениям с целью сгенерить выравнивание с весом, превышающим некоторое пороговое значение S.

33 Алгоритм BLAST

34 Алгоритм BLAST

35 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T)

Как работает BLAST? Параметры W : Размер слова (Word) – найти совпадающие слова между последовательностями длина 2-3 для a минокислот, 6-11 для нуклеотидов. T : Порог ( Threshold) – оставить только слова с весом >T обычно X : Потеря веса – остановить расширять выравнивание, когда потеря >X S : Вес ( Score) – Финальный в e с сегмента

Как работает BLAST? Алгоритм : 1.Выравнивает исходную последовательность с последовательностью из базы данных. 2.Находит хиты (hits): короткие выравненные сегменты длины W без пробелов с весом не меньше T. 3.Расширяет выравнивание до тех пор, пока вес не уменьшится на величину X от некоторого максимума, который будет обозначен как наилучший вес Этот шаг потребляет основное время процессора (>90%)

Как нам быстро избавиться от ненужных последовательностей? Разеделить базу данных на слова длины W (по умолчанию: W = 3 для белков и и W = 7 для ДНК) Сохранить слова в специальной таблице, в которой можно производить быстрый поиск WTDFGYPAILKGGTAC WTD TDF DFG FGY GYP … Как работает BLAST?

BLAST: как избавиться от ненужных последовательностей Когда пользователь вводит исходную последовательность, она делится на слова Поиск в базе данных происходит последовательно по соседним словам Вес для соседних слов определяется согласно матрице весов (например, BLOSUM62 для белков) с некоторым пороговым значением Как работает BLAST? GFB GFC (20) GPC (11) WAC (5)

Исходная последовательность ( Query) Последовательность базы данных Соседнее слово Ищем зародыш : хиты на одной диагонали, которые можно объединить По крайней мере, 2 хита на одной диагонали на расстоянии друг от друга меньше, чем определенный порог Стадия фильтрации – множество несвязанных хитов фильтруются, экономя огромное количество времени ! A Как работает BLAST?

Расширение сегмента вдоль выравнивания Прекращает расширение, когда вес выравнивания уменьшается на X ниже полученного максимального значения Не рассматривает сегменты с весом < S ASKIOPLLWLAASFLHNEQAPALSDAN JWQEOPLWPLAASOIHLFACNSIFYAS Score=15 Score=17 Score=14 Как работает BLAST?

42 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T)

Результат – ЛОКАЛЬНОЕ выравнивание В результате BLAST выдает набор локальных выравниваний между исходной последовательностью и различными найденными хитами Как работает BLAST?

Introduction to Information Theory Cпрашиваете ребенка - он всегда отвечает нет Cпрашиваете ребенка - он отвечает да и нет Вопрос - любит ли ребенок мороженное? Ответ - нет Информация = 0 Удивление Качественно - Информация, или удивление, обратно пропорционально вероятности. Количественно - Units: bits or nats

Может быть последовательность цифр кости или ATGC Существует частотное распределение Если равновероятно - 1/n, то H=log2(n), и среднее будет таким же. Средняя информация последовательности символов называется … ЭНТРОПИЕЙ

Примеры: M (метионин) =0.01 L (лейцин) =0.1 q=0.002 Ratio=2 S=log2(2)=1 bit -> это и есть значение матрицы весов BLOSSUM

Оценка лямбда

55 Для одной последовательности может быть два участка c высоким весом. Обратите внимание на координаты

1.Найти последовательности двух субединиц белка гемоглобина человека (hemoglobin subunit alpha and hemoglobin subunit beta) через NCBI protein database. Через BLAST найти близких родственников. Выбрать 10 разных видов. Найти полные последовательности выбранных 10 видов через NCBI protein database по идентификационному номеру. Сохранить их все в формате fasta в текстовый файл. Мы их будем использовать для построения филогенетических деревьев Задание 1 Подсказка: hemoglobin subunit alpha [Homo sapiens]

Задание 2 Найти структуру гемоглобина человека в базе данных pdb. Окрасить так, чтобы было видно две субъединицы. Посмотреть гемоглобин с кислородом, без кислорода и при болезни серповидно-клеточной анемии. Подсказка: show=Current

1.Посмотреть интересное видео о проекте Дерево жизни - Discovering the Great Tree of Life Задание 3