BLAST: Basic Local Alignment Search Tool
BLAST – алгоритм для нахождения участков локального сходства между последовательностями. Алгоритм сравнивает входную последовательность с последовательностями в базе данных, ищет сходные последовательности в базе данных и оценивает статистическую значимость находок.
Protein BLAST: поиск аминокислотной последовательности в базе данных белков Алгоритмы -blastp -psi-blast -phi-blast Здесь описан интерфейс, установленный на «родине» BLAST: National Center for Biotechnology Information (NCBI) в США,
вводим последовательность база данных организм (если надо ограничить) дополнительные параметры protein blast
Параметры сервиса максимальный размер выдачи порог на E-value параметры выравнивания борьба с «участками малой сложности»
Участок малой сложности Ищем: белок P02929 если отключить Compositional adjustments и фильтр, то одной из находок (18-ой от начала) будет следующее: в исходном белке имеется участок, содержащий очень много пролина и глутаминовой кислоты Данное выравнивание не свидетельствует о гомологии, несмотря на хорошее значение E-value (10 -9 )
выбираем formatting options подтверждаем выбор Переход к текстовому виду Чтобы увидеть выдачу самой программы (а не его обработку интерфейсом), можно поступить так:
Что выдает BLAST? Набор последовательностей, сходных с входной последовательностью для каждой находки приведены -E-value (Expect), Bit Score и Score -процент идентичности, сходства (Positives) и пробелов (Gaps) в выравнивании -информация о найденной последовательности
Length=129 Score = 78.6 bits (192), Expect = 9e-15, Method: Compositional matrix adjust. Identities = 34/73 (47%), Positives = 50/73 (68%), Gaps = 0/73 (0%) Query 17 YRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQAGGDATENFEDVGHSTD 76 Y EEV +H W+I++ ++Y+I+ ++DEHPGGEEV+ + AG DATE F+D+GHS + Sbjct 11 YTHEEVAQHTTHDDLWVILNGKVYNISNYIDEHPGGEEVILDCAGTDATEAFDDIGHSDE 70 Query 77 ARALSETFIIGEL 89 A + E IG L Sbjct 71 AHEILEKLYIGNL 83 Вес в битах Вес E-value Число совпадений Длина выравнивания Длина найденного белка
E-value – ожидаемое количество случайных находок с таким же и лучшим Score (в той же базе данных, с теми же параметрами): E-value=Kmn·e -λS S – Score (вес) m – длина исходной последовательности n – размер базы данных (суммарная длина всех последовательностей) K и λ - параметры Чем меньше E-value, тем больше значимость находки. Bit score (вес в битах) Выражение E-value через биты