Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй курс М. Гельфанд (лекции) Е.Ермакова (задания, занятия)

Презентация:



Advertisements
Похожие презентации
Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй набор, второй курс. Апрель 2005 М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова,
Advertisements

Биоинформатика: биологические тексты М.С.Гельфанд 29 октября 2006 Первый фестиваль науки МГУ Факультет биоинженерии и биоинформатики.
Геномы и эволюция М.Гельфанд 20 февраля Из записной книжки Дарвина, 1837.
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания)
ТВ-биология (Отрывок, взгляд и нечто) М.С.Гельфанд 23 января 2009.
Сравнительный анализ последовательностей ДНК БиБи 4 курс Осень 2005.
Биоинформатика. Распознавание генов Таблица генетического кода.
2. ФУНКЦИИ транскрипция трансляция сплайсинг репликация.
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2006 года) Осенний семестр 2007 Д. А. Равчеев, М. С. Гельфанд.
Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода; Сформировать.
11 класс Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода;
БИОСИНТЕЗ БЕЛКА. Центральная догма молекулярной биологии.
Сравнение митоза и мейоза. Сравнение функций гладкого и шероховатого ЭПС.
Три модели репликации ДНК. Правильная - полуконсервативная (Matthew Meselson и Franklin Stahl, 1958) Q: Что было бы для двух других моделей? Коетки растут.
Лекция 5 Наталья Володина. Транскрипция Транскрипция, трансляция Альбертс глава 5.
Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода; Сформировать.
Распознавание регуляторных сигналов Е.О. Ермакова - занятия Д.А. Равчеев, В.Ю. Макеев, М.С. Гельфанд - слайды Факультет биоинженерии и биоинформатики МГУ.
Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода; Сформировать.
Часть С, задание 5. Полипептид состоит из 20 аминокислот. Определите число нуклеотидов на участке гена, который кодирует первичную структуру этого полипептида,
Анаболизм. Реализация наследственной информации – биосинтез белка.
Транксрипт:

Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй курс М. Гельфанд (лекции) Е.Ермакова (задания, занятия)

ДНК пре-мРНК мРНК белок межгенный экзон интрон экзон межгенный экзон интрон N C трансляция транскрипция сплайсинг д ад а

ДНК мРНК пре-мРНК мРНК белок межгенный 5-некодирующий постоянный интронный альтернативный межгенный постоянный интронный 3-некодирующий C 3 3 N N C

Типы элементарных альтернатив кассетный экзон удержанный интрон альтернативный донорный сайт альтернативный акцепторный сайт чередующиеся экзоны

экзон интрон

0.1% генома E. coli Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)

0.0001% генома человека Геном человека: нуклеотидов Примерно 20 тысяч генов, < 5% генома кодирует белки

Генетический код

Поиск генов если известен белок: просто

… или родственный белок: тоже просто

Генетический код: стоп-кодоны

Вероятность открытой рамки считывания длины не меньше данной

ORFы в геноме K. pneumoniae

Перепред- сказание (E. coli)

Сильное перепред- сказание (Aeropyrum pernix)

Поиск открытых рамок в заданной последова- тельности

Генетический код: синонимы

Codon usage (статистика употребления кодонов) частоты кодонов отличаются от частот триплетов в некодирующих областях –различия в частотах аминокислот в белках –различия в частотах синонимичных кодонов частоты синонимичных кодонов –специфичны для генома –коррелируют с концентрациями тРНК

Ещё про codon usage различается у высоко- и низко- экспрессируемых генов (у высокоэкспрессируемых генов больше доля «оптимальных» кодонов) – прокариоты, дрожжи нестандартный у горизонтально перенесенных генов у фага T4 – близок к хозяйскому (E. coli) у ранних генов, специфический (соответствует своему набору тРНК) – у поздних

Кодирующий потенциал Функция, измеряющая, насколько участок генома похож на белок-кодирующий (и отличается от некодирующего) с точки зрения статистики Можно вычислять кодирующий потенциал –скользящего окна (не слишком маленького!) –открытой рамки считывания Нужна обучающая выборка генов (и межгенных промежутков) из данного организма

E. coli. Окно 96 нт

E. coli. Окно 48 нт

Сравнение предсказаний при разной длине окон

Генетический код: старт-кодоны

Сигналы на границах генов dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

… после выравнивания dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG cons. tacataaaggaggtttaaaaat num

Участки связывания рибосом

Сравнение генов в родственных геномах Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие) преимущественно синонимичные замены – по третьим позициям кодонов вставки и удаления имеют длину, кратную 3

Паттерн нуклеотидных замен в белок-кодирующих областях: pdxB в энтеробактериях Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** **

rbsD в энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

rbsD в энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Существующая аннотация (была) неправильна Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Уточнение стартов – белковое выравнивание (ribD) Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA Eco GCGCGCCTGGAGGACTAA----G CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA Hin GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG * * **** *** * ** ** ** * ***** *** ** ** **

Множественное выравнивание REC tttttatttcaggcaatcggggtgaat gtggcgcaggcggaagtgttgaat RECO tttttatttcaggcaatcggggtgaat gtggcgcaggcggaagtgttgaat RECS tttttatttcaggcaatcggggtgaat gtggcgcaggcggaagtgttgaat RTY tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat RSY tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat REO atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaat RYPK gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac RYP gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac RYE aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaat RVFI tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaa REC06584 f l f q a i g v n = = = V A Q A E V L N RECO04717 f l f q a i g v n = = = V A Q A E V L N RECS04752 f l f q a i g v n = = = V A Q A E V L N RTY01088 * r l f * f m v n g v n V A Q A E V L N RSY05814 * r l f * f m v n g v n V A Q A E V L N REO01497 i a p v * f h * i g e g V S T A E V L N RYPK00397 a g l c r s n s w g k s V S T A A V I N RYP04048 a g l c r s n s w g k s V S T A A V I N RYE04903 n r p v q i s * l g n s V S T A A V I N RVFI i i d e f f m s s M I A E Q P M E

Распознавание генов в отсутствие обучающей выборки «псевдообучающая выборка»: протяженные рамки считывания гены, предсказанные по сходству

Эукариоты (человек) В среднем 9-10 экзонов (кодирующих) на ген Средняя длина (внутреннего) экзона нуклеотидов Часто очень длинные интроны

Длины экзонов: человек, нематода C. elegans, дрозофила

Длины интронов

Бета-глобин человека

Хемотрипсин крысы

… ничего … (28S рРНК человека)

Статистические методы Скользящее окно не работает! (~ 1990) Статистика кодирующих и некодирующих областей + сайты сплайсинга – ещё одна вариация на тему динамического программирования

Сайты сплайсинга Donor sites gtgggatgatgtaagtattggggcggcccg tcaaaacaaggtaagaaatgaggtatgcct agctcccaaggtaggaggttgagtgttgtg agtggccaaggtatggtggatggaaattgc tggaaaaagcgtaagtcactctaattttat ctctcaaaaagtaagctttgtgagcatttc atcttcaagggtgagcatgtgtgttatgct tttcagaattgtaagagtacacattttaag gccagaaaaggtcagtactttctttcacac tacctcacaggtatgaattttctagttctt atctttcaaggtagagtatatgaatgttac atgtggattcgtaagtattcaacacattca aaaatatccagtaagcagttctgatgtttg ccaggagccggtgaggggctggtgggctct aatggatgaggtgggtacttagggcttctg atttcaaaaagtaagttttccctggagaaa aatttgtagagtatccttgatttgacgaat cagacaatgggtaagtacatgcttgttccc gtctgttaaggtaggtataccccatcacaa gttcaaaaaggttggtcacatgttcttgat attcggccaggtatgggtagtgtgctgaga acatatgcaggtaaacaacttaactcaaat aaagaaagaggtgagagggtgttttaattt ccagctccaggtaagccatctggaaagagc gtcttaacaggtaaatgccaccctttcccc Acceptor sites gtttcttcttacatttctaggactcaacta ttcacgtttttgccttccaggagacagagc tttcaatatttattacccaggaccccaaat gtgttatttacatttttcaggaatggacaa tttttctgcttctccaacagctatactaaa ttgttgtgttcacttcacagcatatatcgc tccgttgttttatttcccagaatgattcaa tggtttttcattgtttttagtggtgcaaaa tctaacttcatttcctccaggacaaatatc gttttgttggtgttttatagctggccaact acatgtgttctcatttttaggaagtgatag ctgttcttgttctcccttagcccaaagcag atgcctttcatttctattagctggaatctg ctgttattaaaatttgacaggagaagctga ttttttattcctacttccaggggactgctg tttgttgttgcttaactcagaaagaaataa tacttaacatgatggtccagatataacaaa cttgtgtttttgatactcagacctggctat ttgatttattgattttctagattatttcag gtccttaatgtcctttgtaggtggttcttc gcattattctcaccttccaggctatcacta aatatctcttccctatttagatgtcatcga aaggatatttataattttaggctgatcctg ttttatcttttatattacaggttctgtaaa ttcatattcatttgttgcagaagtggaagc

Распознавание сайтов сплайсинга

Список потенциальных экзонов

Граф динамического программирования

Путь = экзон-интронная структура

Gen- Scan

Сравнительные методы BLASTN: ESTs и альтернативный сплайсинг BLASTX BLASTX+статистика Сравнение с известными белками Геномные сравнения –выравнивание ДНК –выравнивание белков All of the above and more…

ESTs: короткие фрагменты (клонированной) мРНК Характерная длина ~300 нт Ошибки секвенирования Ошибки клонирования –несплайсированный транскрипты –геномная ДНК Обогащение к 3-концу (PolyA-праймеры) Альтернативный сплайсинг: 30-50% генов

Human Genome Browser – поиск по имени гена

Результат

MAGE-C1

Ещё о сравнении предсказаний

Альтернативный сплайсинг генов человека (и мыши) Human (genome / random sample) Human (individual chromosomes) Mouse (genome / random sample) All genes Only multiexon genes Genes with high EST coverage 2008 C.Burge 100%

MAGE- A2

GenomeScan=GenScan+BLASTX

Сплайсированное выравнивание Сравнение (формально транслированной) ДНК с аминокислотной последовательностью родственного белка. Динамическое программирование, дополнительная операция – интрон –Только на потенциальных сайтах сплайсинга –Небольшой штраф –Учёт особенностей экзон-интронной структуры – минимальная длина интрона (зависит от генома)

Геномное сравнение. VISTA (human-dog-mouse)

HGB: mRNAs, ESTs, repeats, conservation

Сплайсированое выравнивание геномных последовательностей

RNA-Seq Тотальное секвенирование транскриптомов с очень большим покрытием. Картирование на геном. Картирование на всевозможные комбинации экзонов (в правильном порядке)

Методы (и чего от них ждать) Roche, 454 (2004) –До нт (парные) –Плохое разрешение polyN –100 мегабаз за проход (обещано 500) –Дорого ($1000 за мегабазу) Solexa/Illumina, GA II (2005) (уже есть HiSeq) –75 (в обзоре 35, обещано 100) нт (парные) –50 млн. фрагментов за проход (до 3 гигабаз), 4 дня –$500 за мегабазу (?? – сейчас явно меньше, ~30 тыс за проход) Applied Biosystems, Solid 2.0 (2007) –35 нт, одиночные –3-10 гигабаз за проход, 5-9 дней –$10 за мегабазу Helicos (2009). Single molecule (no amplification) –Доллар за мегабазу –23 нт (кажется, уже 35). –Делеции в polyN –Миллионы молекул, большие гигабазы

Хорошее соответствие экзонов и покрытых участков

Ненулевое покрытие интронов, провалы в экзонах

Ненулевое покрытие интронов – сравнимо с экзонами. Пропуски экзонов – альтернативный сплайсинг?