Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.В. Алексеевский. 1
Биоинформатика вычислительная молекулярная биология био – ИНФОРМАТИКА 2 Создание и использование баз данных алгоритмов и программ математических методов анализа данных БИО – информатика 1 Цели и задачи – биологические Результаты – биологические вычислительная МОЛЕКУЛЯРНАЯ 3 биология Объекты изучения –биологические молекулы и ихповедение: белки ДНК РНК …………….. ВЫЧИСЛИТЕЛЬНАЯ молекулярная 4 биология Типичный объект – результаты массовых экспериментов: последовательности данные экспрессии генов пространственные структуры больших молекул ………….. 2
CRISPRs ( Clustered Regularly Interspaced Short Palindrome Repeats) История одного открытия
Инфекция и иммунитет Бывают ли инфекционные болезни у бактерий? –Да Кто заражает бактерии? –Бактериофаги Есть ли иммунитет у бактерий? 4
Схема бактериофага Т- 4 Микрофотография бактериофага Т- 4 Заражение бактерии (схема). Клеточная стенка бактерии показана светло-коричневым, цитоплазма бактерии – коричневым, ДНК фага – желтым. 5
Как бактерии защищаются от вторжения чужеродной ДНК? Один механизм изучен в х г.г. (Нобелевская премия 1978 г.): системы рестрикции-модификации Другой открыт в 2007 г.: CRISPR 6
Открытие 1. (1987) Ishino с соавторами обнаружили загадочную последовательность в ДНК кишечной палочки, штамм K12. 7
Вот этот фрагмент последовательности ДНК E.coli. Попробуйте переоткрыть открытие Ishino! >ecoli_crispr1 TGGGTTTGAAAATGGGAGCTGGGAGTTCTACCGCAGAGGCGGGGGAACTCCAAGTGATAT CCATCATCGCATCCAGTGCGCCCGGTTTATCCCCGCTGATGCGGGGAACACCAGCGTCAG GCGTGAAATCTCACCGTCGTTGCCGGTTTATCCCTGCTGGCGCGGGGAACTCTCGGTTCA GGCGTTGCAAACCTGGCTACCGGGCGGTTTATCCCCGCTAACGCGGGGAACTCGTAGTCC ATCATTCCACCTATGTCTGAACTCCCGGTTTATCCCCGCTGGCGCGGGGAACTCCCGGGG GATAATGTTTACGGTCATGCGCCCCCCGGTTTATCCCCGCTGGCGCGGGGAACTCTGGGC GGCTTGCCTTGCAGCCAGCTCCAGCAGCGGTTTATCCCCGCTGGCGCGGGGAACTCAAGC TGGCTGGCAATCTCTTTCGGGGTGAGTCCGGTTTATCCCCGCTGGCGCGGGGAACTCTAG TTTCCGTATCTCCGGATTTATAAAGCTGACGGTTTATCCCCGCTGGCGCGGGGAACTCGC AGGCGGCGACGCGCAGGGTATGCGCGATTCGCGGTTTATCCCCGCTGGCGCGGGGAACTC GCGACCGCTCAGAAATTCCAGACCCGATCCAAACGGTTTATCCCCGCTGGCGCGGGGAAC TCTCAACATTATCAATTACAACCGACAGGGAGCCCGGTTTATCCCCGCTGGCGCGGGGAA CTCAGCGTGTTCGGCATCACCTTTGGCTTCGGCTGCGGTTTATCCCCGCTGGCGCGGGGA ACTCTGCGTGAGCGTATCGCCGCGCGTCTGCGAAAGCGGTTTATCCCCGCTGGCGCGGGG AACTCTCTAAAAGTATACATTTGTTCTTAAAGCATTTTTTCCCATAAAAACAACCCACCA ACCTTAATGTAACATTTCCTTATTATTAAAGATCAGCTAATTCTTTGTTTT 8
Выравнивание повторов Почему в названии CRISPR – Clustered Regularly Interspaced Short Palindromic Repeats есть слова палиндромный повтор? 9
Похожие повторы были найдены в геномах многих бактерий (1993) Через 5 лет Groenen с соавторами нашел похожую последовательность в геноме палочки Коха Mycobacterium tuberculosis (1995) Mojica et al. нашел похожую последовательность в ДНК бактерий Haloferax volcanii и Haloferax mediterranei (1997) Goyal et al. использовали подобные последовательности для определения штамма бактерий. (2000) Mojica et al. нашли похожие последовательности в геномах многих бактерий и архей Разные авторы называли эти последовательности по разному: –TREPs –SRSRs –SPIDRs –CRISPRs –LCTRs 10
Модильяни. Портреты Жанны Эбютернь Сходство – одно из основных понятий биоинформатики 11
Открытие 2 (2002) Jansen et al. обнаружили, что рядом с CRISPR на ДНК почти всегда закодированы похожие гены, названные cas. Современные данные о строении CRISPR кассеты. Схема ДНК. R - повтор S - участки между повторами L – участок между генами и CRISPR Остальные цилиндры - кодирующие последовательности 12
Высказывались разные гипотезы о функции CRISPR CRISPR отвечают за –развитие бактерии (Thony-Meyer и Kaiser, 1993) –правильную дупликацию ДНК (репликацию) при делении бактерии (Mojica et al., 1995) –исправление ошибок в ДНК (Makarova et al., 2002). 13
Открытие 3 и Гипотеза CRISPR содержат участки, очень похожие по последовательности на участки ДНК бактериофагов! (Bolotin et al., 2005; Mojica et al., 2005; Pourcel et al., 2005) Все три группы исследователей предположили, что CRISPR служит для защиты от фагов Makarova et al., 2006, собрали все данные о CRISPR в геномах прокариот и обосновали эту гипотезу методами биоинформатики. 14
Доказательство гипотезы Barrangou et al. (2007). Гипотеза доказана экспериментально: наличие в ДНК бактерии CRISP кассеты защищает бактерию от заражения бактериофагом (не любым, а тем, кусочек последовательности которого встроен в ДНК бактерии). CRISPR/Cas система – активная прокариотическая иммунная система против бактериофагов и других видов чужеродной ДНК (He and Deem, 2010) 15
CRISPR открыты на кончике пера – с помощью анализа последовательностей ДНК и биоинформатики. Открытие (точнее, предсказание) подтверждено экспериментально. 16 Сравните с открытием планеты Нептун математиками Леверье (Франции) и Адамсом (Англии), подтвержденное астрономами Галле и дАррестом 23 сентября 1846 года!
Современные представления о механизме действия CRISPR и Cas белков 17
Биоинформатика вычислительная молекулярная биология био – ИНФОРМАТИКА 2 Создание и использование баз данных алгоритмов и программ математических методов анализа данных БИО – информатика 1 Цели и задачи – биологические Результаты – биологические вычислительная МОЛЕКУЛЯРНАЯ 3 биология Объекты изучения –биологические молекулы и ихповедение: белки ДНК РНК …………….. ВЫЧИСЛИТЕЛЬНАЯ молекулярная 4 биология Типичный объект – результаты массовых экспериментов: последовательности данные экспрессии генов пространственные структуры больших молекул ………….. 18
Биологические молекулы ДНК РНК Белок (другие…) 19
ДНК? РНК? Белок? 20
ДНК? РНК? Белок? 21
ДНК? РНК? Белок? 22
ДНК? РНК? Белок? 23
>AM tRNA-Ala gene uagcuagucuaacccucgggagga cgguuaccacgggugugauucaug acuggggugaagucguaacaaggu agccguaggggaaccugcggcugg aucaccuccuuaaucgaagacauc accgucgccacaaguucccacacg aauugcuugauucauugcgaagac gauugggucuguagggcaguuggu ugga ДНК? РНК? Белок? 24
agcttttcattctgactgcaacgggcaatatgtctctgtgtggatta aaaaaagagtgtctgatagcagcttctgaactggttacctgccgtga gtaaattaaaattttattgacttaggtcactaaatactttaaccaat ataggcatagcgcacagacagataaaaattacagagtacacaacatc catgaaacgcattagcaccaccattaccaccaccatcaccattacca caggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcc cgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggt aacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatg cagaacgttttctgcgtgttgccgatattctggaaagcaatgccagg caggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaa ccacctggtggcgatgattgaaaaaaccattagcggccaggatgctt tacccaatatcagcgatgccgaacgtatttttgccgaacttttgacg ggactcgccgccgcccagccggggttcccgctggcgcaattgaaaac tttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggca ttagtttgttggggcagtgcccggatagcatcaacgctgcgctgatt tgccgtggcgagaaaatgtcgatcgccattatggccggcgtattaga agcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgc tggcagtggggcattacctcgaatctaccgtcgatattgctgagtcc acccgccgtattgcggcaagccgcattccggctgatcacatggtgct gatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgc ttggacgcaacggttccgactactctgctgcggtgctggctgcctgt ttacgcgccgattgttgcgagatttggacgg ДНК? РНК? Белок? 25
ДНК? РНК? Белок? 26
ДНК? РНК? Белок? 27
ДНК? РНК? Белок? 28
ДНК? РНК? Белок? >2POR PORIN EVKLSGDARMGVMYNGDDWNFSSRSRV LFTMSGTTDSGLEFGASFKAHESVGAE TGEDGTVFLSGAFGKIEMGDALGASEA LFGDLYEVGYTDLDDRGGNDIPYLTGD ERLTAEDNPVLLYTYSAGAFSVAASMS DGKVGETSEDDAQEMAVAAAYTFGNYT VGLGYEKIDSPDTALMADMEQLELAAI AKFGATNVKAYYADGELDRDFARAVFD LTPVAAAATAVDHKAYGLSVDSTFGAT TVGGYVQVLDIDTIDDVTYYGLGASYD LGGGASIVGGIADNDLPNSDMVADLGV KFKF 29
ДНК? РНК? Белок? 30
ДНК? РНК? Белок? 31
ДНК? РНК? Белок? 32
ДНК? РНК? Белок? 33
ДНК? РНК? Белок? 34
ДНК БелокРНК >AE3172 DNA fragment gtacacaacatccatgaaacgcat tagcaccaccattaccaccaccat caccattaccacaggtaacggtgc gggctgacgcgtacaggaaacaca gaaaaaagcccgcacctgacagtg cgggcttt >2POR PORIN EVKLSGDARMGVMYNGDDW NFSSRSRVLFTMSGTTDSG LEFGASFKAHESVGAETGE DGTVFLSGAFGKIEMGDAL >AM tRNA-Ala uagcuagucuaacccucggga ggacgguuaccacggguguga uucaugacuggggugaagucg uaacaagguagccguagggga accugcggcuggaucaccucc uuaaucgaagacaucaccguc 35
Словарь Ген Белок Экспрессия Геном Протеом 36
Следующее занятие начнется с контрольной на 5 минут Что нужно уметь для контрольной (будут подсказки, но за использование балл снижается): 1)Дана короткая последовательности ДНК. Написать последовательность комплементарной цепочки. 2)Последовательность какой из двух комплементарных цепочек ДНК записывают в банке данных? 3)Оценить объём всех известных последовательностей белков 4)Оценить объём оперативной памяти обычного персонального компьютера 37
Структура курса 38 СеместрИнформатикаБиоинформатика IКомпьютерная грамотность IIПоследовательности белков IIIПоследовательности и структуры нуклеиновых кислот IVПрограммированиеЭволюция нуклеиновых кислот и белков VТеория алгоритмов + программирование VIАлгоритмы биоинформатики VIIГеномика Пространственные структуры белков
Курсовые работы 4 курсовых (II-IV, V-VI, VII-VIII, IX-X семестры) Курсовая работа выполняется в одной из лабораторий ФББ или НИИФХБ (по договоренности студента с руководителем – тьютором) Темы см. на сайте kodomo; новые будут объявлены в декабре Куратор курсовых – Л.Зиновкина 39
Учебный сайт по биоинформатике: далее по ссылкам 40
Правила зачёта Темы Число занятий Форма Отчета Дата предъявления отчета Блок 1 Linux (чуть- чуть) FAR Manager 2Миниконтрольная Internet2Миниконтрольные HTML2 Отчет (на персональной страничке в интернет) Блок 2 Excel3Отчет в формате *.xls Блок 3 RasMol5 1.Контрольное занятие по RasMol 2. Отчет в формате HTML 23 декабря проставление зачета при наличии зачётов по трем блокам Ведётся сквозной рейтинг по биоинформатике. Он учитывается в рекомендациях, даваемых преподавателями студентам. 41
Не стесняйтесь спрашивать! 42
УДАЧИ! 43
Внимание! Придумайте себе пользовательское имя (например, «tanya_s» или «greatlion89») и пароль. Требования к имени: только строчные латинские буквы, цифры, знак подчеркивания, точка и дефис. Первым символом должна быть буква. Требования к паролю: 1) без русских букв (иначе будут проблемы, связанные с кодировками!); 2) не короче 8 символов; 3) не должен содержать в себе пользовательское имя или его заметную часть; 4) не должен являться английским словом; 5) желательно включать хотя бы одну цифру и хотя бы одну букву. 44