Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.В. Алексеевский. Использованы материалы лекций А.Б.Рахманиновой и С.А.Спирина
Что такое биоинформатика? Определение: биоинформатика это наука … Термины Биоинформатика иВычислительная молекулярная биология - почти синонимы Пропустим определение науки биоинформатики (да и наука ли это?). Вместо этого опишу, какие задачи решает биоинформатика в одной практической проблеме.
Хламидии и хламидиоз Хламидии – патогенные бактерии Хламидии живут внутри клеток организма-хозяина (человека) Хламидии могут персистировать – длительно жить внутри клетки- хозяина Хламидии управляют хозяйской клеткой таким образом, чтобы подавить защитные механизмы клетки-хозяина; в частности, блокируют апоптоз – самоубийство клетки Нужны новые лекарства для лечения персистирующего хламидиоза!
Что может быть мишенью лекарства против хламидиоза? Потенциальные мишени антибактериального лекарства – белки бактерии Ответ: - белками; - генами, кодирующими эти белки. Чем отличается хламидия от человека?
Как найти белки - мишени для лекарства? Задача: найти такие белки хламидии, которые -важны для существования бактерии внутри клетки; например, секретируются (проникают в цитоплазму клетки-хозяина) и подавляют апоптоз; - непохожи на белки человека.
Что такое белок? Белок CADD – Сhlamydia Associated Death domain Так выглядит один из белков Chlamydia trachomatis Есть данные, говорящие о том, что CADD – один из антиапоптотических (подавляющих апоптоз) белков хламидии
Что такое белок? Полипептидная цепь белка CADD Тот же белок в, так называемой,картонной модели Отдельные атомы не показаны
Что такое ген? Молекулярный биолог: участок (двухцепочечной) молекулы ДНК, кодирующий один белок Биоинформатик: последовательность букв (слово), кодирующее соответствующий участок молекулы ДНК
Ген белка CADD Буквы – основания ДНК: A, T, G, C Почему не приведена последовательность второй цепочки? > AE Chlamydia trachomatis D/UW-3/CX hypothetical protein atgatggaggtgtttatgaattttttagatcagttagatttaattattcaaaataagcat atgctagaacacacattttatgtgaaatggtcgaagggggagcttactaaagagcaatta caggcgtatgccaaagactattatttacatatcaaagcctttcctaaatatttatctgcg attcatagtcgttgcgatgatttagaggcgcgtaagttattgttagataacttgatggat gaagagaacggttaccctaatcatattgatttgtggaagcagtttgtgtttgctctagga gttactccagaagagttagaggctcatgagcctagtgaagcagcaaaagcgaaagtagct actttcatgcggtggtgtacaggagattctttagctgcaggagtggctgctttgtattct tatgagagtcaaattccacgtatcgctagagagaaaattcgtggattgactgagtacttt ggattttccaatcctgaagactatgcatatttcacagaacatgaagaagcggatgtgcgg catgctagagaagaaaaagcgctcattgagatgcttctcaaagatgacgctgataaagtg ttagaggcatcgcaagaagtaacgcaatctttgtatggctttttagattcttttttggat ccaggaacttgttgtagttgtcatcaatcttattaa
Как найти все белки хламидии и человека? Геном – это последовательность всей ДНК организма. Фрагмент генома см. на след. слайде План действий: 1) Секвенируем геном хламидии - эксперимент. Склейка – задача биоинформатики 2) Секвенируем геном человека (уже секвенирован). 3) Предсказываем гены в геноме – биоинформатика
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
Как найти ген в геноме бактерии? Законы кодирования: 1)Ген начинается кодоном (тройкой букв) ATG 2)Следующие кодоны кодируют аминокислоты, они идут один за одним без пропусков. Соответствие между кодонами см. в таблице стандартного генетического кода. 3)Первое появление одного из трех стоп-кодонов – TGA, TAA, TAG – обозначает конец гена. Стоп-кодон принято включать в ген. 4) Ген может быть расположен на любой из двух цепочек ДНК.
Закон биологии: Имеет ли исключения этот закон?! Каждый закон биологии имеет исключения
Еще раз ген белка CADD Последовательность гена приведена в, так называемом, fasta-формате. Компьютерные программы понимают где имя последовательности (выделено) и где – сама последовательность. > AE Chlamydia trachomatis D/UW-3/CX hypothetical protein atg atggaggtgtttatgaattttttagatcagttagatttaattattcaaaataagcat atgctagaacacacattttatgtgaaatggtcgaagggggagcttactaaagagcaatta caggcgtatgccaaagactattatttacatatcaaagcctttcctaaatatttatctgcg attcatagtcgttgcgatgatttagaggcgcgtaagttattgttagataacttgatggat gaagagaacggttaccctaatcatattgatttgtggaagcagtttgtgtttgctctagga gttactccagaagagttagaggctcatgagcctagtgaagcagcaaaagcgaaagtagct actttcatgcggtggtgtacaggagattctttagctgcaggagtggctgctttgtattct tatgagagtcaaattccacgtatcgctagagagaaaattcgtggattgactgagtacttt ggattttccaatcctgaagactatgcatatttcacagaacatgaagaagcggatgtgcgg catgctagagaagaaaaagcgctcattgagatgcttctcaaagatgacgctgataaagtg ttagaggcatcgcaagaagtaacgcaatctttgtatggctttttagattcttttttggat ccaggaacttgttgtagttgtcatcaatcttat taa
Следующее занятие начнется с контрольной на 5 минут Задание контрольной: 1)В данной небольшой последовательности ДНК найти ген, если известно, что он кодирует три аминокислотных остатка (в природе таких коротких генов не бывает!) Помните, что ген может быть расположен на любой из двух цепочек ДНК! Узнайте как записать последовательность второй – комплементарной – цепочки! 2)Записать найденный ген (сколько букв?) в fasta-формате (в контрольной – на бумаге) На след. слайде отмечены все кодоны ATG и все стоп- кодоны в одной цепочке ДНК. Еще на следующем – гены на этом участке.
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
Как найти все белки хламидии и человека? Протеом – это совокупность всех белков организма План действий (продолжение): 4) «Транслируем» гены – находим аминокислотные последовательности всех белков протеома - биоинформатика 5) Предсказываем функции белков по сходству - биоинформатика
Как выбрать белки-мишени? План действий: 6) Проверяем предсказания: выделяем белки и проверяем всё ли так, как предсказано – эксперимент 7) Определяем на каких стадиях развития бактерии экспрессируется (т.е. производится бактерией) белок – эксперимент с микрочипами, их анализ - биоинформатика 8) Отбираем белки – потенциальные мишени для лекарств – биология 9) Определяем пространственную структуру таких белков – много наук участвуют, очень непростое дело.
Как найти химические соединения – потенциальные кандидаты для создания лекарств? Активный центр – та часть молекулы, которая взаимодействует с др. молекулами для выполнения белком его основной функции План действий: 10) Подбираем на компьютере химические соединения, связывающиеся с белком в районе активного центра белка – биоинформатика
Структура белка VirB11 – АТФазы из четвёртой транспортной системы бактерии Brucella suis.
Рис. 3. Положение молекулы ингибитора MTFPT в комплексе с VirB11. Один мономер VirB11 изображён в шариковой модели зелёного цвета, другой в ленточной модели жёлтого цвета.
Как найти все белки хламидии и человека? План действий: 11) Синтезируем отобранные химические соединения – химия 12) Проверяем действие химических соединений а) на хламидии; б) на животных (мышей) и отбираем перспективные для создания лекарства – биология, фармакология. ВОТ и ВСЕ!
Что такое биоинформатика? Применение математических и компьютерных методов для решения биологических задач Биоинформатика и вычислительная биология нужны тогда, когда есть массовые экспериментальные данные. Сравнивая их, можно решать большое число важных биологических задач. Компьютерное решение всегда требует экспериментального подтверждения – жизнь сложна!
Последовательности нуклеиновых кислот Последовательности белков Пространственные структуры макромолекул (белков, ДНК и РНК) и их комплексов (друг с другом и с малыми молекулами) Основные объекты современной биоинформатики
Все последовательности ДНК хранятся в банке EMBL (Европа), они же хранятся в банках GenBank (США) и DDBJ (Япония) Последовательности белков хранятся в банке Uniprot
На 2 сентября 2008 года в банке Uniprot было 6,610,332 последовательностей
Задачи биоинформатики Создание компьютерных программ для работы с биологическими данными. Разработка алгоритмов для анализа большого объема биологических данных. –Создание банка данных аминокислотных последовательностей –Алгоритм поиска генов в геноме
Создание компьютерных программ для облегчения работы с большими объемами биологических данных. –Создание банка данных аминокислотных последовательностей Анализ и интерпретация данных о нуклеотидных и аминокислотных последовательностях. –Алгоритмы сравнения (выравнивания) последовательностей –Реконструкция филогенетических деревьев Задачи биоинформатики
Создание компьютерных программ для облегчения работы с большими объемами биологических данных. –Создание банка данных аминокислотных последовательностей Анализ и интерпретация данных о нуклеотидных и аминокислотных последовательностей. –Алгоритмы сравнения (выравнивания) последовательностей –Реконструкция филогенетических деревьев Анализ и интерпретация данных о структуре молекул белков, структуре комплексов молекул белков с другими молекулами. –Изучение структуры активного центра белка
Методы работы Доступ к банкам через Интернет Использование специальных программ on-line (через web-интерфейс) Использование стандартных (e.g. Excel) и специальных программ на сервере института или на персональном компьютере Создание собственных скриптов («сценариев») и программ
Биоинформатика и её связи с другими дисциплинами Биоинформатика (компьютерная молекулярная биология) Молекулярная биология Информатика (в том числе теория алгоритмов) Теория вероятностей и математическая статистика
Две составных части биоинформатики как учебного предмета: Практическая биоинформатика: что надо знать о компьютерных методах биологу- экспериментатору Профессиональная подготовка компьютерных биологов (последние могут быть как исследователями накопленного экспериментального материала, так и разработчиками алгоритмов)
Структура курса
Курсовые проекты 3 проекта (II-III, IV-V, VI-VII семестры) Курсовой проект не обязательно биоинформатический Темы проектов будут объявлены в декабре Куратор проектов – А.В.Алексеевский
Дополнительно учебный сайт: далее по ссылкам есть научный семинар для студентов (?), следите за объявлениями...
Внимание! Вам необходимо к следующему занятию получить учётную запись для работы в домене компьютерного класса. Для этого придумайте себе пользовательское имя (например, «tanya_s» или «greatlion89») и пароль. Требования к имени: только строчные латинские буквы, цифры, знак подчеркивания, точка и дефис. Первым символом должна быть буква. Требования к паролю: 1) без русских букв (иначе будут проблемы, связанные с кодировками!); 2) не короче 8 символов; 3) не должен содержать в себе пользовательское имя или его заметную часть; 4) не должен являться английским словом; 5) желательно включать хотя бы одну цифру и хотя бы одну букву.
Структура первого семестра Официальный зачёт по итогам семестра проставляется «автоматом» при наличии зачётов по всем блокам. Ведётся рейтинг студентов (неофициальный, но кое-где будет учитываться...) Темы Число занятий Форма Отчета Дата предъявления отчета Блок 1 FAR Manager1 Миниконтрольная на занятии Internet2 HTML2 Отчет (на персональной страничке в интернет) Блок 2 Excel4Отчет в формате *.xls Блок 3 ChemSketch1 RasMol5 1.Контрольное занятие по RasMol 2. Отчет в формате HTML 19/22 декабря получение зачета
Не стесняйтесь спрашивать! Мы здесь для того, чтобы вам помогать.
Операционная система (ОС) программа, управляющая запуском приложений и позволяющая человеку («пользователю») общаться с компьютером Мы будем иметь дело с двумя различными операционными системами: Windows XP (семейство Microsoft Windows) Linux (семейство UNIX) Первое время в основном с Windows.
УДАЧИ!