Распознавание регуляторных сигналов Е.О. Ермакова - занятия Д.А. Равчеев, В.Ю. Макеев, М.С. Гельфанд - слайды Факультет биоинженерии и биоинформатики МГУ.

Презентация:



Advertisements
Похожие презентации
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2006 года) Осенний семестр 2007 Д. А. Равчеев, М. С. Гельфанд.
Advertisements

Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания)
Транскрипция Транскрипция. и РНК и РНК Расскажите о структуре РНК в сравнении со структурой ДНК: - нуклеотидный состав - нуклеотидный состав - состав.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КРАСНОЯРСКИЙ МЕДИКО-ФАРМАЦЕВТИЧЕСКИЙ КОЛЛЕДЖ ФЕДЕРАЛЬНОГО.
Лекция 5 Наталья Володина. Транскрипция Транскрипция, трансляция Альбертс глава 5.
БИОСИНТЕЗ БЕЛКА. Центральная догма молекулярной биологии.
Сравнительный анализ последовательностей ДНК БиБи 4 курс Осень 2005.
Контроль знаний по теме Регуляция на молекулярном уровне.
11 класс Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода;
3. РЕГУЛЯЦИЯ. Размеры геномов Бактерии: – (~3 мм) –Escherichia coli: Дрожжи: – Drosophila: Растения:
Прокариоты: инициация и регуляция транскрипции. РНК-полимераза Главный компонент (core-фермент) σ-фактор Элонгация Распознавание промотора β β α ω α 12.
Биосинтез белка Ученика 9 класса Г Антоненко Андрея.
Биосинтез белка. Генетические и белок-синтезирующие системы эукариотной клетки.
Трансляция. Регуляция биосинтеза белка.. План лекции 1.Условия, необходимые для трансляции. 2.Этапы биосинтеза белка. 3.Посттрансляционный процессинг.
Биосинтез белка Урок биологии в 10 классе Вотинцева Н.Г. - учитель биологии МОУ «СОШ 6» г.Пермь.
LOGO ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КРАСНОЯРСКИЙ МЕДИКО-ФАРМАЦЕВТИЧЕСКИЙ КОЛЛЕДЖ ФЕДЕРАЛЬНОГО.
Тема: Реализация наследственной информации (транскрипция и трансляция).
Синтез РНК. Этапы. Abu Moldir Deryabina Nina. Необходимые условия для биосинтеза РНК Наличие ДНК матрицы; Наличие четырёх типов нуклеотидов; Фермент РНК.
Д. А. Равчеев Регуляция транскрипции в прокариотах Факультет Биоинженерии и Биоинформатики, Московский Государственный Университет им. М.В. Ломоносова.
Структура и функция гена у про- и эукариот Доцент А.В Шапкина Тезисы с иллюстрациями.
Транксрипт:

Распознавание регуляторных сигналов Е.О. Ермакова - занятия Д.А. Равчеев, В.Ю. Макеев, М.С. Гельфанд - слайды Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2010 года) Осенний семестр 2011 года

ChIP-Seq – экспериментальное определение сайтов связывания белков и ДНК

Транскрипция и трансляция в прокариотах

Эукариоты Прокариоты 1. Сопряжение транскрипции и трансляции 2. Котранскрипция нескольких генов (опероны) 1.Транскрипция 2. Процессинг пре-мРНК 3. Экспорт мРНК 4.Трансляция (синтез пре-мРНК) – кэпирование сплайсинг – сплайсинг – полиаденилирование

Сплайсинг ( эукариоты ) Сборка сплайсосомы Разрез на 5 конце интрона, образование «аркана» Разрез на 3 конце интрона, соединение экзонов

Транскрипция в прокариотах : Инициация транскрипции Направление транскрипции Старт транскрипции Промотор

Транскрипция в прокариотах : Регуляция транскрипции РепрессияАктивация

Структура ДНК-связывающего домена CI, фаг

Структура ДНК-связывающего домена Cro, фаг

Белок-ДНКовые взаимодействия CI Cro

Регуляция транскрипции у эукариот

Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать пар оснований Регуляция транскрипции у эукариот Регуляторные модули ( В. Ю. Макеев )

Консенсус Pattern (образец - консенсус с вырoжденными позициями) Матрица частот, nucleotide frequency matrix Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура Представление сигналов

Консенсус CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA 1 purA 2 guaB purR 1 purR 2 consensus

Образец cvpA purM purT purL purE purC purB purH purA 1 purA 2 guaB purR 1 purR 2 consensus pattern CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT amGСAAaCGkTTwCwT Сайты связывания PurR E. coli

Матрица частот Сайты связывания PurR E. coli Информационное содержание : I = j b f (b, j) log [f (b, j) / p (b)] f (b, j) – частота нуклеотида b в позиции j p (b) – частота нуклеотида в геноме где

Диаграмма Лого ( Logo ) Сайты связывания PurR E. coli I = j b f (b, j) log [f (b, j) / p (b)]

Позиционная весовая матрица (профиль ) W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]

Позиционная весовая матрица (профиль ) Термодинамическая мотивировка : свободная энергия Предположение : независимость соседних позиций

Сравнение частотной и весовой матриц ЧастотыВеса

Начало: Исправление ошибок Проверка литературных данных Удаление дубликатов Составление выборки GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи) предсказанные сайты

Первоначальное выравнивание по биологическим признакам Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся Перевыравнивание промоторы : старт транскрипции участки связывания рибосом : стартовый кодон сайты сплайсинга : экзон-интронные границы

Начала генов Bacillus subtilis

Позиционное информационное содержание до и после перевыравнивания после до

Оптимизация Expectation - Maximization Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль) Матрица частот Матрица (профиль) весов k-мер : ACGT

Оптимизация Expectation - Maximization Для каждого профиля : Повторять пока не сойдётся найти наилучшего представителя в каждой последовательности обновить профиль

Оптимизация Expectation - Maximization Недостатки метода : Алгоритм сходится, но не может покинуть область локального максимума Поэтому если начальное приближение было плохим, он сойдётся к ерунде Решение: стохастическая оптимизация

Имитация теплового отжига Цель : максимизировать информационное содержание I или любой другой функционал, измеряющий однородность множества сайтов I = j b f (b, j) log [f (b, j) / p (b)]

Имитация теплового отжига Алгоритм A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A B – сигнал, отличающийся от А выбором сайта в одной последовательности I (B) – информационное содержание B если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью P = exp [ (I(B) – I(A)) / T ] Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).

Gibbs sampler A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~ exp [ (I (A new ) ] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.

Использование свойств сигнала ДНК-связывающие белки и их сигналы Кооперативные однородные Палиндромы Кооперативные неоднородные Кассеты Прямые повторы Другие РНК-сигналы

Распознавание сайтов : весовые матрицы (профили) W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5] Позиционные веса нуклеотидов Вес потенциального сайта (k-мера) b 1 …b k – сумма соответствующих позиционных весов : S (b 1 …b k ) = i=1…k W (b i, j)

Распознавание сайтов : весовые матрицы (профили) GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT carAEscherichia coli K-12 Вес данного потенциального сайта : S = 21,2

Распределение весов сайтов связывания рибосом сайты не сайты вес Кол-во сайтов

Оценка качества алгоритмов Чувствительность = правильно предсказанные все правильные Специфичность = правильно предсказанные все предсказанные Трудно составить тестирующую выборку: неизвестные сайты активация в определенных условиях неспецифическое связывание

Промоторы Escherichia coli K-12 Профиль предсказывает 1 сайт на 2000 нт Чувствительность: –25% на всех промоторах –60% на конститутивных (неактивируемых) промоторах

Эукариотические промоторы Случайные предсказания

Сайты связывания рибосом Надежность предсказания зависит от информационного содержания Информационное содержание Правильно предсказанные старты трансляции (в %)

CRP (Escherichia coli) % OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных) UN = 1 – чувствительность недопредсказание (% потерянных правильных)

Запись GenBank для гена aroP E. coli aroP TyrR PutA OxyRArgR promoter

Что же делать ? Выход : филогенетическое картирование (филогенетический футпринтинг) :правильные сайты консервативны

Консервативная область purL PurR

Менее консервативная область yjcD PurR

rbsD в энтеробактериях RbsR

Сложная ситуация сайты консервативны … Сайты связывания FruR перед ppsA

Сложная ситуация … но не на выравнивании

регулируется НЕ регулируется ? Базовый геном Метод проверки соответствия Геномы родственных организмов

rVista Матрицы TRANSFAQ (частотные) или консенсус

rVista all sites aligned sites conserved sites CNS = conserved non-coding sequences

rVista Conserved sites : располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н. Aligned sites : ключевые позиции идентичны в обеих последовательностях All sites : все сайты : conserved+aligned+все остальные предсказанные

rVista