Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВалерия Никуличева
1 Распознавание регуляторных сигналов Е.О. Ермакова - занятия Д.А. Равчеев, В.Ю. Макеев, М.С. Гельфанд - слайды Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2010 года) Осенний семестр 2011 года
2 ChIP-Seq – экспериментальное определение сайтов связывания белков и ДНК
3 Транскрипция и трансляция в прокариотах
4 Эукариоты Прокариоты 1. Сопряжение транскрипции и трансляции 2. Котранскрипция нескольких генов (опероны) 1.Транскрипция 2. Процессинг пре-мРНК 3. Экспорт мРНК 4.Трансляция (синтез пре-мРНК) – кэпирование сплайсинг – сплайсинг – полиаденилирование
5 Сплайсинг ( эукариоты ) Сборка сплайсосомы Разрез на 5 конце интрона, образование «аркана» Разрез на 3 конце интрона, соединение экзонов
6 Транскрипция в прокариотах : Инициация транскрипции Направление транскрипции Старт транскрипции Промотор
7 Транскрипция в прокариотах : Регуляция транскрипции РепрессияАктивация
8 Структура ДНК-связывающего домена CI, фаг
9 Структура ДНК-связывающего домена Cro, фаг
10 Белок-ДНКовые взаимодействия CI Cro
11 Регуляция транскрипции у эукариот
12 Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать пар оснований Регуляция транскрипции у эукариот Регуляторные модули ( В. Ю. Макеев )
13 Консенсус Pattern (образец - консенсус с вырoжденными позициями) Матрица частот, nucleotide frequency matrix Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура Представление сигналов
14 Консенсус CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA 1 purA 2 guaB purR 1 purR 2 consensus
15 Образец cvpA purM purT purL purE purC purB purH purA 1 purA 2 guaB purR 1 purR 2 consensus pattern CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT amGСAAaCGkTTwCwT Сайты связывания PurR E. coli
16 Матрица частот Сайты связывания PurR E. coli Информационное содержание : I = j b f (b, j) log [f (b, j) / p (b)] f (b, j) – частота нуклеотида b в позиции j p (b) – частота нуклеотида в геноме где
17 Диаграмма Лого ( Logo ) Сайты связывания PurR E. coli I = j b f (b, j) log [f (b, j) / p (b)]
18 Позиционная весовая матрица (профиль ) W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
19 Позиционная весовая матрица (профиль ) Термодинамическая мотивировка : свободная энергия Предположение : независимость соседних позиций
20 Сравнение частотной и весовой матриц ЧастотыВеса
21 Начало: Исправление ошибок Проверка литературных данных Удаление дубликатов Составление выборки GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи) предсказанные сайты
22 Первоначальное выравнивание по биологическим признакам Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся Перевыравнивание промоторы : старт транскрипции участки связывания рибосом : стартовый кодон сайты сплайсинга : экзон-интронные границы
23 Начала генов Bacillus subtilis
26 Позиционное информационное содержание до и после перевыравнивания после до
27 Оптимизация Expectation - Maximization Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль) Матрица частот Матрица (профиль) весов k-мер : ACGT
28 Оптимизация Expectation - Maximization Для каждого профиля : Повторять пока не сойдётся найти наилучшего представителя в каждой последовательности обновить профиль
30 Оптимизация Expectation - Maximization Недостатки метода : Алгоритм сходится, но не может покинуть область локального максимума Поэтому если начальное приближение было плохим, он сойдётся к ерунде Решение: стохастическая оптимизация
31 Имитация теплового отжига Цель : максимизировать информационное содержание I или любой другой функционал, измеряющий однородность множества сайтов I = j b f (b, j) log [f (b, j) / p (b)]
32 Имитация теплового отжига Алгоритм A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A B – сигнал, отличающийся от А выбором сайта в одной последовательности I (B) – информационное содержание B если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью P = exp [ (I(B) – I(A)) / T ] Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).
33 Gibbs sampler A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~ exp [ (I (A new ) ] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.
34 Использование свойств сигнала ДНК-связывающие белки и их сигналы Кооперативные однородные Палиндромы Кооперативные неоднородные Кассеты Прямые повторы Другие РНК-сигналы
35 Распознавание сайтов : весовые матрицы (профили) W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5] Позиционные веса нуклеотидов Вес потенциального сайта (k-мера) b 1 …b k – сумма соответствующих позиционных весов : S (b 1 …b k ) = i=1…k W (b i, j)
36 Распознавание сайтов : весовые матрицы (профили) GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT carAEscherichia coli K-12 Вес данного потенциального сайта : S = 21,2
37 Распределение весов сайтов связывания рибосом сайты не сайты вес Кол-во сайтов
38 Оценка качества алгоритмов Чувствительность = правильно предсказанные все правильные Специфичность = правильно предсказанные все предсказанные Трудно составить тестирующую выборку: неизвестные сайты активация в определенных условиях неспецифическое связывание
39 Промоторы Escherichia coli K-12 Профиль предсказывает 1 сайт на 2000 нт Чувствительность: –25% на всех промоторах –60% на конститутивных (неактивируемых) промоторах
40 Эукариотические промоторы Случайные предсказания
41 Сайты связывания рибосом Надежность предсказания зависит от информационного содержания Информационное содержание Правильно предсказанные старты трансляции (в %)
42 CRP (Escherichia coli) % OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных) UN = 1 – чувствительность недопредсказание (% потерянных правильных)
43 Запись GenBank для гена aroP E. coli aroP TyrR PutA OxyRArgR promoter
44 Что же делать ? Выход : филогенетическое картирование (филогенетический футпринтинг) :правильные сайты консервативны
45 Консервативная область purL PurR
46 Менее консервативная область yjcD PurR
47 rbsD в энтеробактериях RbsR
48 Сложная ситуация сайты консервативны … Сайты связывания FruR перед ppsA
49 Сложная ситуация … но не на выравнивании
50 регулируется НЕ регулируется ? Базовый геном Метод проверки соответствия Геномы родственных организмов
52 rVista Матрицы TRANSFAQ (частотные) или консенсус
53 rVista all sites aligned sites conserved sites CNS = conserved non-coding sequences
54 rVista Conserved sites : располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н. Aligned sites : ключевые позиции идентичны в обеих последовательностях All sites : все сайты : conserved+aligned+все остальные предсказанные
55 rVista
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.