Алгоритмы кластеризации регуляторных сигналов Ставровская Елена Институт проблем передачи информации РАН.

Презентация:



Advertisements
Похожие презентации
Автоматический поиск регуляторных сигналов перед генами в рамках функциональных подсистем. Ставровская Е.Д. 1,3, Сиприано М. 2, Дубчак И.Л. 2, Миронов.
Advertisements

Урок повторения по теме: «Сила». Задание 1 Задание 2.
1. Определить последовательность проезда перекрестка
Школьная форма Презентация для родительского собрания.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Да играем на боулинг Личный сайт Автор: Курипко Ольга Анатольевна Донецкая многопрофильная.
Разработал: Учитель химии, биологии высшей квалификационной категории Баженов Алексей Анатольевич.
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
годы 3 ноября 2000 года 4 октября 2002 года.

Michael Jackson
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
1 1. Все внешние силы лежат в одной плоскости, проходящей через главную ось сечения 2. Силы перпендикулярны продольной оси Вначале рассматривается наиболее.
Теория вероятностей и статистика Работа Курылёвой Анастасии ученицы 8»А»
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
Транксрипт:

Алгоритмы кластеризации регуляторных сигналов Ставровская Елена Институт проблем передачи информации РАН

Постановка задачи Множество геномов Таблица ортологов Сравнение белковых последовательностей Наборы областей перед ортологичными генами Регуляторные сигналы Программа поиска сигналов кластеризация Регулоны Геном 1 Геном 2 Геном 3 ген1 ген2 ген3 ген4 Ген1 CCCTTCAGACCGCAATACTAGACCGCAATACTGCGGGTTT CCATGTTATCGAGTAAGTTACCGCAAAAGCGGCATTGGAC CGACCGCAACTAGACCGCAATACTGCATACACCACCACAT Ген1 ACCGCAA ACCACAA ACCGCAA Ген2 ACCGTAA ACCGCAA ACAGTAA Ген3 TTCTGAG TACTGAG TACTCAG Ген4 TTCTGTG TACTGAG TACTCTG Ген1 ACCGCAA Ген1 ACCACAA Ген1 ACCGCAA Ген2 ACCGTAA Ген2 ACCGCAA Ген2 ACAGTAA Ген3 TTCTGAG Ген3 TACTGAG Ген3 TACTCAG Ген4 TTCTGTG Ген4 TACTGAG Ген4 TACTCTG регуляторАрегуляторВ Геном1ген1, ген2ген3, ген4 Геном2ген1, ген2ген3, ген4 Геном3ген1, ген2ген3, ген4 Ген2 CCCTTCAGACCGCAATACTAGACCGCAATACTGCGGGTTT CCATGTTATCGAGTAAGTTACCGCAAAAGCGGCATTGGAC CGACCGCAACTAGACCGCAATACTGCATACACCACCACAT Ген3 CCCTTCAGACCGCAATACTAGACCGCAATACTGCGGGTTT CCATGTTATCGAGTAAGTTACCGCAAAAGCGGCATTGGAC CGACCGCAACTAGACCGCAATACTGCATACACCACCACAT Ген4 CCCTTCAGACCGCAATACTAGACCGCAATACTGCGGGTTT CCATGTTATCGAGTAAGTTACCGCAAAAGCGGCATTGGAC CGACCGCAACTAGACCGCAATACTGCATACACCACCACAT

Классификация алгоритмов Статистические – определяют сигналы в кластеры в соответствии с апостериорным распределением вероятностей. Иерархические – структурируют исходные данные, сравнивая фрагменты попарно друг с другом и объединяя похожие.

Van Nimvegen et al., 2002 Разбиение C -- всегда добавляем сигнал в кластер -- добавляем сигнал в кластер с вероятностью

– распределение мотивов по кластерам Qin et al., 2003 Алгоритм BMC (Bayesian motif clustering) n – мотивов N – потенциальных кластеров – номер кластера, содержащего мотив i

где – частота встречаемости нуклеотида i в позиции k мотива, – среднее значение частоты в столбце k. Hughes et al., 2000 D

ClusterTree-RS D ATAATCG ACAATCG AGAAACC CTAATCG ACAATCG ATAATCG ACAATCG AGAAACC CTAATCG ACAATCG … где Ik – информационное содержание в позиции k для общего набора сайтов [9], fj(i, k) – частота встречаемости нуклеотида i в позиции k для набора сайтов дочернего узла j, – среднее значение частоты в столбце k

ClusterTree-RS … …… … R>0 R

ClusterTree-RS Определение кластера ATAATCG ACAATCG AGAAACC CTAATCG ACAATCG ATAATCG ACAATCG AGAAACC CTAATCG ACAATCG … tgca tgca tgca … =

ClusterTree-RS Определение кластера

Сравнение алгоритмов Таблица 1. Сравнение средних значений ошибки для различных существующих методов кластеризации. Размер сигнала Ошибка a KM b HC-1 c HC-2 d BMC-1 e BMC-2 f ClusterTree- RS g 2-4 сайтов Частота ошибок, % (E, σ) 32,9 (5,2)26,3 (6,1)63,7 (1,7)9,0 (1,7)5,8 (0,2)10,7 (2,0) Кол-во кластеров, (E, σ) (4,2)34,4 (1,5)38,0 (1,3)49,8 (2,2) 2-10 сайтов Частота ошибок, % (E, σ) 33,4 (3,9)14,1 (3,1)25,7 (2,4)3,3 (1,0)2,5 (0,1)5,7 (1.0) Кол-во кластеров, (E, σ) ,9 (6,7) 40,6 (1,2)41,6 (0.6)46,8 (1,7) 5-10 сайтов Частота ошибок, % (E, σ) 31,6 (4,6)3,9 (1,1)11,0 (1,5)2,6 (0,4)2,2 (0,0)3,6 (0,7) Кол-во кластеров, (E, σ) 43 66,0 (3,9)41,4 (0,7)42,0 (0,1)43.2 (1.0)

Достоинства и недостатки Иерархические – работают быстро, но менее надежны. Статистические – более гибкие, но работают долго.

Благодарности Миронову Андрею Александровичу Макееву Всеволоду Юрьевичу Гельфанду Михаилу Сергеевичу Калининой Ольге Вячеславовне