Секвенирование Платформы Сборка Факультет биоинженерии и биоинформатики МГУ II курс осень 2014 С.А. Спирин 25 ноября 2014.

Презентация:



Advertisements
Похожие презентации
Предидущая презентация
Advertisements

Сжатие информации Алгоритм Хаффмана. Сжатие информации Сжатие данных – сокращение объема данных при сохранении закодированного в них содержания.
Лекция 14. Современные методы для изучения регуляции метаболических реакций в клетке. Геномика и транскрипционный анализ. Проблема ИНФО. Современные возможности.
NGS И ЕГО ПРИМЕНЕНИЕ В РАЗЛИЧНЫХ ОБЛАСТЯХ БИОЛОГИЧЕСКОЙ НАУКИ Мария Логачева
Алфавитный подход к определению количества информации. Представление информации. Урок в 10 классе.
Исследование рынка молочных продуктов. Москва Октябрь 2012.
5 класс Калистратова И.А. школа 91 г.Нижний Новгород.
Геном содержит биологическую информацию, необходимую для построения и поддержания организма. Большинство геномов, в том числе геном человека и геномы.
Эффективность видеорекламы в маршрутном такси Результаты исследования 2009.
1 Программирование на языке Бейсик Тема. Циклы. 2 Циклы Цикл – это многократное выполнение одинаковой последовательности действий. цикл с известным числом.
Основы программирования на Бейсике Массивы. Задание: Найти все 3-хзначные числа, заканчивающихся на 2, 4, 8 и делящихся на 6. Ответ: CLS FOR I=100 TO.
Урок 1 - раздел генетики, занимающийся изучением закономерностей наследования признаков, генетической структуры и динамики популяций.
Двумерные массивы. Задачи обработки двумерных массивов.
1 из 16 Измерение информации из 16 По какой формуле рассчитывается информационный вес каждого символа ? 2 i = N i- количество информации.
Оглавление ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Федеральное государственное образовательное учреждение высшего и профессионального образования Сибирский.
Тема: «Организация генома человека» Выполнил: ст.гр Орынбасаров А.О.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
1 Измерение информации: алфавитный подход Информация и информационные процессы.
«Методика разработки заданий для предметных интеллектуальных соревнований учащихся 2-х – 6-х классов по математике (Подготовка к участию в I Всероссийском.
Маршрутный лист «Числа до 100» ? ? ?
Транксрипт:

Секвенирование Платформы Сборка Факультет биоинженерии и биоинформатики МГУ II курс осень 2014 С.А. Спирин 25 ноября 2014

История : структура ДНК (Уотсон и Крик, Нобелевская премия 1962) 1973: опубликована первая последовательность природной ДНК: 24 п.н. (lac оператор, Максам и Гилберт) 1977: опубликованы методы секвенированиеия Сэнгера и Гилберта (Нобелевская премия 1980) 1982: основан GenBank 1983: разработана полимеразная цепная реакция (ПЦР, PCR) 1987: первый автоматический секвенатор (Applied Biosystems Prism 373) 1995: первый геном бактерии (Haemophilus influenzae) 1996: капиллярный секвенатор ABI 310 (основан на методе Сэнгера) 1998: первый геном животного (круглого червя Caenorhabditis elegans) 2000: человеческий геном (почти полный) 2005: первый пиросеквенатор 454 Life Sciences (c 2007 – Roche): начало эры NGS 2006: первый секвенатор фирмы Solexa (с 2007 – Illumina)

Для чего Геномы разных видов (бактерий, животных, растений) Геномы индивидуумов (изучение индивидуальных различий) Транскриптомы Chip-seq и подобные исследования

Секвенирование по Сэнгеру Этапы: выделение ДНК подготовка «библиотеки» амплификация (клонирование и ПЦР) секвенированиеие «мечеными терминаторами» Характеристики: время работы несколько суток длина прочтения («рида») до 1000 п.н. один рид за раз ошибки ~0,5% Повторением части процедуры (ПЦР+секвенированиеие) можно добиться ридов в несколько тысяч п.н. и почти исключить ошибки.

Секвенирование по Сэнгеру

Платформа 454 Life Sciences (Roche) 6 Этапы: выделение ДНК подготовка «библиотеки» эмульсионный ПЦР пиросеквенированиеие Характеристики: время работы 24 часа длина рида 700 п.н. число ридов 1 млн. ошибки ~0,003%

Платформа Illumina (Solexa) 7 Этапы: выделение ДНК подготовка «библиотеки» ПЦР «мостиками на подложке» секвенированиеие «удаляемыми мечеными терминаторами » Характеристики: время работы 11 дней длина рида 100 п.н. число ридов 3 млрд. ошибки ~0,1%

Случайное покрытие Все платформы «второго поколения» включают подготовку случайных фрагментов генома и их амплификацию (размножение). В результате риды также представляют собой набор случайных фрагментов заданной длины. В идеальном случае вероятность стать началом рида одинакова для всех позиций в геноме (а на практике это не всегда так).

Секвенирование «третьего поколения» 9 Ion Torrent: измеряется ток, возникающий при присоединении нуклеотида к растущей цепи (это перспективная технология, но скорее ещё «второго поколения», так как требует амплификации ДНК): риды 200 п.н., 1% ошибок, ~10 млн. ридов, несколько часов. Helicos: пока риды ~35 п.н., 3% ошибок, 1 млрд. ридов, 8 дней. Появилась в Читается одна молекула! Тем самым не требуется амплификация. Это очень важно для, например, количественных исследований. Pacific Bioscience: фиксируется удерживание нового нуклеотида на растущей цепи. Длина рида несколько тысяч п.н.! ридов за полчаса, 5% ошибок. Oxford Nanopore: цепь ДНК просачивается через нано пору, фиксируются характеристики проходящего нуклеотида. Риды длиной в десятки тыс. п.н.!!! Но пока ~20% ошибок.

Проблема сборки Сборка на уже известный геном (например, чтобы изучать различия между ДНК разных людей) Сборка de novo (например, хотим изучать геном вида, чей геном пока не секвенирование)

Сборка на геном Пусть длина рида 100, размер генома 1 млн п.н. и мы получили ридов. Значит, среднее покрытие = 5. Хватит ли этого, чтобы собрать весь геном?

Сборка на геном Пусть длина рида 100, размер генома 1 млн п.н. и мы получили ридов. Значит, среднее покрытие = 5. Хватит ли этого, чтобы собрать весь геном? Ответ: вряд ли. Риды ложатся случайно, примерно каждый 150-ый нуклеотид ими не покроется. То есть почти наверняка более нуклеотидов не будет покрыто, и при самой идеальной сборке получится не целый геном, а много кусков, разделённых непокрытыми участками. При таком размере генома нужно не менее чем 15-кратное среднее покрытие, чтобы можно было рассчитывать собрать геном полностью! Ещё проблема – повторы. Не всегда рид однозначно «ложится» на геном. Третья проблема – время (при большом покрытии большого генома)

Сборка на геном Главная проблема, решаемая разработчиками алгоритмов – время. Два основных подхода: хэш-таблицы и суффиксные деревья. Имеется несколько десятков программ, часть из них платные, часть – свободно распространяемые.

Сборка de novo Есть два основных типа алгоритмов сборки: OLC = overlap-layout-consensus de Bruijn graph Алгоритмы OLC работают непосредственно с ридами. Алгоритмы, использующие граф де Брайна, сначала составляют список k-миров (слов длины k, например k = 30), встретившихся в ридах. Недостатки: теряется часть информации Достоинства: сильно экономится память (большинство k-миров встречается во многих ридах) упрощается работа с повторяющимися участками есть возможность отсеивать ошибки уже на начальной стадии

Алгоритмы сборки OLC png Программы: Phrap, Cap3, Tigr, …

Проблема повторов

Графы де Брайна

Графы де Брайна ATGGAAGTCGCG GAGGAAGTCCTT

Графы де Брайна Десятки программ: Velvet, ABySS, Trinity, Oases, SOAPdenovo, …

Результат сборки Результат – так называемые «контиги», то есть непрерывные участки генома. Для прокариот часто удаётся собрать весь геном (но редко «полностью автоматически» – обычно нужны дополнительные усилия, например секвенированиеие плохо покрытых участков по Сэнгеру). Для эукариот, как правило, «геномом» объявляется свалка контигов, тем или иным способом приписанных к известным хромосомам. Кроме контигов, бывают ещё «скаффолды» – последовательность контигов, между которыми остаются неизвестные участки (источник такой информации – особый приём секвенированиеия, называемый pair-end read)

Показатели качества сборки Самый популярный – N50. Это наибольшее число такое, что контигами длины > N50 покрыто 50% генома. При этом чаще всего за длину генома принимают суммарную длину контигов. Используется также N90 (аналогично – 90% генома). Эта область биоинформатики очень молода, и удовлетворительные показатели ещё не выработаны!

FastQ GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%++)(%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Каждая последовательность занимает четыре строки: первая начинается со знака и содержит название и описание вторая – последовательность прочтения третья начинается с + (и может содержать повторение названия и описания) четвёртая – той же длины, что последовательность, означает качество каждой буквы – пересчитывается в вероятность ошибки.

Пересчёт качества в вероятность ошибки, где Q – «quality» – число от 0 до 100 (обычно до 40) SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL !"#$%&'()*+,-./ :; | | | | | | S - Sanger Phred+33, raw reads typically (0, 40) X - Solexa Solexa+64, raw reads typically (-5, 40) I - Illumina 1.3+ Phred+64, raw reads typically (0, 40) J - Illumina 1.5+ Phred+64, raw reads typically (3, 40) with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold) (Note: See discussion above). L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)

Пересчёт качества в вероятность ошибки Phred Quality Score Символ Вероятность ошибки Точность 10+1/1090% 2051/10099% 30?1/100099,9% 40I1/ ,99% 50S1/ ,999% 60]1/1 000,00099,9999%