МОТИВЫ ДНК. ЧТО ЭТО ТАКОЕ? Шкурат Татьяна Павловна
Работа выполняется в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» теме «Создание биоинформационной технологии поиска взаимосвязанных сценариев организации в геномах животных и человека некодирующей ДНК и кодирующей белок ДНК» государственный контракт от 01 сентября 2010 г
Гены это участки ДНК, несущие какую-либо целостную информацию о строении одной молекулы белка или одной молекулы РНК.ДНКмолекулыбелкаРНК
Свойства генов (или кодирующих участков ДНК) дискретность несмешиваемость генов; дискретность стабильность способность сохранять структуру; стабильность лабильность способность многократно мутировать; лабильность множественный аллелизм многие гены существуют в популяции во множестве молекулярных форм; множественный аллелизм аллельность в генотипе диплоидных организмов только две формы гена; аллельность специфичность каждый ген кодирует свой признак; специфичность плейотропия множественный эффект гена; плейотропия экспрессивность степень выраженности гена в признаке; экспрессивность пенетрантность частота проявления гена в фенотипе; пенетрантность амплификация увеличение количества копий гена. амплификация
Усредненные данные о структуре белок– кодирующих генов генома человека В реальности размеры разных генов, а также их экзонов и интро–нов сильно отличаются. И основной вклад в эту вариабельность вносят интроны. Максимальный по размерам ген дистрофина занимает в геноме человека 2,4 млн. п. н. Подавляющая часть занята именно интронами (их редний размер составляет несколько десятков тысяч п. н.). Наибольшую кодирующую последовательность в геноме человека имеет ген по имени титин. Его размер равен около п. н. Этот ген – чемпион и по числу интронов (178 штук!), и по длине единичного экзона (17106 п. н.). Важно отметить, что разбивка генов на отдельные экзоны неслучайна. Индивидуальный экзон часто кодирует не просто какую- то часть белковой молекулы, а определенный фрагмент белка, выполняющий в целом белке отдельную функцию. Такой отдельный структурно–функциональный фрагмент, входящий в состав целого белка, называют доменом.
Genes and Gene Structures Presently estimated Gene Number: (reference: ) Average Gene Size: 27 kb The largest gene: Dystrophin 2.4 Mb - 0.6% coding – 16 hours to transcribe. The shortest gene: tRNA TYR 100% coding Largest exon: ApoB exon 26 is 7.6 kb Smallest:
Гены не равномерно распределены между разными хромосомами У человека около 10 генов на 1,0 млн. п.н. у червя C. elegans 200 на 1,0 млн. п. н. у дрожжей около 450 генов на 1,0 млн. п. н. в геноме бактерий содержится свыше 1000 генов на 1,0 млн. п. н. Следовательно, плотность расположения генов на единицу длины генома заметно падает по мере эволюционного усложнения организмов.
1 хромосома - 8% of the human genome, 3,141 gene structures and 991 pseudogenes 6 хромосома - 6 % от общего генома и 1,557 genes and 633 pseudogenes 20 хромосома 633 gene structures and 296 pseudogenes Х хромосома genes in the sequence, of which 99 encode proteins expressed in testis and in various tumour types Х У средняя плотность один ген на 100 т. п. н. генома их содержание в хромосоме 19 составляет около 2 на 100 т.п.н., а в хромосомах 2, 13 и Y – хромосоме – от 0,15 до 0,7. Если сравнить плотность генов с плотностью расселения людей, то Y – хромосома напоминает нашу Сибирь, а хромосома 19 – Европейскую часть России.
Human and mouse chromosomes: global orthology
Расшифрован ли геном? Перехватить зашифрованное сообщение еще не значит его понять Расшифрован ли геном? Перехватить зашифрованное сообщение еще не значит его понять
Ген интерферона выделен курсивом. Подчеркнут участок, кодирующий белок, состоящий из 188 аминокислот. Жирным шрифтом выделены знаки пунктуации в этом гене, обеспечивающие его правильную транскрипцию с образованием мРНК и последующую правильную трансляцию этой мРНК Фермент, называемый РНК–полимеразой, узнает эти сигналы и осуществляет синтез «правильных» молекул мРНК (со строго запрограммированными в геноме концами). Одним из таких знаков препинания в ДНКовом тексте, отмечающим начало процесса транскрипции, служит короткая последовательность нуклеотидов: ТАТА Место, с которого начинается кодирование белка, – старт–сигнал – триплет АУТ. Далее следуют триплеты, которые кодируют аминокислоты в белке. А в конце текста имеется специальный стоп–сигнал (триплет УГА).
Начала генов Bacillus subtilis ATG - это начало гена, первый кодон, сам ген будет дальше, а перед этим есть последовательность, которая опознается рибосомой
Участок связывания рибосом Последовательность Шайна-Дальгарно AGGAGG Участок связывания рибосом мРНК прокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUGмРНКпрокариотнуклеотидовкодона. Комплементарная последовательность CCUCCU, называемая последовательностью анти-Шайна-Дальгарно, располагается на 3'-конце молекулы 16S рибосомной РНКрибосомной РНК
Два сайта связывания для РНК- полимеразы ТАТААТ АТАТТА (ТАТА бокс Блок Прибнова ) (нуклеотидная последовательность у прокариот, расположенная за 10 нуклеотидов от точки инициации транскрипции и обычно состоящая из 6 (иногда до 9) оснований, каноническая последовательность Б. П. - ТАТААТ; а другой TTGAC AACTG Расположена за 35 (область 35) нуклеотидов до сайта инициации транскрипции (нуклеотид +1)
Бокс Хогнесса ТАТА(АТ)А(АТ) Специфическая последовательность нуклеотидов, присутствующая в промоторных областях генов эукариот (часто в положении -25); обобщенная структура Б.Х. - ТАТА(АТ)А(АТ); выполняет регуляторную функцию - участвует в инициации транскрипции, обеспечивая ориентацию РНК-полимеразы относительно промотора, функционально эквивалентен боксу Прибнова у прокариот.
Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий Консервативные последовательности перед генами рибофлавинового пути из очень разных бактерий Последовательности транспортеры легко идентифицировать. Во-первых, они образуют большие семейства схожих белков, и иногда их можно просто опознать по сходству с уже известными транспортерами. Во-вторых, даже если это что-то новое, белок, который проходит несколько раз через мембрану, точнее, его трансмембранные участки, имеют довольно характерный аминокислотный состав, и поэтому их легко опознавать. красное это абсолютно консервативные позиции, и их много. А бактерии самые разные
Консервативная вторичная структура RFN-элемента
РНК домашнего хозяйства tРНК Трансляция генетической информации rРНК Компонент рибосом; snРНК Пре-мРНК сплайсинг; компонент слайсеосомы snoРНК Модификация РНК, включая 2'-O- метилирование и псевдоуридилинирование РНКаза Р РНК Созревание 5' концов пре-tРНК Теломеразная РНК Синтез теломерной ДНК; компонент теломеразы 7 SL РНК Экспорт белков у эукариот tm РНК Транс-трансляция Y РНК Компонент Ro рибонуклеопротеина; функция неизвестна РНКаза МРП Процессинг митохондриальной РНК ФУНКЦИОНАЛЬНАЯ КЛАССИФИКАЦИЯ НЕКОДИРУЮЩИХ БЕЛОК РНК
НЕКОДИРУЮЩАЯ БЕЛОК ДНК, ДНК кодирующая функциональные РНК Noncoding functional RNA ribosomal RNA, transfer RNA, Piwi-interacting RNA and microRNA. ribosomal RNAtransfer RNAPiwi-interacting RNAmicroRNA MicroRNAs are predicted to control the translational activity of approximately 30% of all protein-coding genes in mammals and may be vital components in the progression or treatment of various diseases including cancer, cardiovascular disease, and the immune system response to infection. [6]mammalscancercardiovascular diseaseimmune systeminfection [6] Cis-regulatory elements Cis-regulatory elements are sequences that control the transcription of a gene. Cis-elements may be located in 5' or 3' untranslated regions or within introns Cis-regulatory elementstranscription5'3'untranslated regionsintrons Promoters facilitate the transcription of a particular gene and are typically upstream of the coding region. Promotersupstream Enhancer sequences may exert very distant effects on the transcription levels of genes. [7] Enhancer [7]
Introns InternsInterns are non-coding sections of a gene, transcribed into the precursor mRNA sequence, but ultimately removed by RNA splicing during the processing to mature messenger RNA.precursor mRNARNA splicingmessenger RNA Many introns appear to be mobile genetic elements.mobile genetic elements Studies of group I introns from Tetrahymena indicate that some introns appear to be selfish genetic elements, neutral to the host because they remove themselves from flanking exons during RNA processing and do not produce an expression bias between alleles with and without the intron.group I intronsTetrahymenaselfish genetic elementsexonsRNA processingalleles Some introns do appear to have significant biological function, possibly through ribozyme functionality that may regulate tRNA and rRNA activity as well as protein-coding gene expression, evident in hosts that have become dependent on such introns over long periods of time; for example, the trnL-intron is found in all green plants and appears to have been vertically inherited for several billions of years, including more than a billion years within chloroplasts and an additional 2–3 billion years prior in the cyanobacterial ancestors of chloroplastsribozymetRNArRNAgreen plantsvertically inheritedchloroplastscyanobacterial
Перевод: английский > русский Стажеры некодирующих участках гена, транскрибируется в РНК последовательности предшественника, но в конечном счете удалены сплайсинг РНК во время обработки для зрелой РНК. Многие интроны по всей видимости, мобильных генетических элементов. Исследования группы я интроны из Tetrahymena показывают, что некоторые интроны по всей видимости, эгоистичных генетических элементов, нейтральные к принимающей потому что они снимают себя от флангового экзонов при обработке РНК и не производят выражение смещения между аллелями с и без интронов. Некоторые интроны делать по всей видимости, имеют значительные биологические функции, возможно, через рибозим функциональность, которая может регулировать тРНК и рРНК деятельности, а также белок-кодирующих генов, очевидно в хосты, которые попали в зависимость от таких интронов в течение длительного периода времени, например, trnL-интрон содержится во всех зеленых растений и, кажется, были унаследованы вертикально в течение нескольких миллиардов лет, в том числе более миллиарда лет в хлоропластах и дополнительные 2-3 миллиарда лет до в цианобактерий предков хлоропластов
Pseudogenes Pseudogenes are DNA sequences, related to known genes, that have lost their protein-coding ability or are otherwise no longer expressed in the cell. Pseudogenes arise from retrotransposition or genomic duplication of functional genes, and become "genomic fossils" that are nonfuctional due to mutations that prevent the transcription of the gene, such as within the gene promoter region, or fatally alter the translation of the gene, such as premature stop codons or frameshifts.genesexpressedmutationstranscriptiontranslationstop codonsframeshifts Pseudogenes resulting from the retrotransposition of an RNA intermediate are known as processed pseudogenes; pseudogenes that arise from the genomic remains of duplicated genes or residues of inactivated are nonprocessed pseudogenes.duplicated genes While Dollo's Law suggests that the loss of function in pseudogenes is likely permanent, silenced genes may actually retain function for several million years and can be "reactivated" into protein-coding sequences and a substantial number of pseudogenes are actively transcribed.Because pseudogenes are presumed to evolve without evolutionary constraint, they can serve as a useful model of the type and frequencies various spontaneous genetic mutatioDollo's Lawgenetic mutatio
Транспозоны и ретротранспозонов мобильные генетические элементы. Ретротранспозона повторяющихся последовательностей, которые включают в себя длинный перемежаются ядерных элементов (линии) и краткое перемежаются ядерных элементов (SINEs), составляют значительную часть геномных последовательностей у многих видов. Alu последовательностей, классифицируются как краткое перемежаются ядерного элемента, являются самыми распространенными в мобильных элементов генома человека. Некоторые примеры были найдены синусов оказывают транскрипционным контролем некоторых белков-генов. [12] [13] [14] Эндогенного ретровируса последовательности произведение обратной транскрипции ретровирусов геномов в геномах половых клеток. Мутации в этих ретро-расшифрованы последовательности могут инактивировать вирусного генома. Более 8% генома человека состоит из (в основном распались) эндогенный ретровирус последовательности, как часть более 42% долей, что является производным узнаваемо ретротранспозонов, а еще 3% могут быть идентифицированы быть остатки ДНК транспозонов. Большая часть оставшейся половины генома, которая в настоящее время не объяснил происхождение, как ожидается, нашли свое начало в мобильных элементов, которые были активны так давно (> 200 млн. лет), что случайные мутации сделали их неузнаваемыми. [15] размер генома изменения, по крайней мере два вида растений в основном результатом ретротранспозона последовательностей [16].
Repeat sequences, transposons and viral elements Transposons and retrotransposons are mobile genetic elements. Retrotransposon repeated sequences, which include long interspersed nuclear elements (LINEs) and short interspersed nuclear elements (SINEs), account for a large proportion of the genomic sequences in many species. Alu sequences, classified as a short interspersed nuclear element, are the most abundant mobile elements in the human genome. Some examples have been found of SINEs exerting transcriptional control of some protein-encoding genes. [12][13][14] Transposonsretrotransposonsmobile genetic elementsrepeated sequenceslong interspersed nuclear elementsshort interspersed nuclear elementsAlu sequences [12][13][14] Endogenous retrovirus sequences are the product of reverse transcription of retrovirus genomes into the genomes of germ cells. Mutation within these retro-transcribed sequences can inactivate the viral genome. Endogenous retrovirusreverse transcriptionretrovirusgerm cells Over 8% of the human genome is made up of (mostly decayed) endogenous retrovirus sequences, as part of the over 42% fraction that is recognizably derived of retrotransposons, while another 3% can be identified to be the remains of DNA transposons. Much of the remaining half of the genome that is currently without an explained origin is expected to have found its origin in transposable elements that were active so long ago (> 200 million years) that random mutations have rendered them unrecognizable. [15] Genome size variation in at least two kinds of plants is mostly the result of retrotransposon sequences. [16]DNA transposons [15] [16]
Telomeres Telomeres are regions of repetitive DNA at the end of a chromosome, which provide protection from chromosomal deterioration during DNA replication. TelomereschromosomeDNA replication
Гены построены из «кусков» имеют прерывистую структуру
Темп замен в некодирующих участках ДНК
Chimpanzee-human divergence Chimpanzees Humans 6-8 million years Hominids or hominins
Последовательность ДНК Функциональное значение Примечание АТGНачало гена Cтартовый кодон ATG он одновременно кодирует аминокислоту метионин и может также встретиться в середине гена ТААСтоп кодонПризнак конца гена ТАGСтоп кодонПризнак конца гена TGAСтоп кодонПризнак конца гена AGGAGG Участок связывания рибосом Могут совпадать только 4 из 6 TAATAA ТАТААА Участок связывания рибосом (Бокс Прибнова) Могут совпадать только 4 из 6 СААТ или CCGCCC Мотивы перед кэп сайтами В районе 100п перед генами АААТТТполиндром ТААТТА 5'-TAATGARAT-3' ( "tat-garat" ) "tat-garat" Энхансеры (включатели генов) энхансерные модули которые варьируют в размерах от 50 по до 1,5 кб и могут быть расположены как рядом с геном так на расстоянии до 1000 пн 5'-CGGAAR-3' ( "cigar") "cigar" Энхансеры (включатели генов) энхансерные модули которые варьируют в размерах от 50 по до 1,5 кб и могут быть расположены как рядом с геном так на расстоянии до 1000 пн Поиски последовательностей (мотивов) гомологичных участкам интронов и экзонов в некодирующей белок ДНК расположенной с левого (-) и правого края (+-) от кодирующей белок ДНК
Y –пиримидины (С/Т); ESE – экзонные энхансеры сплайсинга; ESS – экзонные сайленсеры сплайсинга; ISE - интронные энхансеры сплайсинга; ISS - интронные сайленсеры сплайсинга; GV – геномный вариант; U1 и U2 – малые ядерные рибонуклеопротеиновые частицы; SR – серин/аргинин богатые белки; hpRNP – гетерогенные ядерные рибонуклеопротеиновые частицы. Регуляторные элементы сплайсинга в пре- мРНК и полиморфизмы, нарушающие процесс
Noncoding- некодирующие участки ДНК
СПЛАЙСИНГ Образование молекул мРНК на РНК–предшественнике в результате сплайсинга. Из РНК–предшественника вырезаются фрагменты, синтезированные с интронных последовательностей гена, а участки, синтезированные на экзонах, соединяются друг с другом, что в конечном итоге приводит к формированию зрелой функционально активной мРНК
Схематическое изображение альтернативного сплайсинга. Прямоугольниками разного оттенка обозначены экзоны, черными линиями – интроны. Показаны лишь две из множества возможных мРНК, образующихся на одном гене НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ СОЛОВЬЯМИ НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ СОЛОВЬЯМИ.