日前,研究人員取得了一項里程碑式的新成果:他們發(fā)現(xiàn)了轉(zhuǎn)錄起始的精確位點,,從而為解析基因組“暗物質(zhì)”的起源邁出了重要的一步,。這項刊登在《自然》雜志上的研究將有助于分析復雜疾病特征所在的確切位置。
所謂基因組“暗物質(zhì)”,,其實就是基因組中的非編碼 RNA ——不包含用于制造蛋白質(zhì)的版圖,,構(gòu)成了超過 95% 的人類基因組。之前的研究認為,,非編碼 RNA 不編碼蛋白質(zhì),,屬于“垃圾”RNA。而隨著研究的深入,,科學家逐漸發(fā)現(xiàn),,非編碼 RNA 含有豐富的信息,是生命體中有待探索的“暗物質(zhì)”,。目前已發(fā)現(xiàn)很多非編碼 RNA 具有的重要生物學功能,。同時,越來越多的證據(jù)表明,,一系列重大疾病的發(fā)生發(fā)展與非編碼 RNA 調(diào)控失衡相關(guān),。
在這項最新研究中,來自賓州大學分子生物學系的 B. Franklin Pugh 教授,,以及博士后研究員 Bryan Venters (目前任職于范德比爾特大學)等人發(fā)現(xiàn)了人類基因組中相同類型位置上基本上所有編碼和非編碼 RNA 起始點,,這將有助于查明復雜疾病特征所在的確切位置,,因為許多疾病的遺傳起始位點位于基因組編碼區(qū)域以外。
研究人員首先分析轉(zhuǎn)錄起始的精確位點,,這是基因翻譯成蛋白的第一步,。“在轉(zhuǎn)錄過程中,DNA 通過 RNA 聚合酶,,形成 RNA,,后者是一種單鏈遺傳物質(zhì),科學家們認為 RNA 是地球上出現(xiàn) DNA 之前的遺傳物質(zhì),。然后通過再經(jīng)過多個步驟,,基因表達成蛋白”,Pugh 解釋道,。
并且他還補充說,,在他們尋找轉(zhuǎn)錄起始所在之處的研究期間,其他一些科學家也在直接分析 RNA,,但是 Pugh 和 Venters 則是去分析在人類染色體上,,啟動非編碼 RNA 起始轉(zhuǎn)錄的蛋白定位在哪里。
“我們之所以采取這種方式,,是因為許多 RNA 在制造出來后就立即被降解了,,這令我們防不勝防,” Pugh 說,,“因此我們沒有去尋找轉(zhuǎn)錄的 RNA 產(chǎn)物,,而是尋找制造 RNA 的‘起始機器’。這種機器組裝 RNA 聚合酶,,制造 RNA,,并最終翻譯成蛋白質(zhì)”。
結(jié)果令 Pugh 和 Venters 感到吃驚的是,,他們發(fā)現(xiàn)了 16 萬個這樣的“起始機器”,,但人類總共也才大約 3 萬個基因。
“這一發(fā)現(xiàn)十分重要,,要知道實際上我們在基因位點處發(fā)現(xiàn)的‘起始機器’只有不到 1 萬個,,而且細胞中大多數(shù)基因處于被關(guān)閉狀態(tài),它們一般都沒有用到這些機器,。”
對于余下的 15 個起始機器,,Pugh 和 Venters 還沒有找到它們的歸屬,這些機器的作用依然待定,。“這些與基因沒有關(guān)聯(lián)的起始機器顯然是活躍的,,因為它們能制造 RNA,科學家們也在發(fā)現(xiàn) RNA 片段的同時發(fā)現(xiàn)了它們”,Pugh 說,,“最開始,,這些 RNA 片段由于并不編碼蛋白而受到了忽視。”
Pugh 說,,很容易就會忽視這些片段,,因為它們不具有多聚腺苷酸化polyadenylation的特征(這是指能用于保護 RNA 免受破壞的長串腺苷)。
之后 Pugh 和 Venters 又通過能識別編碼基因相關(guān) DNA 序列的非編碼起始機器,,進一步驗證這一研究結(jié)果,。
“這些非編碼 RNA 被稱為基因組‘暗物質(zhì)’,就像是宇宙中的暗物質(zhì),,難以察覺,沒有人知道它們究竟是用來做什么的,,或者它們?yōu)槭裁丛谀抢铮?rdquo; Pugh 說,,“現(xiàn)在至少我們知道它們是真實的了,不只是‘噪音’或‘垃圾’,。當然下一步還需要回答一個問題:‘它們到底是用來做什么的,?’”
Pugh 補充說,這項研究的意義在于朝著解決“失蹤遺傳 missing heritability”這一問題邁進了一大步,,這個概念是指大部分特征,,包括基因,為何無法通過個體基因進行描述,。“當一種疾病的突變圖譜指向基因組未知功能區(qū)域的時候,,很難了解這種疾病的來源”,“不過如果這些區(qū)域能制造 RNA,,那么我們就能一步步的了解這種疾病,。”
生物谷推薦的英文摘要
Nature doi:10.1038/nature12535
Genomic organization of human transcription initiation complexes
Bryan J. Venters & B. Franklin Pugh
The human genome is pervasively transcribed, yet only a small fraction is coding. Here we address whether this non-coding transcription arises at promoters,, and detail the interactions of initiation factors TATA box binding protein (TBP),, transcription factor IIB (TFIIB) and RNA polymerase (Pol) II. Using ChIP-exo (chromatin immunoprecipitation with lambda exonuclease digestion followed by high-throughput sequencing), we identify approximately 160,,000 transcription initiation complexes across the human K562 genome,, and more in other cancer genomes. Only about 5% associate with messenger RNA genes. The remainder associates with non-polyadenylated non-coding transcription. Regardless, Pol II moves into a transcriptionally paused state,, and TBP and TFIIB remain at the promoter. Remarkably,, the vast majority of locations contain the four core promoter elements— upstream TFIIB recognition element (BREu), TATA,, downstream TFIIB recognition element (BREd),, and initiator element (INR)—in constrained positions. All but the INR also reside at Pol III promoters, where TBP makes similar contacts. This comprehensive and high-resolution genome-wide detection of the initiation machinery produces a consolidated view of transcription initiation events from yeast to humans at Pol II/III TATA-containing/TATA-less coding and non-coding genes.