日前,,研究人員取得了一項(xiàng)里程碑式的新成果:他們發(fā)現(xiàn)了轉(zhuǎn)錄起始的精確位點(diǎn),從而為解析基因組“暗物質(zhì)”的起源邁出了重要的一步,。這項(xiàng)刊登在《自然》雜志上的研究將有助于分析復(fù)雜疾病特征所在的確切位置,。
所謂基因組“暗物質(zhì)”,其實(shí)就是基因組中的非編碼 RNA ——不包含用于制造蛋白質(zhì)的版圖,,構(gòu)成了超過 95% 的人類基因組,。之前的研究認(rèn)為,非編碼 RNA 不編碼蛋白質(zhì),,屬于“垃圾”RNA,。而隨著研究的深入,科學(xué)家逐漸發(fā)現(xiàn),,非編碼 RNA 含有豐富的信息,,是生命體中有待探索的“暗物質(zhì)”。目前已發(fā)現(xiàn)很多非編碼 RNA 具有的重要生物學(xué)功能,。同時(shí),,越來越多的證據(jù)表明,一系列重大疾病的發(fā)生發(fā)展與非編碼 RNA 調(diào)控失衡相關(guān),。
在這項(xiàng)最新研究中,,來自賓州大學(xué)分子生物學(xué)系的 B. Franklin Pugh 教授,以及博士后研究員 Bryan Venters (目前任職于范德比爾特大學(xué))等人發(fā)現(xiàn)了人類基因組中相同類型位置上基本上所有編碼和非編碼 RNA 起始點(diǎn),,這將有助于查明復(fù)雜疾病特征所在的確切位置,,因?yàn)樵S多疾病的遺傳起始位點(diǎn)位于基因組編碼區(qū)域以外。
研究人員首先分析轉(zhuǎn)錄起始的精確位點(diǎn),,這是基因翻譯成蛋白的第一步,。“在轉(zhuǎn)錄過程中,DNA 通過 RNA 聚合酶,,形成 RNA,,后者是一種單鏈遺傳物質(zhì),科學(xué)家們認(rèn)為 RNA 是地球上出現(xiàn) DNA 之前的遺傳物質(zhì)。然后通過再經(jīng)過多個(gè)步驟,,基因表達(dá)成蛋白”,Pugh 解釋道,。
并且他還補(bǔ)充說,,在他們尋找轉(zhuǎn)錄起始所在之處的研究期間,其他一些科學(xué)家也在直接分析 RNA,,但是 Pugh 和 Venters 則是去分析在人類染色體上,,啟動(dòng)非編碼 RNA 起始轉(zhuǎn)錄的蛋白定位在哪里。
“我們之所以采取這種方式,,是因?yàn)樵S多 RNA 在制造出來后就立即被降解了,,這令我們防不勝防,” Pugh 說,,“因此我們沒有去尋找轉(zhuǎn)錄的 RNA 產(chǎn)物,,而是尋找制造 RNA 的‘起始機(jī)器’。這種機(jī)器組裝 RNA 聚合酶,,制造 RNA,,并最終翻譯成蛋白質(zhì)”。
結(jié)果令 Pugh 和 Venters 感到吃驚的是,,他們發(fā)現(xiàn)了 16 萬個(gè)這樣的“起始機(jī)器”,,但人類總共也才大約 3 萬個(gè)基因。
“這一發(fā)現(xiàn)十分重要,,要知道實(shí)際上我們?cè)诨蛭稽c(diǎn)處發(fā)現(xiàn)的‘起始機(jī)器’只有不到 1 萬個(gè),,而且細(xì)胞中大多數(shù)基因處于被關(guān)閉狀態(tài),它們一般都沒有用到這些機(jī)器,。”
對(duì)于余下的 15 個(gè)起始機(jī)器,,Pugh 和 Venters 還沒有找到它們的歸屬,這些機(jī)器的作用依然待定,。“這些與基因沒有關(guān)聯(lián)的起始機(jī)器顯然是活躍的,,因?yàn)樗鼈兡苤圃?RNA,科學(xué)家們也在發(fā)現(xiàn) RNA 片段的同時(shí)發(fā)現(xiàn)了它們”,,Pugh 說,,“最開始,這些 RNA 片段由于并不編碼蛋白而受到了忽視,。”
Pugh 說,,很容易就會(huì)忽視這些片段,因?yàn)樗鼈儾痪哂卸嗑巯佘账峄痯olyadenylation的特征(這是指能用于保護(hù) RNA 免受破壞的長(zhǎng)串腺苷),。
之后 Pugh 和 Venters 又通過能識(shí)別編碼基因相關(guān) DNA 序列的非編碼起始機(jī)器,,進(jìn)一步驗(yàn)證這一研究結(jié)果。
“這些非編碼 RNA 被稱為基因組‘暗物質(zhì)’,就像是宇宙中的暗物質(zhì),,難以察覺,,沒有人知道它們究竟是用來做什么的,或者它們?yōu)槭裁丛谀抢铮?rdquo; Pugh 說,,“現(xiàn)在至少我們知道它們是真實(shí)的了,,不只是‘噪音’或‘垃圾’。當(dāng)然下一步還需要回答一個(gè)問題:‘它們到底是用來做什么的,?’”
Pugh 補(bǔ)充說,,這項(xiàng)研究的意義在于朝著解決“失蹤遺傳 missing heritability”這一問題邁進(jìn)了一大步,這個(gè)概念是指大部分特征,,包括基因,,為何無法通過個(gè)體基因進(jìn)行描述。“當(dāng)一種疾病的突變圖譜指向基因組未知功能區(qū)域的時(shí)候,,很難了解這種疾病的來源”,,“不過如果這些區(qū)域能制造 RNA,那么我們就能一步步的了解這種疾病,。”
生物谷推薦的英文摘要
Nature doi:10.1038/nature12535
Genomic organization of human transcription initiation complexes
Bryan J. Venters & B. Franklin Pugh
The human genome is pervasively transcribed,, yet only a small fraction is coding. Here we address whether this non-coding transcription arises at promoters, and detail the interactions of initiation factors TATA box binding protein (TBP),, transcription factor IIB (TFIIB) and RNA polymerase (Pol) II. Using ChIP-exo (chromatin immunoprecipitation with lambda exonuclease digestion followed by high-throughput sequencing),, we identify approximately 160,000 transcription initiation complexes across the human K562 genome,, and more in other cancer genomes. Only about 5% associate with messenger RNA genes. The remainder associates with non-polyadenylated non-coding transcription. Regardless,, Pol II moves into a transcriptionally paused state, and TBP and TFIIB remain at the promoter. Remarkably,, the vast majority of locations contain the four core promoter elements— upstream TFIIB recognition element (BREu),, TATA, downstream TFIIB recognition element (BREd),, and initiator element (INR)—in constrained positions. All but the INR also reside at Pol III promoters,, where TBP makes similar contacts. This comprehensive and high-resolution genome-wide detection of the initiation machinery produces a consolidated view of transcription initiation events from yeast to humans at Pol II/III TATA-containing/TATA-less coding and non-coding genes.