近日,,美國(guó)西奈山醫(yī)學(xué)院的研究人員開發(fā)出一種方法,可從RNA等非DNA來(lái)源獲取足夠的DNA信息,清晰識(shí)別出具有特定生物信息特征的個(gè)體。這是首次從RNA水平開始描述DNA序列,。相比而言,,大多數(shù)有關(guān)DNA和RNA的研究都以DNA序列作為開始。相關(guān)論文發(fā)表在4月8日的《自然·基因?qū)W》(Nature Genetics)雜志網(wǎng)絡(luò)版上,。
DNA可組成遺傳指令,引導(dǎo)生物發(fā)育與生命機(jī)能運(yùn)作,。RNA是具有細(xì)胞結(jié)構(gòu)的生物遺傳訊息中間載體,,參與蛋白質(zhì)合成和基因表達(dá)調(diào)控。新技術(shù)能利用在任意組織內(nèi)監(jiān)控到的基因表達(dá)水平,,由RNA數(shù)據(jù)推斷出一個(gè)人的DNA,。
科研人員使用一種算法,可匹配基因的表達(dá)模式和基因組中1000個(gè)單鏈DNA的變化,,這是一種綜合生物學(xué)的應(yīng)用,,可檢查多維(DNA和RNA)數(shù)據(jù),并更好地報(bào)告一種給定的維度(RNA),??蒲行〗M分析了378個(gè)肝臟捐獻(xiàn)者的RNA和DNA,以及基于同一群組的580名需進(jìn)行胃旁路手術(shù)患者的肝臟和脂肪組織,。他們發(fā)現(xiàn),,許多基因的RNA水平都與個(gè)體的年齡、性別和體重等特征相關(guān),,但更多的則是其與個(gè)體特定的DNA變化的關(guān)聯(lián),。
科學(xué)家表示,此項(xiàng)研究中DNA和RNA的關(guān)系就好比管弦樂(lè)隊(duì)和其演奏的交響樂(lè),。他們可以在聽到交響樂(lè)(RNA模式)時(shí),,推斷出演奏的樂(lè)器(DNA序列)。通過(guò)觀察特定組織的RNA水平,,能推斷出“基因條形碼”獨(dú)特的標(biāo)記方式,,使其匹配獨(dú)立獲取的個(gè)體DNA樣本。此外,,某些組織中的RNA水平還能告知個(gè)體所患的疾病,,如阿爾茨海默癥和癌癥等,以及個(gè)體可能罹患相關(guān)疾病的風(fēng)險(xiǎn),??茖W(xué)家稱,此項(xiàng)發(fā)現(xiàn)的意義已超出了醫(yī)學(xué)領(lǐng)域,。從參與科研的個(gè)體處獲取的“條形碼”,,其RNA的水平將被監(jiān)控并存放在公開的數(shù)據(jù)庫(kù)中,這可用于測(cè)試在犯罪現(xiàn)場(chǎng)留下的DNA樣本,,作為識(shí)別案件相關(guān)人的一種方式,。
科研人員同時(shí)強(qiáng)調(diào),,現(xiàn)今已經(jīng)很難將個(gè)人信息屏蔽起來(lái)不為外人所知曉。他們希望這項(xiàng)研究可平息人們關(guān)于個(gè)人隱私保護(hù)的潛在爭(zhēng)論,,鼓勵(lì)病患提供生物信息等數(shù)據(jù),,這將有助于醫(yī)生更好地進(jìn)行診斷和治療,也將為醫(yī)學(xué)的發(fā)展作出更大貢獻(xiàn),。(生物谷Bioon.com)
doi:10.1038/ng.2248
PMC:
PMID:
Bayesian method to predict individual SNP genotypes from gene expression data
Eric E Schadt, Sangsoon Woo & Ke Hao
RNA profiling can be used to capture the expression patterns of many genes that are associated with expression quantitative trait loci (eQTLs). Employing published putative cis eQTLs, we developed a Bayesian approach to predict SNP genotypes that is based only on RNA expression data. We show that predicted genotypes can accurately and uniquely identify individuals in large populations. When inferring genotypes from an expression data set using eQTLs of the same tissue type (but from an independent cohort), we were able to resolve 99% of the identities of individuals in the cohort at Padjusted ≤ 1 × 10−5. When eQTLs derived from one tissue were used to predict genotypes using expression data from a different tissue, the identities of 90% of the study subjects could be resolved at Padjusted ≤ 1 × 10−5. We discuss the implications of deriving genotypic information from RNA data deposited in the public domain.