你有沒有試過在不知道最終圖案的情況下玩拼圖游戲,?這正是一些基因組研究人員在嘗試通過新一代DNA測序數(shù)據(jù),拼接成染色體時所面臨的同樣問題,。這些染色體能提供基因組組織和結(jié)構(gòu)變異方面的信息,,有助于解析進化歷史。為了能拼湊出這些染色體來,,科學(xué)家們可以通過物理或者遺傳圖譜完成,,但是對于許多物種而言,這種指導(dǎo)性的圖譜并不存在,。
不過現(xiàn)在,,一組來自美國伊利諾伊大學(xué)的研究人員開發(fā)出了一種新方法,能在沒有任何已有物理或遺傳圖譜的情況下,,預(yù)測出物種染色體的相應(yīng)組裝,。這種方法被稱為輔助染色體組裝(reference-assisted chromosome assembly,,RACA),其工作原理就是比較基因組信息和雙末端序列信息,。
“我們設(shè)計的這種方法靶向基因組,,或者說是基因組保守性,嘗試將其進一步融入到進化背景中去,,”文章的通訊作者,,伊利諾斯大學(xué)生物工程系助理教授馬健(Jian Ma,,音譯)解釋道,,“這樣就能分析出其構(gòu)架,以及密切相關(guān)的其它基因組信息,。”
通過BGI研究院科學(xué)家們的驗證分析,這一研究組預(yù)測出了藏羚羊可能的染色體片段組裝方法,,為了完成這一目標,,研究組成員利用BGI的SOAPdenovo組裝程序構(gòu)建出了1434個序列支架,然后重建出了60個羚羊的染色體片段,,其中16個片段與牛的染色體片段相似,。
“在進行程序處理后,基因組質(zhì)量得到了明顯的提高,,”馬博士解釋道,,“染色體片段大量減少,連續(xù)性延長,,并且可以與其他物種進行比較分析了,。而且我們之后也能糾正在這一過程中可能出現(xiàn)的組裝誤差。”
這一研究組面臨的主要挑戰(zhàn)之一還在于要找到一種能徹底評估分析結(jié)果,,以及檢測其工具的方法,,為此研究人員將RACA分析結(jié)果,與模擬基因組組裝,,以及真實基因組組裝進行了比較,,其中真實基因組組裝數(shù)據(jù)來自約翰霍普金斯大學(xué)完成的2012基因組組裝金標準評價(GAGE)。
“我們的數(shù)據(jù)基本上都來自(GAGE)研究,,因為這些數(shù)據(jù)真實,,反映了真正的情況,所以可以檢測分析工具,,”馬博士說,,“我們分析了他們研究中采用的各種組裝結(jié)果,結(jié)果我們發(fā)現(xiàn),,我們可以改善這些結(jié)果,。”
馬博士表示,,現(xiàn)在這項技術(shù)可以立即被用于類似Genome 10K之類的項目中,這是2009年發(fā)起的一項測定萬種脊椎動物基因組圖譜的項目,,其目的在于研究生物多樣性和動物進化的機制,。、
“大多數(shù)(基因組研究)都在使用NGS技術(shù),,因此我們認為這種方法可以用來系統(tǒng)地改善這些新物種基因組質(zhì)量”,,馬博士說。(生物谷Bioon.com)
doi: 10.1073/pnas.1220349110
PMC:
PMID:
Reference-assisted chromosome assembly
Jaebum Kima,b,1, Denis M. Larkinc,1, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee,2, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,2, and Jian Maa,i,2
One of the most difficult problems in modern genomics is the assembly of full-length chromosomes using next generation sequencing (NGS) data. To address this problem, we developed “reference-assisted chromosome assembly” (RACA), an algorithm to reliably order and orient sequence scaffolds generated by NGS and assemblers into longer chromosomal fragments using comparative genome information and paired-end reads. Evaluation of results using simulated and real genome assemblies indicates that our approach can substantially improve genomes generated by a wide variety of de novo assemblers if a good reference assembly of a closely related species and outgroup genomes are available. We used RACA to reconstruct 60 Tibetan antelope (Pantholops hodgsonii) chromosome fragments from 1,434 SOAPdenovo sequence scaffolds, of which 16 chromosome fragments were homologous to complete cattle chromosomes. Experimental validation by PCR showed that predictions made by RACA are highly accurate. Our results indicate that RACA will significantly facilitate the study of chromosome evolution and genome rearrangements for the large number of genomes being sequenced by NGS that do not have a genetic or physical map.