華大基因成功開(kāi)發(fā)出一種基因融合檢測(cè)算法SOAPfuse,。該算法具有準(zhǔn)確率高、敏感性強(qiáng),、精度高,、資源消耗少等優(yōu)點(diǎn),主要采用局部窮舉算法和一系列精細(xì)的過(guò)濾策略,,來(lái)對(duì)基因融合進(jìn)行快速,、精確的檢測(cè)。SOAPfuse的最新研究結(jié)果已于2013年2月14日在《基因生物學(xué)》(Genome Biology)雜志上在線發(fā)表,。
基因融合是指染色體上兩個(gè)異位的基因嵌合在一起,,形成一個(gè)嵌合基因的現(xiàn)象。這種現(xiàn)象一般是由于染色體發(fā)生易位,、缺失或者倒置造成的,,它們?cè)诎┌Y的發(fā)生上扮演著重要的角色,并且可以作為診斷和治療癌癥的靶標(biāo),?;蛉诤犀F(xiàn)象最早在血液系統(tǒng)惡性腫瘤中被發(fā)現(xiàn),其中以慢性粒細(xì)胞白血病中 BCR-ABL基因融合最為經(jīng)典,。隨著對(duì)基因融合的深入研究,,科研人員發(fā)現(xiàn),除血液系統(tǒng)腫瘤外,,在實(shí)體瘤中也存在著基因融合現(xiàn)象,,例如新近發(fā)現(xiàn)的前列腺癌中的TMPRSS2-ERG、小細(xì)胞肺癌中的EML4-ALK,、結(jié)直腸癌中的VTI1A-TCF7L2等基因融合,。
傳統(tǒng)基因融合研究方法主要基于PCR和熒光原位雜交(FISH)技術(shù),這兩種技術(shù)具有通量低,、操作復(fù)雜,、不便于大規(guī)模樣品篩查的缺點(diǎn)。而高通量RNA測(cè)序技術(shù)(RNA-Seq)的出現(xiàn)大大加快了基因融合研究的進(jìn)展,。RNA-Seq具有通量高,、成本低、檢測(cè)精度高和檢測(cè)范圍廣的優(yōu)點(diǎn),其與全基因組測(cè)序相比,,不僅能找到由于重排導(dǎo)致的基因融合,,還能找到更多轉(zhuǎn)錄水平上的融合。
目前,,已有一些通過(guò)RNA-Seq技術(shù)尋找基因融合的軟件,,但是這些軟件或多或少存在各種不足,例如計(jì)算資源消耗嚴(yán)重,,檢測(cè)率低,,準(zhǔn)確度低等。為了克服這一系列問(wèn)題,,華大科技經(jīng)過(guò)深入研究,,開(kāi)發(fā)出一種新的算法—SOAPfuse。該算法首先通過(guò)比對(duì)到基因組和轉(zhuǎn)錄本中雙末端(pair end)關(guān)系的序列尋找候選的基因融合,,然后采用局部窮舉算法和一系列精細(xì)的過(guò)濾策略,,在盡量保留真實(shí)融合的情況下過(guò)濾掉其中假陽(yáng)性的基因融合。模擬數(shù)據(jù)和真實(shí)驗(yàn)證數(shù)據(jù)的綜合測(cè)評(píng)表明,,SOAPfuse與其他方法相比具有更高的靈敏度和特異性,,并且可以大大減少資源消耗。此外,,該算法還具有融合斷點(diǎn)預(yù)測(cè)和可視化功能,。這些功能能夠極大提高基因融合的檢測(cè)效率,大力推動(dòng)疾病尤其是腫瘤的研究,,這對(duì)臨床分子分型和腫瘤新藥的開(kāi)發(fā)具有重要意義,。
SOAPfuse已免費(fèi)對(duì)外公開(kāi),可直接點(diǎn)擊下載(http://soap.genomics.org.cn/soapfuse.html),。
doi:10.1186/gb-2013-14-2-r12
PMC:
PMID:
SOAPfuse: an algorithm for identifying fusion transcripts from paired-end RNA-Seq data
Wenlong Jia, Kunlong Qiu, Minghui He, Pengfei Song, Quan Zhou, Feng Zhou, Yuan Yu, Dandan Zhu, Michael L Nickerson, Shengqing Wan, Xiangke Liao, Xiaoqian Zhu, Shaoliang Peng, Yingrui Li, Jun Wang and Guangwu Guo.
We have developed a new method, SOAPfuse, to identify fusion transcripts from paired-end RNA-seq data. SOAPfuse applies an improved partial exhaustion algorithm to construct a library of fusion junction sequences, which can be used to efficiently identify fusion events, and employs a series of filters to nominate high-confidence fusion transcripts. Compared with other released tools, SOAPfuse achieves higher detection efficiency and consumed less computing resources. We applied SOAPfuse to RNA-seq data from two bladder cancer cell lines, and confirmed 15 fusion transcripts, including several novel events common to both cell lines. SOAPfuse is available at http://soap.genomics.org.cn/soapfuse.html.