高通量RNA測序(RNA-seq)有望描繪出轉(zhuǎn)錄組的整體圖像,實(shí)現(xiàn)樣本內(nèi)所有基因及其亞型的完整注釋和定量,。隨著測序價格的不斷下降,,以及個人化測序儀的上市,更多的實(shí)驗(yàn)室有機(jī)會嘗試這種新技術(shù),。
然而,,測序之后的數(shù)據(jù)分析才是真正的挑戰(zhàn)。在RNA-seq之后,還需要一些強(qiáng)大的計算工具,,才能繪制出完整的轉(zhuǎn)錄組圖譜,。在這一期的《自然—方法學(xué)》(Nature Methods)上,來自MIT和哈佛B(yǎng)road研究院的研究人員發(fā)表了一篇綜述,,介紹了轉(zhuǎn)錄組注釋和定量的計算方法,。
首先,他們介紹了一些方法,,將讀數(shù)與參考轉(zhuǎn)錄組或基因組直接比對,。之后,他們討論了鑒定表達(dá)基因和亞型的方法,。最后,,他們還介紹了一些方法,來預(yù)計基因和亞型的豐度,,以及分析樣品間的差異表達(dá),。
由于RNA-seq數(shù)據(jù)生成的不斷改善,現(xiàn)有計算工具的發(fā)展有著很大差異,。在某些領(lǐng)域,,如讀數(shù)定位,有多種算法存在,,但在差異表達(dá)分析上,,解決方案才剛剛出現(xiàn)。作者們強(qiáng)調(diào)了這些方法的核心原理和每種方法的關(guān)鍵差異,,以及它們在RNA-seq分析上的應(yīng)用。他們還討論了這些不同的方法如何影響結(jié)果以及數(shù)據(jù)的闡釋,。
為了方便讀者參考,,他們還將現(xiàn)有的方法列成了一張表,注明了它們的原理和用途,。另外,他們精選了一些有代表性的方法,,應(yīng)用在已經(jīng)發(fā)表的RNA-seq數(shù)據(jù)組中,。此數(shù)據(jù)組包含了5800萬個末端配對的讀數(shù)。
數(shù)據(jù)比對是RNA-seq分析中的一項(xiàng)基本任務(wù),,然而也面臨著一些挑戰(zhàn),,比如數(shù)據(jù)量大,讀數(shù)很短(36-125 bp),,錯誤率可觀,,且許多讀數(shù)跨越外顯子-外顯子交界。對于RNA-seq的比對方法,,作者將其分成“unspliced read aligners”和“spliced aligners” 兩類,,并分別介紹,。
轉(zhuǎn)錄組重建也是個很困難的任務(wù),,因?yàn)榛虮磉_(dá)差異很大,,且讀數(shù)可能來源于成熟的mRNA,,也可能來源于未完全剪接的前體RNA,這樣就很難鑒定成熟的轉(zhuǎn)錄本,。當(dāng)然,讀數(shù)短也為分析帶來了困難,。目前的轉(zhuǎn)錄組重建方法主要有兩類,,一類是基因組指導(dǎo)的,另一類是不依賴于基因組的,。作者比較了這兩類方法,,并具體介紹了每一類下面的幾種方法。
至于轉(zhuǎn)錄組的圖譜分析,,DNA芯片一直是首選方法。在使用RNA-seq來估計基因表達(dá)時,,需要將讀數(shù)適當(dāng)?shù)貥?biāo)準(zhǔn)化,才能提取出有意義的表達(dá)預(yù)測值,。作者介紹了一些方法,,來預(yù)計基因和亞型的豐度,以及分析樣品間的差異表達(dá)。
作者還提到,,隨著測序技術(shù)的成熟,,如讀長不斷增加,現(xiàn)有的計算工具需要發(fā)展,,也能滿足新的需求,,同時新工具也會不斷出現(xiàn),滿足新的應(yīng)用,。(生物谷Bioon.com)
專題:MicroRNA 和 癌癥
生物谷推薦原文出處:
Nature Methods DOI:10.1038/nmeth.1613
Computational methods for transcriptome annotation and quantification using RNA-seq
Manuel Garber; Manfred G Grabherr; Mitchell Guttman; Cole Trapnell
High-throughput RNA sequencing (RNA-seq) promises a comprehensive picture of the transcriptome, allowing for the complete annotation and quantification of all genes and their isoforms across samples. Realizing this promise requires increasingly complex computational methods. These computational challenges fall into three main categories: (i) read mapping, (ii) transcriptome reconstruction and (iii) expression quantification. Here we explain the major conceptual and practical challenges, and the general classes of solutions for each category. Finally, we highlight the interdependence between these categories and discuss the benefits for different biological applications.