高通量RNA測(cè)序(RNA-seq)有望描繪出轉(zhuǎn)錄組的整體圖像,,實(shí)現(xiàn)樣本內(nèi)所有基因及其亞型的完整注釋和定量。隨著測(cè)序價(jià)格的不斷下降,,以及個(gè)人化測(cè)序儀的上市,,更多的實(shí)驗(yàn)室有機(jī)會(huì)嘗試這種新技術(shù)。
然而,,測(cè)序之后的數(shù)據(jù)分析才是真正的挑戰(zhàn),。在RNA-seq之后,還需要一些強(qiáng)大的計(jì)算工具,,才能繪制出完整的轉(zhuǎn)錄組圖譜,。在這一期的《自然—方法學(xué)》(Nature Methods)上,來(lái)自MIT和哈佛B(yǎng)road研究院的研究人員發(fā)表了一篇綜述,,介紹了轉(zhuǎn)錄組注釋和定量的計(jì)算方法,。
首先,他們介紹了一些方法,,將讀數(shù)與參考轉(zhuǎn)錄組或基因組直接比對(duì),。之后,他們討論了鑒定表達(dá)基因和亞型的方法,。最后,,他們還介紹了一些方法,來(lái)預(yù)計(jì)基因和亞型的豐度,,以及分析樣品間的差異表達(dá),。
由于RNA-seq數(shù)據(jù)生成的不斷改善,現(xiàn)有計(jì)算工具的發(fā)展有著很大差異,。在某些領(lǐng)域,,如讀數(shù)定位,有多種算法存在,,但在差異表達(dá)分析上,,解決方案才剛剛出現(xiàn)。作者們強(qiáng)調(diào)了這些方法的核心原理和每種方法的關(guān)鍵差異,,以及它們?cè)赗NA-seq分析上的應(yīng)用,。他們還討論了這些不同的方法如何影響結(jié)果以及數(shù)據(jù)的闡釋。
為了方便讀者參考,,他們還將現(xiàn)有的方法列成了一張表,,注明了它們的原理和用途。另外,,他們精選了一些有代表性的方法,,應(yīng)用在已經(jīng)發(fā)表的RNA-seq數(shù)據(jù)組中,。此數(shù)據(jù)組包含了5800萬(wàn)個(gè)末端配對(duì)的讀數(shù)。
數(shù)據(jù)比對(duì)是RNA-seq分析中的一項(xiàng)基本任務(wù),,然而也面臨著一些挑戰(zhàn),,比如數(shù)據(jù)量大,讀數(shù)很短(36-125 bp),,錯(cuò)誤率可觀,,且許多讀數(shù)跨越外顯子-外顯子交界。對(duì)于RNA-seq的比對(duì)方法,,作者將其分成“unspliced read aligners”和“spliced aligners” 兩類(lèi),,并分別介紹。
轉(zhuǎn)錄組重建也是個(gè)很困難的任務(wù),,因?yàn)榛虮磉_(dá)差異很大,,且讀數(shù)可能來(lái)源于成熟的mRNA,也可能來(lái)源于未完全剪接的前體RNA,,這樣就很難鑒定成熟的轉(zhuǎn)錄本。當(dāng)然,,讀數(shù)短也為分析帶來(lái)了困難,。目前的轉(zhuǎn)錄組重建方法主要有兩類(lèi),一類(lèi)是基因組指導(dǎo)的,,另一類(lèi)是不依賴(lài)于基因組的,。作者比較了這兩類(lèi)方法,并具體介紹了每一類(lèi)下面的幾種方法,。
至于轉(zhuǎn)錄組的圖譜分析,,DNA芯片一直是首選方法。在使用RNA-seq來(lái)估計(jì)基因表達(dá)時(shí),,需要將讀數(shù)適當(dāng)?shù)貥?biāo)準(zhǔn)化,,才能提取出有意義的表達(dá)預(yù)測(cè)值。作者介紹了一些方法,,來(lái)預(yù)計(jì)基因和亞型的豐度,,以及分析樣品間的差異表達(dá)。
作者還提到,,隨著測(cè)序技術(shù)的成熟,,如讀長(zhǎng)不斷增加,現(xiàn)有的計(jì)算工具需要發(fā)展,,也能滿(mǎn)足新的需求,,同時(shí)新工具也會(huì)不斷出現(xiàn),滿(mǎn)足新的應(yīng)用,。(生物谷Bioon.com)
專(zhuān)題:MicroRNA 和 癌癥
生物谷推薦原文出處:
Nature Methods DOI:10.1038/nmeth.1613
Computational methods for transcriptome annotation and quantification using RNA-seq
Manuel Garber; Manfred G Grabherr; Mitchell Guttman; Cole Trapnell
High-throughput RNA sequencing (RNA-seq) promises a comprehensive picture of the transcriptome, allowing for the complete annotation and quantification of all genes and their isoforms across samples. Realizing this promise requires increasingly complex computational methods. These computational challenges fall into three main categories: (i) read mapping, (ii) transcriptome reconstruction and (iii) expression quantification. Here we explain the major conceptual and practical challenges, and the general classes of solutions for each category. Finally, we highlight the interdependence between these categories and discuss the benefits for different biological applications.