美國(guó)國(guó)家兒童醫(yī)院(Nationwide Children's Hospital)的研發(fā)人員最近在Genome Biology上發(fā)布了一個(gè)自主開(kāi)發(fā)的分析軟件,,表示這個(gè)軟件使尋找全基因組致病變異從幾周縮短到按幾十個(gè)小時(shí),。
第一個(gè)人類(lèi)基因組測(cè)序完成耗時(shí)大約13年,,耗費(fèi)30億美元,,而現(xiàn)在技術(shù)測(cè)序技術(shù)的發(fā)展,,使得即使是很小的研究小組都可以在幾天之內(nèi)完成基因組測(cè)序,。但是從測(cè)序產(chǎn)生的巨大的數(shù)據(jù)分析得出真正能用于研究或者臨床的信息一直是一個(gè)挑戰(zhàn),。而彼得·懷特博士和他帶領(lǐng)的團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題,利用新穎的計(jì)算技術(shù),,開(kāi)發(fā)了一個(gè)名為"丘吉爾"(Churchill)的計(jì)算管道,,表示"丘吉爾"可以在短短90分鐘內(nèi)完成全基因組樣品的有效分析。
"丘吉爾"自動(dòng)輸入原始序列資料,,通過(guò)一系列密集復(fù)雜和計(jì)算,,最終分析出有臨床或者科研意義的的遺傳變異體,。這個(gè)過(guò)程中的每一步,"丘吉爾"都有優(yōu)化,,以顯著減少分析時(shí)間,,但不損害數(shù)據(jù)的完整性,該分析是100%的可重復(fù)性,。"丘吉爾"采用的平行化(parallelization)的算法克服了染色體帶來(lái)的平行化限制,,極大提升了數(shù)據(jù)輸入的平衡性和分析中數(shù)據(jù)重新組合,去分,,再校準(zhǔn)和基因型分型的執(zhí)行性,。通過(guò)檢查在數(shù)據(jù)分析過(guò)程中的計(jì)算資源的利用,相比其他兩種分析管道-HugeSeq和GATK-Queue只能分別利用46%和30%的數(shù)據(jù)資源,,"丘吉爾"的利用率達(dá)到了92%,,并在多個(gè)服務(wù)器非常有效地進(jìn)行縮放。"丘吉爾"輸出結(jié)果,,在與其他計(jì)算管道比較,,被證明具有最高99.7%的靈敏度;最高99.99%的精讀和99.66%最高整體診斷效率,。
這種效率和能力,,證明"丘吉爾"或能夠進(jìn)行人口規(guī)模的基因組分析。為了證明"丘吉爾"的能力,,懷特博士和他的團(tuán)隊(duì)成功地分析了千人基因組項(xiàng)目所產(chǎn)生的第一階段的原始數(shù)據(jù)(千人基因組項(xiàng)目是以生成世界各地的多個(gè)群體人類(lèi)遺傳變異的公眾目錄為目的的國(guó)際合作項(xiàng)目),。利用亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的云計(jì)算資源,"丘吉爾"僅用七天便完成1088個(gè)全基因組樣本的分析,,并確定了數(shù)以百萬(wàn)計(jì)的新的遺傳變異,。
"丘吉爾"的發(fā)布是測(cè)序技術(shù)一個(gè)極大的進(jìn)步。它極大降低測(cè)序分析的成本,,突破了當(dāng)今測(cè)序分析計(jì)算的瓶頸,,特別為現(xiàn)在大人口規(guī)模的基因組學(xué)的研究提供便利。