美國國家兒童醫(yī)院(Nationwide Children's Hospital)的研發(fā)人員最近在Genome Biology上發(fā)布了一個(gè)自主開發(fā)的分析軟件,,表示這個(gè)軟件使尋找全基因組致病變異從幾周縮短到按幾十個(gè)小時(shí),。
第一個(gè)人類基因組測序完成耗時(shí)大約13年,耗費(fèi)30億美元,,而現(xiàn)在技術(shù)測序技術(shù)的發(fā)展,使得即使是很小的研究小組都可以在幾天之內(nèi)完成基因組測序,。但是從測序產(chǎn)生的巨大的數(shù)據(jù)分析得出真正能用于研究或者臨床的信息一直是一個(gè)挑戰(zhàn),。而彼得·懷特博士和他帶領(lǐng)的團(tuán)隊(duì)針對(duì)這個(gè)問題,利用新穎的計(jì)算技術(shù),,開發(fā)了一個(gè)名為"丘吉爾"(Churchill)的計(jì)算管道,,表示"丘吉爾"可以在短短90分鐘內(nèi)完成全基因組樣品的有效分析。
"丘吉爾"自動(dòng)輸入原始序列資料,,通過一系列密集復(fù)雜和計(jì)算,,最終分析出有臨床或者科研意義的的遺傳變異體。這個(gè)過程中的每一步,,"丘吉爾"都有優(yōu)化,,以顯著減少分析時(shí)間,但不損害數(shù)據(jù)的完整性,,該分析是100%的可重復(fù)性,。"丘吉爾"采用的平行化(parallelization)的算法克服了染色體帶來的平行化限制,極大提升了數(shù)據(jù)輸入的平衡性和分析中數(shù)據(jù)重新組合,,去分,,再校準(zhǔn)和基因型分型的執(zhí)行性。通過檢查在數(shù)據(jù)分析過程中的計(jì)算資源的利用,,相比其他兩種分析管道-HugeSeq和GATK-Queue只能分別利用46%和30%的數(shù)據(jù)資源,,"丘吉爾"的利用率達(dá)到了92%,,并在多個(gè)服務(wù)器非常有效地進(jìn)行縮放。"丘吉爾"輸出結(jié)果,,在與其他計(jì)算管道比較,,被證明具有最高99.7%的靈敏度;最高99.99%的精讀和99.66%最高整體診斷效率,。
這種效率和能力,,證明"丘吉爾"或能夠進(jìn)行人口規(guī)模的基因組分析。為了證明"丘吉爾"的能力,,懷特博士和他的團(tuán)隊(duì)成功地分析了千人基因組項(xiàng)目所產(chǎn)生的第一階段的原始數(shù)據(jù)(千人基因組項(xiàng)目是以生成世界各地的多個(gè)群體人類遺傳變異的公眾目錄為目的的國際合作項(xiàng)目),。利用亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的云計(jì)算資源,"丘吉爾"僅用七天便完成1088個(gè)全基因組樣本的分析,,并確定了數(shù)以百萬計(jì)的新的遺傳變異,。
"丘吉爾"的發(fā)布是測序技術(shù)一個(gè)極大的進(jìn)步。它極大降低測序分析的成本,,突破了當(dāng)今測序分析計(jì)算的瓶頸,,特別為現(xiàn)在大人口規(guī)模的基因組學(xué)的研究提供便利。