基因組學(xué)正掀起一場數(shù)據(jù)風(fēng)暴,,不僅是測序平臺的革新,也掀起了基因突變與疾病關(guān)聯(lián)性研究的熱潮,。全球基因組和健康聯(lián)盟(由谷歌,、華大基因、加拿大基因組研究中心,、美國國家衛(wèi)生研究院,、惠康基因會共同組成)正在開發(fā)數(shù)據(jù)共享的標(biāo)準(zhǔn)形式。他們相信,,這些努力必將引領(lǐng)數(shù)據(jù)探索和分析的革新,。
今年美國人類遺傳學(xué)協(xié)會(American Society of HumanGenetics, ASHG)上,,會議發(fā)言人表示:基因組學(xué)在個性化醫(yī)療領(lǐng)域頗具發(fā)展前景,,而基因組學(xué)轉(zhuǎn)化到醫(yī)學(xué)應(yīng)用主要依賴對大數(shù)據(jù)分析。
現(xiàn)在越來越多的人進(jìn)行基因組測序,,因此谷歌公司的David Glazer在會議上提出:“我們應(yīng)當(dāng)如何將大數(shù)據(jù)轉(zhuǎn)化應(yīng)用到各個領(lǐng)域,?”
基因組學(xué)正掀起一場數(shù)據(jù)風(fēng)暴,不僅是測序平臺的革新,,也掀起了基因突變與疾病關(guān)聯(lián)性研究的熱潮,。與此同時,一些研究者正致力于構(gòu)建一個標(biāo)準(zhǔn)以利于臨床及組學(xué)方面數(shù)據(jù)的共享,。
IBM公司的AjayRoyyuru在會議上指出,,每年大約有6000—10000篇癌癥相關(guān)文章被發(fā)表,面對如此多的文章,,即便是研究者或者醫(yī)生及時跟進(jìn),,也無法完成如此大的閱讀量。Royyuru認(rèn)為“這個問題亟待解決”,。他表示,,解決這種問題的關(guān)在于,,綜合客觀并快速的處理這些已發(fā)表研究。此外,,他還表示,,必須清晰明了的表示因果關(guān)聯(lián),。他和IBM的同事正利用大型計(jì)算機(jī)處理這些文章,,總結(jié)文章中的發(fā)現(xiàn)與跟疾病之間的關(guān)系。
通過Royyuru和其同事開發(fā)的精密腫瘤研究流程,,病人的測序數(shù)據(jù)會傳到Watson系統(tǒng),,然后數(shù)據(jù)將與PubMed、國家癌癥中心交換式數(shù)據(jù)庫,、DrugBank等數(shù)據(jù)庫進(jìn)行比對,。通過比對,Watson系統(tǒng)輸出一個疾病概念模型,,并給出一些治療方案,。Watson系統(tǒng)同時可以提供各種醫(yī)療方案的選擇原因,這些信息可供專家研討會上做參考,。Royyuru表示,,整個分析流程加輸出報(bào)告大約需要10分鐘。此外,,Royyuru還表示,,Watson系統(tǒng)也可以記錄病人選用的醫(yī)療方案,以及病人對該方案的臨床反應(yīng),。
目前IBM以這個流程為雛形,,跟紐約基因組中心進(jìn)行合作,并計(jì)劃明年進(jìn)行測試,。
除了Watson系統(tǒng)外,,以計(jì)算機(jī)科學(xué)為支撐的其他的數(shù)據(jù)技術(shù)處理技術(shù)也可用來分析基因組數(shù)據(jù)。
Glazer指出,,谷歌在大數(shù)據(jù)處理上是很有經(jīng)驗(yàn)的,,比如YouTube網(wǎng)站每分鐘更新100小時的視頻,Gmail用戶數(shù)目是美國博士人數(shù)的150倍,。Glazer和他的同事利用1000份基因組數(shù)據(jù)對他們研發(fā)的數(shù)據(jù)分析系統(tǒng)(類似Dremel和BigQuery系統(tǒng))進(jìn)行測試,。對這1000份數(shù)據(jù)進(jìn)行分析的第一步是構(gòu)建矩陣,這個過程占用60個八核計(jì)算機(jī),,耗時2小時,。
Glazer表示,不斷發(fā)現(xiàn)研究中的問題是創(chuàng)新的必經(jīng)之路,。另外,,他表示基因組學(xué)的個性化醫(yī)療應(yīng)用,從目前“手工化”到“工廠化”的轉(zhuǎn)變需要確立一個標(biāo)準(zhǔn)。全球基因組和健康聯(lián)盟(由谷歌,、華大基因,、加拿大基因組研究中心、美國國家衛(wèi)生研究院,、惠康基因會共同組成)正在開發(fā)數(shù)據(jù)共享的標(biāo)準(zhǔn)形式,。Glazer相信,這些努力必將引領(lǐng)數(shù)據(jù)探索和分析的革新,。