11月8日,,據(jù)美國物理學(xué)家組織網(wǎng)報(bào)道,,美國賓夕法尼亞州立大學(xué)和埃默里大學(xué)的研究人員開發(fā)的新銀河(Galaxy)系統(tǒng),能利用“云”實(shí)現(xiàn)科學(xué)家對(duì)于與DNA(脫氧核糖核酸)測(cè)序和分析等相關(guān)軟件工具的“駕馭”,,并存儲(chǔ)大量科學(xué)數(shù)據(jù),。相關(guān)研究進(jìn)展將發(fā)表在《自然·生物技術(shù)》雜志上,。
生物化學(xué)和生物學(xué)實(shí)驗(yàn)經(jīng)常會(huì)產(chǎn)生如山的數(shù)據(jù),如何分析這些數(shù)據(jù)令科學(xué)家十分頭疼,。Galaxy計(jì)算系統(tǒng)是為數(shù)據(jù)密集的生物醫(yī)藥和基因研究而設(shè)的,、基于網(wǎng)絡(luò)的開源平臺(tái)。其能通過聚集多個(gè)具備快速檢索功能和海量數(shù)據(jù)分析功用的工具,,簡(jiǎn)化基因組分析的工程,,從而解決科研人員面臨的難題。
“云”是強(qiáng)大計(jì)算機(jī)的基礎(chǔ)網(wǎng)絡(luò),,可以遠(yuǎn)程使用,,無需擔(dān)心過熱、過冷和系統(tǒng)管理,。這種系統(tǒng)允許用戶無論身處何方,,都能轉(zhuǎn)換軟件存儲(chǔ)的工作量和硬件的基礎(chǔ)架構(gòu),,以配合遠(yuǎn)程的網(wǎng)絡(luò)計(jì)算機(jī),同時(shí)近乎支持無限的計(jì)算能力,??蒲腥藛T無需在自己的電腦上運(yùn)行Galaxy,或者使用大學(xué)的服務(wù)器進(jìn)入Galaxy,,卻仍能成為“云”的駕馭者,。系統(tǒng)綜合了現(xiàn)有基因組數(shù)據(jù)庫和簡(jiǎn)易網(wǎng)絡(luò)的力量,可令用戶搜索遠(yuǎn)程的資源,,整合單獨(dú)的查詢數(shù)據(jù),,并令結(jié)果可視化。同時(shí),,其他實(shí)驗(yàn)室的科研人員也可以查看Galaxy的工作進(jìn)程,,例如查看對(duì)于遺傳密碼的分析,,賦予科學(xué)極大的透明性,。
研究小組在之前發(fā)表的論文里,描述了如何利用Galaxy云服務(wù)為9個(gè)人分析DNA,?;谶@個(gè)平臺(tái)的超強(qiáng)計(jì)算能力,科研人員能夠識(shí)別出4個(gè)單細(xì)胞內(nèi)含有兩種或兩種以上的細(xì)胞質(zhì)的區(qū)域,,即線粒體內(nèi)的變異,,基因組的這個(gè)部分會(huì)由母親遺傳給孩子。
此外,,Galaxy云服務(wù)的一大優(yōu)勢(shì)就是它的數(shù)據(jù)存儲(chǔ)和計(jì)算能力,。科研人員表示,,新興技術(shù)將產(chǎn)生比現(xiàn)有的下一代DNA測(cè)序多100余倍的數(shù)據(jù),,但目前這些數(shù)據(jù)的存儲(chǔ)已經(jīng)成了問題,更不必說對(duì)其進(jìn)行分析,。而使用網(wǎng)絡(luò)云服務(wù),,研究人員可以選擇在安全的地方存儲(chǔ)大量數(shù)據(jù)。
Galaxy的云服務(wù)還具有其他優(yōu)點(diǎn),,例如可讓對(duì)于計(jì)算機(jī)了解不多的科學(xué)家也能使用不易接觸的DNA分析工具,,因此不需要在計(jì)算機(jī)的基礎(chǔ)建設(shè)方面過多投資,也能保證數(shù)據(jù)密集,、復(fù)雜的科學(xué)分析得以執(zhí)行,。(生物谷 Bioon.com)
doi:10.1038/nbt.2028
PMC:
PMID:
Harnessing cloud computing with Galaxy Cloud
Enis Afgan,1 Dannon Baker,1 Nate Coraor,2 Hiroki Goto,2 Ian M Paul,3 Kateryna D Makova,2 Anton Nekrutenko2 & James Taylor1
Continuing evolution of DNA sequencing has transformed modern biology. Lower sequencing costs coupled with novel sequencing-based assays have led to rapid adoption of next-generation sequencing across diverse areas of life sciences research. Sequencing has moved out of the genome centers into core facilities and individual laboratories where any investigator can access it for modest and progressively declining cost. Although easy to generate in tremendous quantities, sequence data are still difficult to manage and analyze. Sophisticated informatics techniques and supporting infrastructure are needed to make sense of even conceptually simple sequencing experiments, let alone the more complex analysis techniques being developed. The most pressing challenge facing the sequencing community today is providing the informatics infrastructure and accessible analysis methods needed to make it possible for all investigators to realize the power of high-throughput sequencing to advance their research.