隨著人類基因組計(jì)劃的快速發(fā)展,生物信息學(xué)技術(shù)在人類疾病與功能基因的發(fā)現(xiàn)與識(shí)別、基因與蛋白質(zhì)的表達(dá)與功能研究方面都發(fā)揮著關(guān)鍵的作用,。生物信息學(xué)技術(shù)在基于基因與蛋白質(zhì)功能缺陷的合理化藥物設(shè)計(jì)方面也有著巨大的潛力,。同時(shí),,生物信息學(xué)技術(shù)在親子鑒定,、罪犯識(shí)別等各方面都有重要的應(yīng)用,。
生物信息學(xué)是一門交叉科學(xué),它包含了生物信息的獲取,、處理,、存儲(chǔ)、分發(fā),、分析和解釋等在內(nèi)的所有方面,,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義,。
目前關(guān)于生物信息學(xué)的研究,基本都是研究如何理解大量生物學(xué)數(shù)據(jù)所包括的生物學(xué)意義,,這已成為后基因組時(shí)代極其重要的課題,。其方法就是依據(jù)一些數(shù)據(jù)庫及相關(guān)處理方法及軟件,通過大量的計(jì)算得出結(jié)論,。這包括序列比對(duì),、序列拼接、蛋白質(zhì)功能預(yù)測(cè)及基因識(shí)別等,。目前的研究及支撐研究的基礎(chǔ)設(shè)施都是分散的,,研究單位都是自己來建設(shè)各自的研究平臺(tái),包括計(jì)算資源,、軟件資源,、存儲(chǔ)資源,一方面,,這些資源并不總是被利用,,而另一方面,又有許多生物信息學(xué)的研究人員沒有條件進(jìn)行研究,,如何利用網(wǎng)格技術(shù)將這些資源進(jìn)行集成,,供互聯(lián)網(wǎng)用戶共享?
生物信息學(xué)網(wǎng)格(BG)將一些大型的計(jì)算資源及存儲(chǔ)資源通過網(wǎng)絡(luò)聚合起來,,將生物信息學(xué)相關(guān)的部分軟件,、數(shù)據(jù)集成起來,為生物信息學(xué)的研究工作者提供一個(gè)開展科研活動(dòng)的環(huán)境,。該環(huán)境通過Web方式向用戶提供服務(wù),,達(dá)到用戶只需提交所需計(jì)算請(qǐng)求,然后等待獲取計(jì)算結(jié)果的目的,,避免了用戶因?qū)τ?jì)算機(jī)技術(shù)不熟悉所帶來的困惑。
體系結(jié)構(gòu)
生物信息學(xué)網(wǎng)格主要由以下部分組成:
1,、 客戶端(Client):BG系統(tǒng)的用戶終端,,它連接用戶和BG服務(wù)器(Server),,使得用戶可以使用服務(wù)器提供的服務(wù)。
它有以下主要功能:提供圖形用戶界面,;接收用戶通過email,、文件、或GUI提交的任務(wù)輸入,、將其轉(zhuǎn)化為系統(tǒng)內(nèi)部的表示,、并將輸入發(fā)送至服務(wù)器;接收來自服務(wù)器的計(jì)算結(jié)果,,并將其顯示出來,;控制和管理用戶和終端、終端和服務(wù)器之間的交互過程,。
2,、服務(wù)器(Server) :BG Server通過網(wǎng)格計(jì)算協(xié)議GCP為終端提供生物信息學(xué)計(jì)算服務(wù),它可以有一個(gè)或多個(gè),,本地或遠(yuǎn)程的進(jìn)行實(shí)際計(jì)算的計(jì)算引擎(Compute Engine),。
它有以下主要功能:接收來自終端的計(jì)算請(qǐng)求,發(fā)送計(jì)算結(jié)果或中間信息至終端,;負(fù)責(zé)任務(wù)的管理與分配,;通過本地或遠(yuǎn)程計(jì)算引擎執(zhí)行計(jì)算請(qǐng)求;通過終端為用戶提供各種幫助,;解釋和翻譯GCP,。
3、 網(wǎng)格計(jì)算協(xié)議(GCP):BG終端和服務(wù)器端經(jīng)由網(wǎng)格計(jì)算協(xié)議GCP連接,。GCP是支持生物信息學(xué)計(jì)算的一種簡(jiǎn)單有效的請(qǐng)求-回應(yīng)協(xié)議,,能夠滿足終端到服務(wù)器和服務(wù)器到終端的各種需求。
4,、 網(wǎng)格計(jì)算引擎接口(GCEI):連接現(xiàn)有的生物信息學(xué)計(jì)算引擎和BG服務(wù)器的一種應(yīng)用編程接口,。
5、 計(jì)算引擎(Compute Engine):完成實(shí)際計(jì)算的生物信息學(xué)計(jì)算軟件(包)(如Cap3, Blast等 ),。BG的服務(wù)器可以同時(shí)連接多個(gè)外部的計(jì)算引擎,。
BG的服務(wù)器和各個(gè)提供實(shí)際計(jì)算服務(wù)的計(jì)算引擎共同組成了生物信息學(xué)網(wǎng)格的主題。
硬件資源與能力
目前生物信息學(xué)網(wǎng)格的計(jì)算能力達(dá)到浮點(diǎn)運(yùn)算每秒萬億次以上,,存儲(chǔ)能力5TGB,,接入主節(jié)點(diǎn)達(dá)到100Mbps,另外與NSF 2.5G網(wǎng)絡(luò)接入?,F(xiàn)有硬件資源包括以下主要高性能計(jì)算機(jī)系統(tǒng):
1. 清華大學(xué)計(jì)算機(jī)系千億次集群計(jì)算機(jī)
2. 清華大學(xué)網(wǎng)絡(luò)中心SUN 10000 機(jī)器
3. 清華大學(xué)醫(yī)學(xué)院IBM P620 機(jī)器
4. 清華大學(xué)生物系的SGI Origin 2000機(jī)器
5. 清華大學(xué)計(jì)算機(jī)系多臺(tái)HP Itanium2機(jī)器
6. 清華大學(xué)物理系集群計(jì)算機(jī)
7. 西安交通大學(xué)IBM RS6000機(jī)群系統(tǒng)
8. 西安交通大學(xué)接口服務(wù)器
9. 華南理工大學(xué)32位MPP Linux集群系統(tǒng)
10. 華南理工大學(xué)64位的SMP計(jì)算平臺(tái)
11. 華中科技大學(xué)浪潮天梭10000高性能計(jì)算集群
12. 北京大學(xué)生物信息中心 SUN Fire 4800
13. 北京大學(xué)生物信息中心多臺(tái)雙奔四至強(qiáng)機(jī)器
14. 北京大學(xué)生物信息中心 SUN Fire V880
15. 北京大學(xué)生物信息中心浪潮英信NF420
16. 山東大學(xué)計(jì)算機(jī)機(jī)群系統(tǒng)
軟件資源
目前可供生物信息處理的通用和專業(yè)軟件很多,,既有免費(fèi)的、內(nèi)部使用的,,也有一些商用的,,清華大學(xué),、西安交通大學(xué)等單位也開發(fā)了幾個(gè)具有自主知識(shí)產(chǎn)權(quán)的并行軟件,如并行Euler拼接算法軟件,、并行Smith-Warterman軟件和并行Clustal W軟件等,,將這些軟件根據(jù)網(wǎng)格環(huán)境中的結(jié)點(diǎn)的實(shí)際情況,安裝在相應(yīng)的計(jì)算機(jī)上,,并提供統(tǒng)一的集成環(huán)境,。具體內(nèi)容包括:
* 共享軟件分類安裝
對(duì)各種軟件依據(jù)其功能、環(huán)境進(jìn)行分類,,并進(jìn)行安裝,。定義軟件的輸入、輸出及各種參數(shù)接口,,并將各個(gè)軟件的集成到整個(gè)網(wǎng)格環(huán)境中,。
* 相應(yīng)數(shù)據(jù)庫的集成
由于生物信息的大多數(shù)計(jì)算軟件,都涉及到一些基礎(chǔ)數(shù)據(jù)庫,,因此要結(jié)合軟件的分布,,充分考慮相應(yīng)的數(shù)據(jù)庫,將軟件與數(shù)據(jù)集成起來,,為用戶提供計(jì)算服務(wù),。
* 工作流程的自動(dòng)化管理
有時(shí)生物信息的計(jì)算,并不是單純靠一個(gè)軟件就能完成,,而是要利用不同地域的多個(gè)軟件(不同的計(jì)算機(jī),、不同的數(shù)據(jù)庫等)共同解決一個(gè)問題,因此充分考慮計(jì)算的工作流程,,并結(jié)合資源管理系統(tǒng),,對(duì)用戶的任務(wù)實(shí)行自動(dòng)的優(yōu)化分配,有效地管理整個(gè)計(jì)算流程,。
(中國教育科研網(wǎng)格專家組供稿)