分子生物信息數(shù)據(jù)庫是種類繁多,。歸納起來,,大體可以分為4個大類,即基因組數(shù)據(jù)庫,、核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫,、生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫,。基因組數(shù)據(jù)庫來自基因組作圖,,序列數(shù)據(jù)庫來自序列測定,,結(jié)構(gòu)數(shù)據(jù)庫來自X-衍射和核磁共振結(jié)構(gòu)測定。這些數(shù)據(jù)庫是分子生物信息學(xué)的基本數(shù)據(jù)資源,,通常稱為基本數(shù)據(jù)庫,,初始數(shù)據(jù)庫,也稱一次數(shù)據(jù)庫,。根據(jù)生命科學(xué)不同研究領(lǐng)域的實(shí)際需要,,對基因組圖譜、核酸和蛋白質(zhì)序列,、蛋白質(zhì)結(jié)構(gòu)以及文獻(xiàn)等數(shù)據(jù)進(jìn)行分析,、整理、歸納,、注釋,,構(gòu)建具有特殊生物學(xué)意義和專門用途的二次數(shù)據(jù)庫,是數(shù)據(jù)庫開發(fā)的有效途徑,。近年來,,世界各國的生物學(xué)家和計算機(jī)科學(xué)家合作,已經(jīng)開發(fā)了幾百個二次數(shù)據(jù)庫和復(fù)合數(shù)據(jù)庫,,也稱專門數(shù)據(jù)庫,、專業(yè)數(shù)據(jù)庫、專用數(shù)據(jù)庫,。
一般說來,,一次數(shù)據(jù)庫的數(shù)據(jù)庫量大,更新速度快,,用戶面廣,,通常需要高性能的計算機(jī)硬件、大容量的磁盤空間和專門的數(shù)據(jù)庫管理系統(tǒng)支撐,。例如,,歐洲生物信息學(xué)研究所用Oracle數(shù)據(jù)庫軟件管理,、維護(hù)核酸數(shù)據(jù)庫EMBL。而基因組數(shù)據(jù)庫GDB的管理,、運(yùn)行則基于Sybase數(shù)據(jù)庫系統(tǒng),,即使是安裝其鏡象。也需要有Sybase支撐,。Oracle和Sybase均為流行的數(shù)據(jù)庫管理商業(yè)軟件,。而二次數(shù)據(jù)庫的容量則要小得多,更新速度也不象一次數(shù)據(jù)庫那樣快,,也可以不用大型商業(yè)數(shù)據(jù)庫軟件支撐,。許多二次數(shù)據(jù)庫的開發(fā)基于Web瀏覽器,使用超文本語言HTML和Java程序編寫的圖形界面,,有的還帶有搜索程序,。這類針對不同問題開發(fā)的二次數(shù)據(jù)庫的最大特點(diǎn)是使用方便,特別適用于計算機(jī)使用經(jīng)驗(yàn)并不豐富的生物學(xué)家,。
二次數(shù)據(jù)庫種類繁多,,以核酸數(shù)據(jù)庫為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫有基因調(diào)控轉(zhuǎn)錄因子數(shù)據(jù)庫TransFac,真核生物啟動子數(shù)據(jù)庫EPD,,克隆載體數(shù)據(jù)庫Vector,,密碼子使用表數(shù)據(jù)庫CUTG等。以蛋白質(zhì)序列數(shù)據(jù)庫為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫有蛋白質(zhì)功能位點(diǎn)數(shù)據(jù)庫Prosite,,蛋白質(zhì)功能位點(diǎn)序列片段數(shù)據(jù)庫Prints,,同源蛋白家族數(shù)據(jù)庫Pfam,同源蛋白結(jié)構(gòu)域數(shù)據(jù)庫Blocks,。以具有特殊功能的蛋白為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫有免疫球蛋白數(shù)據(jù)庫Kabat,,蛋白激酶數(shù)據(jù)庫PKinase等。以三維結(jié)構(gòu)原子坐標(biāo)為基礎(chǔ)構(gòu)建的數(shù)據(jù)庫為結(jié)構(gòu)分子生物學(xué)研究提供了有效的工具,,如蛋白質(zhì)二級結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫DSSP,,已知空間結(jié)構(gòu)的蛋白質(zhì)家族數(shù)據(jù)庫FSSP,已知空間結(jié)構(gòu)的蛋白質(zhì)及其同源蛋白數(shù)據(jù)庫HSSP等,。蛋白質(zhì)回環(huán)分類數(shù)據(jù)庫則是用于蛋白質(zhì)結(jié)構(gòu),、功能和分子設(shè)計研究的專門數(shù)據(jù)庫。此外,,酶,、限制性內(nèi)切酶、輻射雜交,、氨基酸特性表,、序列分析文獻(xiàn)等,也屬于二次數(shù)據(jù)庫或?qū)iT數(shù)據(jù)庫。
法國生物信息研究中心Infobiogen生物信息數(shù)據(jù)庫目錄DBCat搜集了主要400多個數(shù)據(jù)庫的名稱,、內(nèi)容,、數(shù)據(jù)格式、聯(lián)系地址,、網(wǎng)址等詳細(xì)信息,,使用戶對目前生物信息數(shù)據(jù)庫有一個詳盡的了解。DBCat本身也是一個具有一定數(shù)據(jù)格式的數(shù)據(jù)庫,。DBCat按DNA,、RNA、蛋白質(zhì),、基因圖譜,、結(jié)構(gòu)、文獻(xiàn)等分類,,其中大部分?jǐn)?shù)據(jù)庫是可以免費(fèi)下載的公用數(shù)據(jù)庫,。[鏈接1.2.1-1]列出安裝于北京大學(xué)生物信息中心Web服務(wù)器上的生物信息數(shù)據(jù)庫名稱和種類以及簡要說明。
此外,,國際上許多生物信息中心建有生物信息學(xué)和基因組信息資源網(wǎng)絡(luò)導(dǎo)航系統(tǒng),。其中美國Oak Ride國家實(shí)驗(yàn)室人類基因組信息資源導(dǎo)航系統(tǒng)和英國基因組圖譜資源中心(Human Genome Mapping Resource Centere,,簡稱HGMP)的GenomeWeb所列網(wǎng)址最為詳盡,,搜集了世界各地基因組中心、基因組數(shù)據(jù)庫,、基因組圖譜,、基因組實(shí)驗(yàn)材料、基因突變,、遺傳疾病,、以及生物技術(shù)公司、實(shí)驗(yàn)規(guī)程,、網(wǎng)絡(luò)教程,、用戶手冊等幾百個網(wǎng)址。