分子生物信息數(shù)據(jù)庫(kù)是種類(lèi)繁多,。歸納起來(lái),大體可以分為4個(gè)大類(lèi),,即基因組數(shù)據(jù)庫(kù),、核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)、生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù),、以上述3類(lèi)數(shù)據(jù)庫(kù)和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫(kù),。基因組數(shù)據(jù)庫(kù)來(lái)自基因組作圖,,序列數(shù)據(jù)庫(kù)來(lái)自序列測(cè)定,,結(jié)構(gòu)數(shù)據(jù)庫(kù)來(lái)自X-衍射和核磁共振結(jié)構(gòu)測(cè)定,。這些數(shù)據(jù)庫(kù)是分子生物信息學(xué)的基本數(shù)據(jù)資源,通常稱(chēng)為基本數(shù)據(jù)庫(kù),,初始數(shù)據(jù)庫(kù),,也稱(chēng)一次數(shù)據(jù)庫(kù)。根據(jù)生命科學(xué)不同研究領(lǐng)域的實(shí)際需要,,對(duì)基因組圖譜,、核酸和蛋白質(zhì)序列,、蛋白質(zhì)結(jié)構(gòu)以及文獻(xiàn)等數(shù)據(jù)進(jìn)行分析、整理,、歸納,、注釋?zhuān)瑯?gòu)建具有特殊生物學(xué)意義和專(zhuān)門(mén)用途的二次數(shù)據(jù)庫(kù),是數(shù)據(jù)庫(kù)開(kāi)發(fā)的有效途徑,。近年來(lái),,世界各國(guó)的生物學(xué)家和計(jì)算機(jī)科學(xué)家合作,已經(jīng)開(kāi)發(fā)了幾百個(gè)二次數(shù)據(jù)庫(kù)和復(fù)合數(shù)據(jù)庫(kù),,也稱(chēng)專(zhuān)門(mén)數(shù)據(jù)庫(kù),、專(zhuān)業(yè)數(shù)據(jù)庫(kù)、專(zhuān)用數(shù)據(jù)庫(kù),。
一般說(shuō)來(lái),,一次數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)量大,更新速度快,,用戶(hù)面廣,,通常需要高性能的計(jì)算機(jī)硬件、大容量的磁盤(pán)空間和專(zhuān)門(mén)的數(shù)據(jù)庫(kù)管理系統(tǒng)支撐,。例如,,歐洲生物信息學(xué)研究所用Oracle數(shù)據(jù)庫(kù)軟件管理、維護(hù)核酸數(shù)據(jù)庫(kù)EMBL,。而基因組數(shù)據(jù)庫(kù)GDB的管理,、運(yùn)行則基于Sybase數(shù)據(jù)庫(kù)系統(tǒng),即使是安裝其鏡象,。也需要有Sybase支撐,。Oracle和Sybase均為流行的數(shù)據(jù)庫(kù)管理商業(yè)軟件。而二次數(shù)據(jù)庫(kù)的容量則要小得多,,更新速度也不象一次數(shù)據(jù)庫(kù)那樣快,,也可以不用大型商業(yè)數(shù)據(jù)庫(kù)軟件支撐。許多二次數(shù)據(jù)庫(kù)的開(kāi)發(fā)基于Web瀏覽器,,使用超文本語(yǔ)言HTML和Java程序編寫(xiě)的圖形界面,,有的還帶有搜索程序,。這類(lèi)針對(duì)不同問(wèn)題開(kāi)發(fā)的二次數(shù)據(jù)庫(kù)的最大特點(diǎn)是使用方便,特別適用于計(jì)算機(jī)使用經(jīng)驗(yàn)并不豐富的生物學(xué)家,。
二次數(shù)據(jù)庫(kù)種類(lèi)繁多,,以核酸數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫(kù)有基因調(diào)控轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)TransFac,真核生物啟動(dòng)子數(shù)據(jù)庫(kù)EPD,,克隆載體數(shù)據(jù)庫(kù)Vector,,密碼子使用表數(shù)據(jù)庫(kù)CUTG等。以蛋白質(zhì)序列數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫(kù)有蛋白質(zhì)功能位點(diǎn)數(shù)據(jù)庫(kù)Prosite,,蛋白質(zhì)功能位點(diǎn)序列片段數(shù)據(jù)庫(kù)Prints,,同源蛋白家族數(shù)據(jù)庫(kù)Pfam,同源蛋白結(jié)構(gòu)域數(shù)據(jù)庫(kù)Blocks,。以具有特殊功能的蛋白為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫(kù)有免疫球蛋白數(shù)據(jù)庫(kù)Kabat,,蛋白激酶數(shù)據(jù)庫(kù)PKinase等。以三維結(jié)構(gòu)原子坐標(biāo)為基礎(chǔ)構(gòu)建的數(shù)據(jù)庫(kù)為結(jié)構(gòu)分子生物學(xué)研究提供了有效的工具,,如蛋白質(zhì)二級(jí)結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫(kù)DSSP,,已知空間結(jié)構(gòu)的蛋白質(zhì)家族數(shù)據(jù)庫(kù)FSSP,已知空間結(jié)構(gòu)的蛋白質(zhì)及其同源蛋白數(shù)據(jù)庫(kù)HSSP等,。蛋白質(zhì)回環(huán)分類(lèi)數(shù)據(jù)庫(kù)則是用于蛋白質(zhì)結(jié)構(gòu),、功能和分子設(shè)計(jì)研究的專(zhuān)門(mén)數(shù)據(jù)庫(kù)。此外,,酶,、限制性?xún)?nèi)切酶、輻射雜交,、氨基酸特性表,、序列分析文獻(xiàn)等,也屬于二次數(shù)據(jù)庫(kù)或?qū)iT(mén)數(shù)據(jù)庫(kù),。
法國(guó)生物信息研究中心Infobiogen生物信息數(shù)據(jù)庫(kù)目錄DBCat搜集了主要400多個(gè)數(shù)據(jù)庫(kù)的名稱(chēng),、內(nèi)容、數(shù)據(jù)格式,、聯(lián)系地址,、網(wǎng)址等詳細(xì)信息,使用戶(hù)對(duì)目前生物信息數(shù)據(jù)庫(kù)有一個(gè)詳盡的了解,。DBCat本身也是一個(gè)具有一定數(shù)據(jù)格式的數(shù)據(jù)庫(kù),。DBCat按DNA、RNA,、蛋白質(zhì),、基因圖譜、結(jié)構(gòu),、文獻(xiàn)等分類(lèi),,其中大部分?jǐn)?shù)據(jù)庫(kù)是可以免費(fèi)下載的公用數(shù)據(jù)庫(kù),。[鏈接1.2.1-1]列出安裝于北京大學(xué)生物信息中心Web服務(wù)器上的生物信息數(shù)據(jù)庫(kù)名稱(chēng)和種類(lèi)以及簡(jiǎn)要說(shuō)明,。
此外,,國(guó)際上許多生物信息中心建有生物信息學(xué)和基因組信息資源網(wǎng)絡(luò)導(dǎo)航系統(tǒng),。其中美國(guó)Oak Ride國(guó)家實(shí)驗(yàn)室人類(lèi)基因組信息資源導(dǎo)航系統(tǒng)和英國(guó)基因組圖譜資源中心(Human Genome Mapping Resource Centere,簡(jiǎn)稱(chēng)HGMP)的GenomeWeb所列網(wǎng)址最為詳盡,,搜集了世界各地基因組中心,、基因組數(shù)據(jù)庫(kù),、基因組圖譜,、基因組實(shí)驗(yàn)材料、基因突變,、遺傳疾病、以及生物技術(shù)公司,、實(shí)驗(yàn)規(guī)程,、網(wǎng)絡(luò)教程、用戶(hù)手冊(cè)等幾百個(gè)網(wǎng)址,。