分子生物信息數(shù)據(jù)庫是種類繁多,。歸納起來,,大體可以分為4個大類,,即基因組數(shù)據(jù)庫、核酸和蛋白質一級結構序列數(shù)據(jù)庫,、生物大分子(主要是蛋白質)三維空間結構數(shù)據(jù)庫,、以上述3類數(shù)據(jù)庫和文獻資料為基礎構建的二次數(shù)據(jù)庫?;蚪M數(shù)據(jù)庫來自基因組作圖,,序列數(shù)據(jù)庫來自序列測定,結構數(shù)據(jù)庫來自X-衍射和核磁共振結構測定,。這些數(shù)據(jù)庫是分子生物信息學的基本數(shù)據(jù)資源,,通常稱為基本數(shù)據(jù)庫,,初始數(shù)據(jù)庫,也稱一次數(shù)據(jù)庫,。根據(jù)生命科學不同研究領域的實際需要,,對基因組圖譜、核酸和蛋白質序列,、蛋白質結構以及文獻等數(shù)據(jù)進行分析,、整理、歸納,、注釋,,構建具有特殊生物學意義和專門用途的二次數(shù)據(jù)庫,是數(shù)據(jù)庫開發(fā)的有效途徑,。近年來,,世界各國的生物學家和計算機科學家合作,已經(jīng)開發(fā)了幾百個二次數(shù)據(jù)庫和復合數(shù)據(jù)庫,,也稱專門數(shù)據(jù)庫,、專業(yè)數(shù)據(jù)庫、專用數(shù)據(jù)庫,。
一般說來,,一次數(shù)據(jù)庫的數(shù)據(jù)庫量大,更新速度快,,用戶面廣,,通常需要高性能的計算機硬件、大容量的磁盤空間和專門的數(shù)據(jù)庫管理系統(tǒng)支撐,。例如,,歐洲生物信息學研究所用Oracle數(shù)據(jù)庫軟件管理、維護核酸數(shù)據(jù)庫EMBL,。而基因組數(shù)據(jù)庫GDB的管理、運行則基于Sybase數(shù)據(jù)庫系統(tǒng),,即使是安裝其鏡象,。也需要有Sybase支撐。Oracle和Sybase均為流行的數(shù)據(jù)庫管理商業(yè)軟件,。而二次數(shù)據(jù)庫的容量則要小得多,,更新速度也不象一次數(shù)據(jù)庫那樣快,也可以不用大型商業(yè)數(shù)據(jù)庫軟件支撐,。許多二次數(shù)據(jù)庫的開發(fā)基于Web瀏覽器,,使用超文本語言HTML和Java程序編寫的圖形界面,有的還帶有搜索程序,。這類針對不同問題開發(fā)的二次數(shù)據(jù)庫的最大特點是使用方便,,特別適用于計算機使用經(jīng)驗并不豐富的生物學家,。
二次數(shù)據(jù)庫種類繁多,以核酸數(shù)據(jù)庫為基礎構建的二次數(shù)據(jù)庫有基因調控轉錄因子數(shù)據(jù)庫TransFac,,真核生物啟動子數(shù)據(jù)庫EPD,,克隆載體數(shù)據(jù)庫Vector,密碼子使用表數(shù)據(jù)庫CUTG等,。以蛋白質序列數(shù)據(jù)庫為基礎構建的二次數(shù)據(jù)庫有蛋白質功能位點數(shù)據(jù)庫Prosite,,蛋白質功能位點序列片段數(shù)據(jù)庫Prints,同源蛋白家族數(shù)據(jù)庫Pfam,,同源蛋白結構域數(shù)據(jù)庫Blocks,。以具有特殊功能的蛋白為基礎構建的二次數(shù)據(jù)庫有免疫球蛋白數(shù)據(jù)庫Kabat,蛋白激酶數(shù)據(jù)庫PKinase等,。以三維結構原子坐標為基礎構建的數(shù)據(jù)庫為結構分子生物學研究提供了有效的工具,,如蛋白質二級結構構象參數(shù)數(shù)據(jù)庫DSSP,已知空間結構的蛋白質家族數(shù)據(jù)庫FSSP,,已知空間結構的蛋白質及其同源蛋白數(shù)據(jù)庫HSSP等,。蛋白質回環(huán)分類數(shù)據(jù)庫則是用于蛋白質結構、功能和分子設計研究的專門數(shù)據(jù)庫,。此外,,酶、限制性內(nèi)切酶,、輻射雜交,、氨基酸特性表、序列分析文獻等,,也屬于二次數(shù)據(jù)庫或專門數(shù)據(jù)庫,。
法國生物信息研究中心Infobiogen生物信息數(shù)據(jù)庫目錄DBCat搜集了主要400多個數(shù)據(jù)庫的名稱、內(nèi)容,、數(shù)據(jù)格式,、聯(lián)系地址、網(wǎng)址等詳細信息,,使用戶對目前生物信息數(shù)據(jù)庫有一個詳盡的了解,。DBCat本身也是一個具有一定數(shù)據(jù)格式的數(shù)據(jù)庫。DBCat按DNA,、RNA,、蛋白質、基因圖譜,、結構,、文獻等分類,其中大部分數(shù)據(jù)庫是可以免費下載的公用數(shù)據(jù)庫,。[鏈接1.2.1-1]列出安裝于北京大學生物信息中心Web服務器上的生物信息數(shù)據(jù)庫名稱和種類以及簡要說明,。
此外,,國際上許多生物信息中心建有生物信息學和基因組信息資源網(wǎng)絡導航系統(tǒng)。其中美國Oak Ride國家實驗室人類基因組信息資源導航系統(tǒng)和英國基因組圖譜資源中心(Human Genome Mapping Resource Centere,,簡稱HGMP)的GenomeWeb所列網(wǎng)址最為詳盡,,搜集了世界各地基因組中心、基因組數(shù)據(jù)庫,、基因組圖譜,、基因組實驗材料、基因突變,、遺傳疾病,、以及生物技術公司、實驗規(guī)程,、網(wǎng)絡教程,、用戶手冊等幾百個網(wǎng)址。