歐陽曙光 賀福初*
單位:軍事醫(yī)學科學院放射醫(yī)學研究所,北京100850.
* 聯(lián)系人 1998-11-12收稿,,1999-02-29收修改稿
致謝 本工作為國家杰出青年科學基金(編號: 39625014)與國家自然科學基金(批準號:39730310)重點資助項目.
摘要 大量的蛋白質(zhì)和核酸數(shù)據(jù)的積累與理性地分析這些數(shù)據(jù)中所蘊涵的生物學意義的雙重需要,,產(chǎn)生了綜合生物學研究與計算技術(shù)研究等領域最新成果的交叉性學科“生物信息學”. 分別從基因序列或蛋白質(zhì)結(jié)構(gòu)等生物信息數(shù)據(jù)庫、基因組分析或蛋白質(zhì)結(jié)構(gòu)分析等常規(guī)生物學計算軟件,、基因組數(shù)據(jù)庫檢索或蛋白質(zhì)空間結(jié)構(gòu)識別與預測等在線生物學計算服務器、人工生命等幾個方面,,概述了發(fā)展中的生物信息學的最近動態(tài)和有關(guān)信息,,并同時提供了相關(guān)的熱門生物信息學站點和資源在互聯(lián)網(wǎng)上的超文本或文件傳輸協(xié)議地址. 此外,還介紹了討論組,、新聞組等其他形式的醫(yī)學,、生物學、信息學資源. 最后,,就生物信息學存在的問題與前景進行了討論,,指出生物信息學將是一次國際性的科學大協(xié)作,,也是我國生命科學振興的一個新契機.
關(guān)鍵詞 生物信息學 生物信息 分子生物學 計算機科學 互聯(lián)網(wǎng)
--------------------------------------------------------------------------------
1 概述
蛋白質(zhì)與核酸測序技術(shù)應用以來,已積累了極大量數(shù)據(jù). 同時,,基于典型西方哲學演繹與解析的分析思路而建立的組合化學數(shù)據(jù)庫已經(jīng)成為合理分子設計(rational molecular esign)的重要支柱,,為創(chuàng)造全新的非自然產(chǎn)物提供了可能. 所以,將新穎的計算技術(shù)與方法應用于經(jīng)驗和理論生物學研究的時代已經(jīng)到來,,生物信息學由此誕生. 但生物數(shù)據(jù)的海量性和復雜性又都是組合化學等其他數(shù)據(jù)密集型科學所不及的,,這也是生物信息學所面臨的更大挑戰(zhàn).
一般意義上,生物信息學研究生物信息的采集,、處理,、存儲、傳布,、分析和解釋等各個方面,,它通過綜合數(shù)學、計算機科學與工程和生物學的工具與技術(shù)而揭示大量而復雜的生物數(shù)據(jù)所賦有的生物學奧秘. 它作為一個交叉學科領域而薈萃了數(shù)學,、統(tǒng)計學,、計算機科學和分子生物學的科學家,目標就是要發(fā)展和利用先進的計算技術(shù)解決生物學難題. 這里所說的計算技術(shù)至少包括機器學習(machine learning),、模式識別(pattern recognition),、知識重現(xiàn)(knowledge representation)、數(shù)據(jù)庫,、組合學(combinatorics),、隨機模型(stochastic modeling)、字符串和圖形算法,、語言學方法,、機器人學(robotics)、局限條件下的最適推演(constraint satisfaction)和并行計算等. 而生物學方面的研究對象覆蓋了分子結(jié)構(gòu),、基因組學,、分子序列分析、進化和種系發(fā)生,、代謝途徑,、調(diào)節(jié)網(wǎng)絡等諸多方面.
許多研究與發(fā)展組織都預測:基因組學研究將會徹底革新未來鑒定生物學產(chǎn)物和選擇更佳目標用于小分子生物功能篩選的過程. 隨著基因組研究規(guī)模擴大,生物信息學將原始序列數(shù)據(jù)轉(zhuǎn)換為有意義的生物學信息之重要性也隨之增長.
嚴峻的挑戰(zhàn)和巨大的機會往往出現(xiàn)在相同的時間和地點. 生物信息學各個分支都亟待改進和提高的3個方面是:更加有效地處理大規(guī)模的數(shù)據(jù),、建立通用的智能型工具,、使所有的操作程序自動化.
--------------------------------------------------------------------------------
2 生物信息數(shù)據(jù)庫
目前,國際性合作的幾個基因組計劃已經(jīng)積累了超大量的生物信息并以不同組織形式構(gòu)成許多數(shù)據(jù)庫. 其中一些屬于商業(yè)數(shù)據(jù)庫需要預先注冊和付費才能檢索,,而更多數(shù)據(jù)庫是公開和免費的并可通過互聯(lián)網(wǎng)絡(Internet)訪問. 隨著研究深入,,公共數(shù)據(jù)庫越來越成為世界各地生物學家的重要給養(yǎng).
美國國家實驗室(Brookhaven National Laboratory, BNL)的蛋白質(zhì)數(shù)據(jù)庫(Protein data bank, PDB)可同時提供蛋白質(zhì)序列及其三維空間晶體學原子坐標. 其中受體?配體、抗原-抗體,、?底物-酶復合物等相互作用分子的共結(jié)晶圖譜是基于同源比較的分子設計所需的最佳模型,,因此PDB為初步的蛋白質(zhì)合理設計提供了無價的知識來源. 其超文本傳輸(hyper text transfer protocol)地址為http://www.pdb.bnl.gov/,,文件傳輸(file transfer protocol)地址為ftp:\\ftp.pdb.bnl.gov/pub/databases/pdb/all_entries/compressed_files/. PDB在幾個世界著名科研機構(gòu)所在地設有鏡象站點(mirror site),如歐洲生物信息學研究所(European Bioinformatics Institute, EBI)的http://www.ebi.ac.uk/pdb/和ftp://ftp.ebi.ac.uk/pub/databases/pdb/,,北京大學物理化學研究所的http://162.105.177.12/npdb/和ftp://162.105.177.12/fullrelease/compressed_files/等.
超文本版本的細胞系數(shù)據(jù)庫(Hypertext version of the cell line data base, HyperCLDB)專門提供歐洲各家實驗室和捐獻站的人和動物細胞系的信息超過. 目前已有3100種以上的品系,,在其說明中能查到可以從哪些實驗室獲得,并顯示每個術(shù)語或數(shù)值在總詞匯表和索引表中的出現(xiàn)頻率. 還有指向在線人類孟德爾遺傳(Online mendelian inheritance in Man, OMIM)記錄的鏈接,,提供較為深入的病理學知識,,從病理學家名錄到與某個特定病理過程相關(guān)的細胞系資料. 直接指向URL提醒系統(tǒng)(reminder system)的鏈接可在所注冊的網(wǎng)頁更新時就用電子郵件提醒用戶. HyperCLDB的搜索引擎在http://www.biotech.ist.unige.it/tab/HyperSearch.html.
OWL混合蛋白質(zhì)序列數(shù)據(jù)庫(Composite protein sequences databases)是一非重復蛋白質(zhì)序列數(shù)據(jù)庫,其數(shù)據(jù)來源包括(截止到1998年6月以前的統(tǒng)計):(1) 含有69 110個分子25 083 142個殘基的第35版Swiss-Prot,;(2) NBRF的含有393個分子235 554個殘基的第55版PIR1,,45 067個分子12 796 251個殘基的第55版PIR2,357個分子69 696個殘基的第55版PIR3,,164個分子27 699個殘基的第55版PIR4,;(3) 含有134 190個分子41 324 437個殘基的第105.0版GenBank;(4) 含有1 233個分子236 843個殘基的第23.0版NRL_3D,,每項條目都可以在BNL的X線晶體結(jié)構(gòu)數(shù)據(jù)庫中查到,,其代碼為NRL_開頭再加上4個字符的PDB代碼. 全部入庫序列數(shù)已達到25 0514個分子79 773 622個殘基. 它的WWW地址為http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owlcontents.html.
歐洲分子生物學實驗室(European Molecular Biology Laboratory, EMBL)的TREMBL是對Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫的增補,含有EMBL核酸序列數(shù)據(jù)庫中尚未出現(xiàn)于Swiss-Prot的所有編碼區(qū)(CDS)的翻譯序列,,可以看作是Swiss-Prot 的前言部分,,今后都可能升級到標準Swiss-Prot 中,故而全分配有Swiss-Prot 訪問代碼. 目前的第3版TREMBL源于第50版EMBL核酸序列數(shù)據(jù)庫,,有126 995條序列34 178 645個氨基酸殘基. 它分成兩個部分:SP-TREMBL(104 865)是肯定要轉(zhuǎn)入Swiss-Prot 的,,包含fun.dat (真菌)、hum.dat (人),、inv.dat (無脊椎動物),、mam.dat (其他哺乳動物)、mhc.dat(MHC蛋白),、org.dat (細胞器),、phg.dat (噬菌體)、pln.dat (植物),、pro.dat (原核生物),、rod.dat (嚙齒動物)、vrl.dat (病毒),、vrt.dat (其他脊椎動物)等文件,,已經(jīng)可以在EBI的FASTA服務器上搜索,不久也將能在BLITZ服務器上搜索,;REM?TREMBL則是不準備收入Swiss-Prot 的其他數(shù)據(jù). TREMBL站點位于
http://www.ebi.ac.uk/srs/srsc/和ftp://ftp.ebi.ac.uk/pub/databases/trembl/.
與生物催化和生物降解相關(guān)的數(shù)據(jù)庫站點有:UM-BBD ,即Minnesota大學生物催化和生物降解數(shù)據(jù)庫(University of minnesota biocatalysis/biodegradation database),,提供關(guān)于微生物酶與代謝通路的信息,,位于http://dragon.labmed.umn.edu/~lynda/index.html,;EcoCyc,大腸桿菌基因和代謝百科全書(Encyclopedia of ?Escherichia coli? Genes and Metabolism),,是一個匯集了所有已知的關(guān)于大腸桿菌基因和中間代謝的數(shù)據(jù)的大型知識庫,,它位于http://www.ai.sri.com/ecocyc/ecocyc.html;GenoBase Selkov EMP,,是GenoBase數(shù)據(jù)庫通道(GenoBase Database Gateway)中一個經(jīng)過索引的,、關(guān)于酶與代謝通路(Enzymes and Metabolic Pathways)的數(shù)據(jù)庫,處于http://specter.dcrt.nih.gov:8004/Pathway/pathway_toc_by_name.html,;KEGG,,日本的基因和基因組京都百科全書(Kyoto Encyclopedia of Genes and Genomes),內(nèi)容包括代謝通路圖譜,、分子編目表,、基因編目表、基因組圖譜等數(shù)據(jù),,它被放置于http://www.genome.ad.jp/kegg/kegg1.html,;SoyBase,是植物基因組計劃(Plant genome program)中的一部分 花生計劃(Soybean roject)研究數(shù)據(jù)的集合,,可以在http://probe.nal.usda.gov: 8000/plant/aboutsoybase.html看到詳細內(nèi)容,;Swiss-Prot,是帶有注釋的,、具有最小冗余的,、與其他數(shù)據(jù)庫的整合度很高的蛋白質(zhì)序列數(shù)據(jù)庫,在http://www.expasy.ch/sprot/sprottop.html,;以及WIT (What is there),,是一個基于最近的關(guān)于細菌全基因組序列的足夠了解、在WWW上設計實現(xiàn)的交互式代謝重構(gòu)模型,,它位于http://www.cme.msu.edu/WIT/.
最新的整合型鼠基因組的遺傳圖譜和物理圖譜數(shù)據(jù)庫(Genetic and physical maps of mouse genome data)第14版已經(jīng)被放在了http://www.genome.wi.mit.edu/cgi-bin/mouse/ index. 位于右側(cè)的鼠遺傳圖譜包括了定位于Ob x Cast F2雜交系的6331種簡單序列長度多態(tài)性(Simple sequence length polymorphism, SSLP),,平均分辨率1.1 cM. 位于左側(cè)的Copeland/Jenkins圖譜包括了定位于Spretus回交系的2 342個分子標記,將近多一半的是SSLP,,另一半的是RFLP, 既可以分子標記的名稱,,也可以分子標記的位置/多態(tài)性進行檢索. 鼠STS物理圖譜包含了來源于平均插入片段長度約為820 kb的酵母人工染色體(YAC)克隆文庫的超過6 000種的STS,可分別以分子標記的名稱,、YAC的位置或YAC的名稱進行檢索.
位于http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/的基因組導航者(Genome navigator)是提供到達含有關(guān)于人類基因組,、鼠基因組和酵母基因組等的物理圖譜和遺傳圖譜信息的主要數(shù)據(jù)庫的視化的交互式通道. 它使用基于Java小控件(applet)的通用性程序DerBrowser來顯示和導引這些生物的多種不同類型的基因組圖譜. 除了常規(guī)功能以外,它的一個特別之處就是還能讓用戶查詢外部的相關(guān)數(shù)據(jù)庫中存在的任一圖譜,,目前的數(shù)據(jù)來源已經(jīng)包括:麻省理工學院(Massachusetts Institute of Technology, MIT)基因組研究中心的Whitehead生物醫(yī)學研究所(Whitehead Institute for Biomedical Research, Whitehead/MIT),,約翰·霍普金斯大學醫(yī)學院(Johns Hopkins University School of Medicine)的基因組數(shù)據(jù)庫(Genome database, GDB),Jean Dausset基金會(Fondation Jean Dausset)的人類基因組多態(tài)性研究中心(Centre d'Etudes du Polymorphisme Humain, CEPH)和Genethon研究所的infoclone,人類基因連鎖研究合作中心(Cooperative Human Linkage Center, CHLC),,美國國家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)的人類轉(zhuǎn)錄本圖譜(Human transcript map, HTM),,以及其他一些專門收錄人類染色體信息的數(shù)據(jù)庫;歐洲合作種間鼠回交(European collaborative interspecific mouse Backcross, EUCIB)計劃的鼠回交數(shù)據(jù)庫(Mouse Backcross Database, MBx),,斯坦福大學醫(yī)學院(Stanford University School of Medicine)的酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database, SGD),,Proteome公司的酵母蛋白質(zhì)數(shù)據(jù)庫(Yeast Protein Database, YPD),Max-Planck研究所的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Centre for Protein Sequences, MIPS),,全自動分析生物序列的GeneQuiz服務器等.
能提供啤酒酵母(Saccharomyces cerevisiae)蛋白質(zhì)三維結(jié)構(gòu)信息的酵母基因組數(shù)據(jù)庫SGD已經(jīng)可以在http://genome-www.stanford.edu/Sacch3D/找到. 其特性包括:(1)以基因名稱,、開放讀碼框架(ORF)名稱、染色體編號,、文字等形式檢索酵母基因組中任一蛋白質(zhì)的潛在的結(jié)構(gòu)信息,;(2)使用RasMol或基于Java的顯示程序交互地觀察結(jié)構(gòu)信息;(3)瀏覽全部已經(jīng)收錄于PDB結(jié)構(gòu)數(shù)據(jù)庫中的啤酒酵母蛋白質(zhì),;(4)以到達NCBI的MMDB,,SCOP,Swiss-Prot等面向結(jié)構(gòu)的其他數(shù)據(jù)庫的鏈接. 總體上看,,已知的結(jié)構(gòu)信息還是相當稀少的,,目前在酵母基因組中只有12%的蛋白質(zhì)與已知結(jié)構(gòu)的蛋白質(zhì)之間呈現(xiàn)顯著的序列相似性.但隨著更多的新的蛋白質(zhì)結(jié)構(gòu)被測定和檢測結(jié)構(gòu)相似性技術(shù)的改進,這個數(shù)字必將增長.
IUBio檔案是一個生物數(shù)據(jù)和軟件的檔案庫,,囊括了各種各樣的大眾化的瀏覽,、檢索和傳輸軟件、分子數(shù)據(jù),、生物學新聞和文件,,其互聯(lián)網(wǎng)地址是iubio.bio.indiana.edu (magpie 129.79.225.200). 分子生物學是這里的焦點,它也同時是果蠅研究數(shù)據(jù)的一個大本營. 這里維護著可在所有計算機上運行的一些對于生物學挺重要的軟件:公共軟件使用的分類包括了生物學,、化學,、科學、應用程序等,;而分子生物學部分使用的分類包括了對齊,、密碼子、自動測序,、瀏覽,、一致序列、進化,、模式,、引物、限制酶,、RNA折疊,、檢索,、IBM-PC,Mac,,M$win, Unix,Vax等,;檢索服務包括了GenBank核酸數(shù)據(jù)庫、Swiss-Prot和PIR蛋白質(zhì)數(shù)據(jù)庫,、Bionet新聞組、序列檢索系統(tǒng)SRS和SRS-FASTA. 它的專門的果蠅基因組數(shù)據(jù)庫FlyBase位于http://flybase.bio.indiana.edu/ (firefly 129.79.225.202).
--------------------------------------------------------------------------------
3 生物計算
就目前的數(shù)學和計算機科學的能力而言,,對數(shù)據(jù)容量達到上十億字節(jié)的數(shù)據(jù)庫進行生物計算仍然是一項很艱巨的任務. 雖然最簡單的序列比較可以被簡化成字符串匹配的算法,,以及將模式識別和神經(jīng)網(wǎng)絡等先進算法也運用其中,但是擴展的和多重的序列比較還是處于試驗摸索中. 理論上有希望的,、通過量子化學算法預測蛋白質(zhì)的空間折疊的方法靠現(xiàn)有的計算能力尚無法成為現(xiàn)實, 因為這些都需要數(shù)學與純計算機效能上的新突破.
大分子設計和模建算法讓曾經(jīng)致力于分子力學和分子模型構(gòu)建的應用數(shù)學家,、物理學家、化學家和生物學家走到了一起. 現(xiàn)在的重點和挑戰(zhàn)在于如何獲得高增益,、高效率,、高可信度的蛋白質(zhì)、核酸和多聚體的模擬算法. 分子力學的高級時間步長法(advanced time-stepping),、靜電學,、經(jīng)典量子力學、結(jié)構(gòu)確定(structure determination),、自由能和整體集群計算(ensemble calculations)等,,都是可能的突破點.
分子圖形和模型學是生物信息學和藥物設計的重要部分. 當基因組學的成就被應用于合理目標鑒別時,蛋白質(zhì)結(jié)構(gòu)相似性和結(jié)構(gòu)預測,、確定蛋白質(zhì)-蛋白質(zhì)相互作用,、識別類似的和同源的蛋白質(zhì)折疊等方法都會顯著地影響最后的結(jié)果. 自動同源模建和結(jié)構(gòu)-功能預測也需要更多的努力,并利用趨于成熟的神經(jīng)網(wǎng)絡方法來實現(xiàn).
先是可在本地的個人機或工作站上運行的生物計算軟件和程序,,下一部分側(cè)重于通過互聯(lián)網(wǎng)絡的在線計算.
(1) 日常數(shù)據(jù)維護. 為生命科學研究人員實現(xiàn)全方位計算能力的軟件工具Prophet 5.0,,提供適合于數(shù)據(jù)管理和視化、包括從簡單描述性的統(tǒng)計處理到多元方差分析(Multi-factor ANOVA),,logistic回歸和非線性模型分析等多種統(tǒng)計分析. 它配備了多序列對齊,、翻譯、限制酶和蛋白水解酶酶切分析,、PCR引物設計,、BLAST檢索、遠程數(shù)據(jù)庫檢索等生物序列分析工具. 全功能的Prophet 5.0程序可以從http://www-prophet.bbn.com/下載,,可免費使用60 d. 其支持和即將支持的Unix平臺包括SUN/Solaris 2.4,,DEC Alpha/Digital Unix和Silicon Graphics/Irix 6.2等. 這個綜合性的數(shù)據(jù)分析軟件包以快速易用為特點:會用鼠標就會用Prophet.
由http://www.unizh.ch/vetvir/plugin.html可下載一些能加快實驗室日常工作、用于蘋果Mac機或Windows系統(tǒng)的瀏覽器(Netscape 2.x和Internet Explorer 2.x)的免費插件(plugin)程序,,安裝后再連接到http://www.unizh.ch/vetvir/programs.html. 其功能包括:酶切預覽(根據(jù)用戶使用的限制性酶和DNA的核苷酸序列在虛擬的瓊脂糖凝膠上電泳,,用戶可以在到紫外燈箱拍照前知道凝膠上出現(xiàn)條帶的理論位置),;稀釋計算(任何濃度的溶液稀釋配比計算);接頭設計(得到一個用于插入序列連接的,、無自連末端的接頭序列)等.
質(zhì)粒處理器(Plasmid processor)是專門繪制科研與教育用質(zhì)粒圖譜的簡單程序. 可以輸入線形或圓形質(zhì)粒,,任意定義限制位點、基因位點和多克隆位點,,任意插入或缺失部分片段.輸出的質(zhì)粒圖譜可復制到剪貼板上,,也可以存盤以便后用,或通過程序內(nèi)置的打印模塊打印. 壓縮的程序包plasp102.zip(約239 kB)可以從http://www.uku.fi/~kiviraum/plasmid/plasmid.html下載.
(2) 序列對齊. 基于“近似字符串匹配(Approximate string matching)”算法的Cleanup 1.8能夠確定從核苷酸序列數(shù)據(jù)庫中指定的任何一對序列間的整體同源性,,并自動從冗余數(shù)據(jù)庫中生成一組純化的無冗余的核苷酸序列集萃. 冗余問題一向是序列組間比較的關(guān)鍵概念,,無冗余序列無疑對進行統(tǒng)計學分析和加快廣泛性檢索核苷酸序列數(shù)據(jù)庫的速度非常有益. 所有公開的數(shù)據(jù)庫都會存有同一序列或近似于相同序列的多個不同條目,基于這種偏倚數(shù)據(jù)的統(tǒng)計學分析往往會有很高的將不顯著視為顯著的危險性. 為了實現(xiàn)無偏倚的統(tǒng)計學分析和進行更有效的數(shù)據(jù)庫檢索,,必須使用經(jīng)過純化的無冗余序列數(shù)據(jù). 然而實際操作中對生物序列數(shù)據(jù)冗余性的定義難免含混,、不易確切,Cleanup就使用了一個基于序列相似性程度的定量指標來描述冗余性:一旦用戶給出一個閾值,,那么顯示出一定的相似性而且與數(shù)據(jù)庫中的另一較長序列間存在重疊的序列就被認為是冗余序列. 從互聯(lián)網(wǎng)上下載此程序的地址是ftp://area.ba.cnr.it/pub/embnet/software/Cleanup/.
大規(guī)模序列比較軟件包(Large Scale Sequence Comparison Package) LASSAP (位于http://www-rocq.inria.fr/genome/)是一個跨越多種Unix平臺(SGI/Irix,,SUN/Solaris,IBM/AIX,,DEC/Digital Unix等)的新穎而全面的序列比較軟件包. 它使用了目前所有主要的序列比較算法:BLAST,,F(xiàn)ASTA,Smith-Waterman動態(tài)變程,、Needleman/Wunsch法,、K-best對齊法、字符串匹配(主要針對冗余問題),、模式匹配算法(譬如搜索ProSite特征模式)等. LASSAP中的所有算法都是基于成對比較,、且不同算法間的優(yōu)勢能共享以外,還具備:1) 數(shù)據(jù)庫內(nèi)或庫間比較(數(shù)據(jù)庫既可以是來源于一個大數(shù)據(jù)庫的一套序