歐陽(yáng)曙光 賀福初*
單位:軍事醫(yī)學(xué)科學(xué)院放射醫(yī)學(xué)研究所,,北京100850.
* 聯(lián)系人 1998-11-12收稿,,1999-02-29收修改稿
致謝 本工作為國(guó)家杰出青年科學(xué)基金(編號(hào): 39625014)與國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):39730310)重點(diǎn)資助項(xiàng)目.
摘要 大量的蛋白質(zhì)和核酸數(shù)據(jù)的積累與理性地分析這些數(shù)據(jù)中所蘊(yùn)涵的生物學(xué)意義的雙重需要,產(chǎn)生了綜合生物學(xué)研究與計(jì)算技術(shù)研究等領(lǐng)域最新成果的交叉性學(xué)科“生物信息學(xué)”. 分別從基因序列或蛋白質(zhì)結(jié)構(gòu)等生物信息數(shù)據(jù)庫(kù),、基因組分析或蛋白質(zhì)結(jié)構(gòu)分析等常規(guī)生物學(xué)計(jì)算軟件,、基因組數(shù)據(jù)庫(kù)檢索或蛋白質(zhì)空間結(jié)構(gòu)識(shí)別與預(yù)測(cè)等在線(xiàn)生物學(xué)計(jì)算服務(wù)器、人工生命等幾個(gè)方面,,概述了發(fā)展中的生物信息學(xué)的最近動(dòng)態(tài)和有關(guān)信息,,并同時(shí)提供了相關(guān)的熱門(mén)生物信息學(xué)站點(diǎn)和資源在互聯(lián)網(wǎng)上的超文本或文件傳輸協(xié)議地址. 此外,還介紹了討論組,、新聞組等其他形式的醫(yī)學(xué),、生物學(xué)、信息學(xué)資源. 最后,,就生物信息學(xué)存在的問(wèn)題與前景進(jìn)行了討論,,指出生物信息學(xué)將是一次國(guó)際性的科學(xué)大協(xié)作,也是我國(guó)生命科學(xué)振興的一個(gè)新契機(jī).
關(guān)鍵詞 生物信息學(xué) 生物信息 分子生物學(xué) 計(jì)算機(jī)科學(xué) 互聯(lián)網(wǎng)
--------------------------------------------------------------------------------
1 概述
蛋白質(zhì)與核酸測(cè)序技術(shù)應(yīng)用以來(lái),,已積累了極大量數(shù)據(jù). 同時(shí),,基于典型西方哲學(xué)演繹與解析的分析思路而建立的組合化學(xué)數(shù)據(jù)庫(kù)已經(jīng)成為合理分子設(shè)計(jì)(rational molecular esign)的重要支柱,為創(chuàng)造全新的非自然產(chǎn)物提供了可能. 所以,,將新穎的計(jì)算技術(shù)與方法應(yīng)用于經(jīng)驗(yàn)和理論生物學(xué)研究的時(shí)代已經(jīng)到來(lái),,生物信息學(xué)由此誕生. 但生物數(shù)據(jù)的海量性和復(fù)雜性又都是組合化學(xué)等其他數(shù)據(jù)密集型科學(xué)所不及的,這也是生物信息學(xué)所面臨的更大挑戰(zhàn).
一般意義上,,生物信息學(xué)研究生物信息的采集,、處理、存儲(chǔ),、傳布,、分析和解釋等各個(gè)方面,它通過(guò)綜合數(shù)學(xué),、計(jì)算機(jī)科學(xué)與工程和生物學(xué)的工具與技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘. 它作為一個(gè)交叉學(xué)科領(lǐng)域而薈萃了數(shù)學(xué),、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和分子生物學(xué)的科學(xué)家,,目標(biāo)就是要發(fā)展和利用先進(jìn)的計(jì)算技術(shù)解決生物學(xué)難題. 這里所說(shuō)的計(jì)算技術(shù)至少包括機(jī)器學(xué)習(xí)(machine learning),、模式識(shí)別(pattern recognition)、知識(shí)重現(xiàn)(knowledge representation),、數(shù)據(jù)庫(kù),、組合學(xué)(combinatorics)、隨機(jī)模型(stochastic modeling),、字符串和圖形算法,、語(yǔ)言學(xué)方法、機(jī)器人學(xué)(robotics),、局限條件下的最適推演(constraint satisfaction)和并行計(jì)算等. 而生物學(xué)方面的研究對(duì)象覆蓋了分子結(jié)構(gòu),、基因組學(xué)、分子序列分析,、進(jìn)化和種系發(fā)生,、代謝途徑、調(diào)節(jié)網(wǎng)絡(luò)等諸多方面.
許多研究與發(fā)展組織都預(yù)測(cè):基因組學(xué)研究將會(huì)徹底革新未來(lái)鑒定生物學(xué)產(chǎn)物和選擇更佳目標(biāo)用于小分子生物功能篩選的過(guò)程. 隨著基因組研究規(guī)模擴(kuò)大,,生物信息學(xué)將原始序列數(shù)據(jù)轉(zhuǎn)換為有意義的生物學(xué)信息之重要性也隨之增長(zhǎng).
嚴(yán)峻的挑戰(zhàn)和巨大的機(jī)會(huì)往往出現(xiàn)在相同的時(shí)間和地點(diǎn). 生物信息學(xué)各個(gè)分支都亟待改進(jìn)和提高的3個(gè)方面是:更加有效地處理大規(guī)模的數(shù)據(jù),、建立通用的智能型工具、使所有的操作程序自動(dòng)化.
--------------------------------------------------------------------------------
2 生物信息數(shù)據(jù)庫(kù)
目前,,國(guó)際性合作的幾個(gè)基因組計(jì)劃已經(jīng)積累了超大量的生物信息并以不同組織形式構(gòu)成許多數(shù)據(jù)庫(kù). 其中一些屬于商業(yè)數(shù)據(jù)庫(kù)需要預(yù)先注冊(cè)和付費(fèi)才能檢索,,而更多數(shù)據(jù)庫(kù)是公開(kāi)和免費(fèi)的并可通過(guò)互聯(lián)網(wǎng)絡(luò)(Internet)訪問(wèn). 隨著研究深入,公共數(shù)據(jù)庫(kù)越來(lái)越成為世界各地生物學(xué)家的重要給養(yǎng).
美國(guó)國(guó)家實(shí)驗(yàn)室(Brookhaven National Laboratory, BNL)的蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein data bank, PDB)可同時(shí)提供蛋白質(zhì)序列及其三維空間晶體學(xué)原子坐標(biāo). 其中受體?配體,、抗原-抗體,、?底物-酶復(fù)合物等相互作用分子的共結(jié)晶圖譜是基于同源比較的分子設(shè)計(jì)所需的最佳模型,因此PDB為初步的蛋白質(zhì)合理設(shè)計(jì)提供了無(wú)價(jià)的知識(shí)來(lái)源. 其超文本傳輸(hyper text transfer protocol)地址為http://www.pdb.bnl.gov/,,文件傳輸(file transfer protocol)地址為ftp:\\ftp.pdb.bnl.gov/pub/databases/pdb/all_entries/compressed_files/. PDB在幾個(gè)世界著名科研機(jī)構(gòu)所在地設(shè)有鏡象站點(diǎn)(mirror site),,如歐洲生物信息學(xué)研究所(European Bioinformatics Institute, EBI)的http://www.ebi.ac.uk/pdb/和ftp://ftp.ebi.ac.uk/pub/databases/pdb/,北京大學(xué)物理化學(xué)研究所的http://162.105.177.12/npdb/和ftp://162.105.177.12/fullrelease/compressed_files/等.
超文本版本的細(xì)胞系數(shù)據(jù)庫(kù)(Hypertext version of the cell line data base, HyperCLDB)專(zhuān)門(mén)提供歐洲各家實(shí)驗(yàn)室和捐獻(xiàn)站的人和動(dòng)物細(xì)胞系的信息超過(guò). 目前已有3100種以上的品系,,在其說(shuō)明中能查到可以從哪些實(shí)驗(yàn)室獲得,,并顯示每個(gè)術(shù)語(yǔ)或數(shù)值在總詞匯表和索引表中的出現(xiàn)頻率. 還有指向在線(xiàn)人類(lèi)孟德?tīng)栠z傳(Online mendelian inheritance in Man, OMIM)記錄的鏈接,提供較為深入的病理學(xué)知識(shí),,從病理學(xué)家名錄到與某個(gè)特定病理過(guò)程相關(guān)的細(xì)胞系資料. 直接指向URL提醒系統(tǒng)(reminder system)的鏈接可在所注冊(cè)的網(wǎng)頁(yè)更新時(shí)就用電子郵件提醒用戶(hù). HyperCLDB的搜索引擎在http://www.biotech.ist.unige.it/tab/HyperSearch.html.
OWL混合蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Composite protein sequences databases)是一非重復(fù)蛋白質(zhì)序列數(shù)據(jù)庫(kù),,其數(shù)據(jù)來(lái)源包括(截止到1998年6月以前的統(tǒng)計(jì)):(1) 含有69 110個(gè)分子25 083 142個(gè)殘基的第35版Swiss-Prot;(2) NBRF的含有393個(gè)分子235 554個(gè)殘基的第55版PIR1,,45 067個(gè)分子12 796 251個(gè)殘基的第55版PIR2,,357個(gè)分子69 696個(gè)殘基的第55版PIR3,164個(gè)分子27 699個(gè)殘基的第55版PIR4,;(3) 含有134 190個(gè)分子41 324 437個(gè)殘基的第105.0版GenBank,;(4) 含有1 233個(gè)分子236 843個(gè)殘基的第23.0版NRL_3D,每項(xiàng)條目都可以在BNL的X線(xiàn)晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)中查到,,其代碼為NRL_開(kāi)頭再加上4個(gè)字符的PDB代碼. 全部入庫(kù)序列數(shù)已達(dá)到25 0514個(gè)分子79 773 622個(gè)殘基. 它的WWW地址為http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owlcontents.html.
歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory, EMBL)的TREMBL是對(duì)Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫(kù)的增補(bǔ),,含有EMBL核酸序列數(shù)據(jù)庫(kù)中尚未出現(xiàn)于Swiss-Prot的所有編碼區(qū)(CDS)的翻譯序列,,可以看作是Swiss-Prot 的前言部分,今后都可能升級(jí)到標(biāo)準(zhǔn)Swiss-Prot 中,,故而全分配有Swiss-Prot 訪問(wèn)代碼. 目前的第3版TREMBL源于第50版EMBL核酸序列數(shù)據(jù)庫(kù),,有126 995條序列34 178 645個(gè)氨基酸殘基. 它分成兩個(gè)部分:SP-TREMBL(104 865)是肯定要轉(zhuǎn)入Swiss-Prot 的,包含fun.dat (真菌),、hum.dat (人),、inv.dat (無(wú)脊椎動(dòng)物)、mam.dat (其他哺乳動(dòng)物),、mhc.dat(MHC蛋白),、org.dat (細(xì)胞器)、phg.dat (噬菌體),、pln.dat (植物),、pro.dat (原核生物)、rod.dat (嚙齒動(dòng)物),、vrl.dat (病毒),、vrt.dat (其他脊椎動(dòng)物)等文件,已經(jīng)可以在EBI的FASTA服務(wù)器上搜索,,不久也將能在BLITZ服務(wù)器上搜索,;REM?TREMBL則是不準(zhǔn)備收入Swiss-Prot 的其他數(shù)據(jù). TREMBL站點(diǎn)位于
http://www.ebi.ac.uk/srs/srsc/和ftp://ftp.ebi.ac.uk/pub/databases/trembl/.
與生物催化和生物降解相關(guān)的數(shù)據(jù)庫(kù)站點(diǎn)有:UM-BBD ,即Minnesota大學(xué)生物催化和生物降解數(shù)據(jù)庫(kù)(University of minnesota biocatalysis/biodegradation database),,提供關(guān)于微生物酶與代謝通路的信息,,位于http://dragon.labmed.umn.edu/~lynda/index.html;EcoCyc,,大腸桿菌基因和代謝百科全書(shū)(Encyclopedia of ?Escherichia coli? Genes and Metabolism),,是一個(gè)匯集了所有已知的關(guān)于大腸桿菌基因和中間代謝的數(shù)據(jù)的大型知識(shí)庫(kù),它位于http://www.ai.sri.com/ecocyc/ecocyc.html,;GenoBase Selkov EMP,,是GenoBase數(shù)據(jù)庫(kù)通道(GenoBase Database Gateway)中一個(gè)經(jīng)過(guò)索引的、關(guān)于酶與代謝通路(Enzymes and Metabolic Pathways)的數(shù)據(jù)庫(kù),,處于http://specter.dcrt.nih.gov:8004/Pathway/pathway_toc_by_name.html,;KEGG,日本的基因和基因組京都百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes),,內(nèi)容包括代謝通路圖譜,、分子編目表、基因編目表,、基因組圖譜等數(shù)據(jù),,它被放置于http://www.genome.ad.jp/kegg/kegg1.html;SoyBase,,是植物基因組計(jì)劃(Plant genome program)中的一部分 花生計(jì)劃(Soybean roject)研究數(shù)據(jù)的集合,,可以在http://probe.nal.usda.gov: 8000/plant/aboutsoybase.html看到詳細(xì)內(nèi)容,;Swiss-Prot,是帶有注釋的,、具有最小冗余的,、與其他數(shù)據(jù)庫(kù)的整合度很高的蛋白質(zhì)序列數(shù)據(jù)庫(kù),在http://www.expasy.ch/sprot/sprottop.html,;以及WIT (What is there),是一個(gè)基于最近的關(guān)于細(xì)菌全基因組序列的足夠了解,、在WWW上設(shè)計(jì)實(shí)現(xiàn)的交互式代謝重構(gòu)模型,,它位于http://www.cme.msu.edu/WIT/.
最新的整合型鼠基因組的遺傳圖譜和物理圖譜數(shù)據(jù)庫(kù)(Genetic and physical maps of mouse genome data)第14版已經(jīng)被放在了http://www.genome.wi.mit.edu/cgi-bin/mouse/ index. 位于右側(cè)的鼠遺傳圖譜包括了定位于Ob x Cast F2雜交系的6331種簡(jiǎn)單序列長(zhǎng)度多態(tài)性(Simple sequence length polymorphism, SSLP),平均分辨率1.1 cM. 位于左側(cè)的Copeland/Jenkins圖譜包括了定位于Spretus回交系的2 342個(gè)分子標(biāo)記,,將近多一半的是SSLP,,另一半的是RFLP, 既可以分子標(biāo)記的名稱(chēng),也可以分子標(biāo)記的位置/多態(tài)性進(jìn)行檢索. 鼠STS物理圖譜包含了來(lái)源于平均插入片段長(zhǎng)度約為820 kb的酵母人工染色體(YAC)克隆文庫(kù)的超過(guò)6 000種的STS,,可分別以分子標(biāo)記的名稱(chēng),、YAC的位置或YAC的名稱(chēng)進(jìn)行檢索.
位于http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/的基因組導(dǎo)航者(Genome navigator)是提供到達(dá)含有關(guān)于人類(lèi)基因組、鼠基因組和酵母基因組等的物理圖譜和遺傳圖譜信息的主要數(shù)據(jù)庫(kù)的視化的交互式通道. 它使用基于Java小控件(applet)的通用性程序DerBrowser來(lái)顯示和導(dǎo)引這些生物的多種不同類(lèi)型的基因組圖譜. 除了常規(guī)功能以外,,它的一個(gè)特別之處就是還能讓用戶(hù)查詢(xún)外部的相關(guān)數(shù)據(jù)庫(kù)中存在的任一圖譜,,目前的數(shù)據(jù)來(lái)源已經(jīng)包括:麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)基因組研究中心的Whitehead生物醫(yī)學(xué)研究所(Whitehead Institute for Biomedical Research, Whitehead/MIT),約翰·霍普金斯大學(xué)醫(yī)學(xué)院(Johns Hopkins University School of Medicine)的基因組數(shù)據(jù)庫(kù)(Genome database, GDB),,Jean Dausset基金會(huì)(Fondation Jean Dausset)的人類(lèi)基因組多態(tài)性研究中心(Centre d'Etudes du Polymorphisme Humain, CEPH)和Genethon研究所的infoclone,,人類(lèi)基因連鎖研究合作中心(Cooperative Human Linkage Center, CHLC),美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)的人類(lèi)轉(zhuǎn)錄本圖譜(Human transcript map, HTM),,以及其他一些專(zhuān)門(mén)收錄人類(lèi)染色體信息的數(shù)據(jù)庫(kù),;歐洲合作種間鼠回交(European collaborative interspecific mouse Backcross, EUCIB)計(jì)劃的鼠回交數(shù)據(jù)庫(kù)(Mouse Backcross Database, MBx),斯坦福大學(xué)醫(yī)學(xué)院(Stanford University School of Medicine)的酵母基因組數(shù)據(jù)庫(kù)(Saccharomyces Genome Database, SGD),,Proteome公司的酵母蛋白質(zhì)數(shù)據(jù)庫(kù)(Yeast Protein Database, YPD),,Max-Planck研究所的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Centre for Protein Sequences, MIPS),全自動(dòng)分析生物序列的GeneQuiz服務(wù)器等.
能提供啤酒酵母(Saccharomyces cerevisiae)蛋白質(zhì)三維結(jié)構(gòu)信息的酵母基因組數(shù)據(jù)庫(kù)SGD已經(jīng)可以在http://genome-www.stanford.edu/Sacch3D/找到. 其特性包括:(1)以基因名稱(chēng),、開(kāi)放讀碼框架(ORF)名稱(chēng),、染色體編號(hào)、文字等形式檢索酵母基因組中任一蛋白質(zhì)的潛在的結(jié)構(gòu)信息,;(2)使用RasMol或基于Java的顯示程序交互地觀察結(jié)構(gòu)信息,;(3)瀏覽全部已經(jīng)收錄于PDB結(jié)構(gòu)數(shù)據(jù)庫(kù)中的啤酒酵母蛋白質(zhì);(4)以到達(dá)NCBI的MMDB,,SCOP,,Swiss-Prot等面向結(jié)構(gòu)的其他數(shù)據(jù)庫(kù)的鏈接. 總體上看,已知的結(jié)構(gòu)信息還是相當(dāng)稀少的,,目前在酵母基因組中只有12%的蛋白質(zhì)與已知結(jié)構(gòu)的蛋白質(zhì)之間呈現(xiàn)顯著的序列相似性.但隨著更多的新的蛋白質(zhì)結(jié)構(gòu)被測(cè)定和檢測(cè)結(jié)構(gòu)相似性技術(shù)的改進(jìn),,這個(gè)數(shù)字必將增長(zhǎng).
IUBio檔案是一個(gè)生物數(shù)據(jù)和軟件的檔案庫(kù),,囊括了各種各樣的大眾化的瀏覽、檢索和傳輸軟件,、分子數(shù)據(jù),、生物學(xué)新聞和文件,其互聯(lián)網(wǎng)地址是iubio.bio.indiana.edu (magpie 129.79.225.200). 分子生物學(xué)是這里的焦點(diǎn),,它也同時(shí)是果蠅研究數(shù)據(jù)的一個(gè)大本營(yíng). 這里維護(hù)著可在所有計(jì)算機(jī)上運(yùn)行的一些對(duì)于生物學(xué)挺重要的軟件:公共軟件使用的分類(lèi)包括了生物學(xué),、化學(xué)、科學(xué),、應(yīng)用程序等,;而分子生物學(xué)部分使用的分類(lèi)包括了對(duì)齊、密碼子,、自動(dòng)測(cè)序,、瀏覽、一致序列,、進(jìn)化,、模式、引物,、限制酶,、RNA折疊、檢索,、IBM-PC,,Mac,M$win, Unix,Vax等,;檢索服務(wù)包括了GenBank核酸數(shù)據(jù)庫(kù),、Swiss-Prot和PIR蛋白質(zhì)數(shù)據(jù)庫(kù)、Bionet新聞組,、序列檢索系統(tǒng)SRS和SRS-FASTA. 它的專(zhuān)門(mén)的果蠅基因組數(shù)據(jù)庫(kù)FlyBase位于http://flybase.bio.indiana.edu/ (firefly 129.79.225.202).
--------------------------------------------------------------------------------
3 生物計(jì)算
就目前的數(shù)學(xué)和計(jì)算機(jī)科學(xué)的能力而言,,對(duì)數(shù)據(jù)容量達(dá)到上十億字節(jié)的數(shù)據(jù)庫(kù)進(jìn)行生物計(jì)算仍然是一項(xiàng)很艱巨的任務(wù). 雖然最簡(jiǎn)單的序列比較可以被簡(jiǎn)化成字符串匹配的算法,以及將模式識(shí)別和神經(jīng)網(wǎng)絡(luò)等先進(jìn)算法也運(yùn)用其中,,但是擴(kuò)展的和多重的序列比較還是處于試驗(yàn)摸索中. 理論上有希望的,、通過(guò)量子化學(xué)算法預(yù)測(cè)蛋白質(zhì)的空間折疊的方法靠現(xiàn)有的計(jì)算能力尚無(wú)法成為現(xiàn)實(shí), 因?yàn)檫@些都需要數(shù)學(xué)與純計(jì)算機(jī)效能上的新突破.
大分子設(shè)計(jì)和模建算法讓曾經(jīng)致力于分子力學(xué)和分子模型構(gòu)建的應(yīng)用數(shù)學(xué)家、物理學(xué)家,、化學(xué)家和生物學(xué)家走到了一起. 現(xiàn)在的重點(diǎn)和挑戰(zhàn)在于如何獲得高增益,、高效率、高可信度的蛋白質(zhì),、核酸和多聚體的模擬算法. 分子力學(xué)的高級(jí)時(shí)間步長(zhǎng)法(advanced time-stepping),、靜電學(xué)、經(jīng)典量子力學(xué)、結(jié)構(gòu)確定(structure determination),、自由能和整體集群計(jì)算(ensemble calculations)等,,都是可能的突破點(diǎn).
分子圖形和模型學(xué)是生物信息學(xué)和藥物設(shè)計(jì)的重要部分. 當(dāng)基因組學(xué)的成就被應(yīng)用于合理目標(biāo)鑒別時(shí),蛋白質(zhì)結(jié)構(gòu)相似性和結(jié)構(gòu)預(yù)測(cè),、確定蛋白質(zhì)-蛋白質(zhì)相互作用,、識(shí)別類(lèi)似的和同源的蛋白質(zhì)折疊等方法都會(huì)顯著地影響最后的結(jié)果. 自動(dòng)同源模建和結(jié)構(gòu)-功能預(yù)測(cè)也需要更多的努力,并利用趨于成熟的神經(jīng)網(wǎng)絡(luò)方法來(lái)實(shí)現(xiàn).
先是可在本地的個(gè)人機(jī)或工作站上運(yùn)行的生物計(jì)算軟件和程序,,下一部分側(cè)重于通過(guò)互聯(lián)網(wǎng)絡(luò)的在線(xiàn)計(jì)算.
(1) 日常數(shù)據(jù)維護(hù). 為生命科學(xué)研究人員實(shí)現(xiàn)全方位計(jì)算能力的軟件工具Prophet 5.0,,提供適合于數(shù)據(jù)管理和視化、包括從簡(jiǎn)單描述性的統(tǒng)計(jì)處理到多元方差分析(Multi-factor ANOVA),,logistic回歸和非線(xiàn)性模型分析等多種統(tǒng)計(jì)分析. 它配備了多序列對(duì)齊,、翻譯、限制酶和蛋白水解酶酶切分析,、PCR引物設(shè)計(jì)、BLAST檢索,、遠(yuǎn)程數(shù)據(jù)庫(kù)檢索等生物序列分析工具. 全功能的Prophet 5.0程序可以從http://www-prophet.bbn.com/下載,,可免費(fèi)使用60 d. 其支持和即將支持的Unix平臺(tái)包括SUN/Solaris 2.4,DEC Alpha/Digital Unix和Silicon Graphics/Irix 6.2等. 這個(gè)綜合性的數(shù)據(jù)分析軟件包以快速易用為特點(diǎn):會(huì)用鼠標(biāo)就會(huì)用Prophet.
由http://www.unizh.ch/vetvir/plugin.html可下載一些能加快實(shí)驗(yàn)室日常工作,、用于蘋(píng)果Mac機(jī)或Windows系統(tǒng)的瀏覽器(Netscape 2.x和Internet Explorer 2.x)的免費(fèi)插件(plugin)程序,,安裝后再連接到http://www.unizh.ch/vetvir/programs.html. 其功能包括:酶切預(yù)覽(根據(jù)用戶(hù)使用的限制性酶和DNA的核苷酸序列在虛擬的瓊脂糖凝膠上電泳,用戶(hù)可以在到紫外燈箱拍照前知道凝膠上出現(xiàn)條帶的理論位置),;稀釋計(jì)算(任何濃度的溶液稀釋配比計(jì)算),;接頭設(shè)計(jì)(得到一個(gè)用于插入序列連接的、無(wú)自連末端的接頭序列)等.
質(zhì)粒處理器(Plasmid processor)是專(zhuān)門(mén)繪制科研與教育用質(zhì)粒圖譜的簡(jiǎn)單程序. 可以輸入線(xiàn)形或圓形質(zhì)粒,,任意定義限制位點(diǎn),、基因位點(diǎn)和多克隆位點(diǎn),任意插入或缺失部分片段.輸出的質(zhì)粒圖譜可復(fù)制到剪貼板上,,也可以存盤(pán)以便后用,,或通過(guò)程序內(nèi)置的打印模塊打印. 壓縮的程序包plasp102.zip(約239 kB)可以從http://www.uku.fi/~kiviraum/plasmid/plasmid.html下載.
(2) 序列對(duì)齊. 基于“近似字符串匹配(Approximate string matching)”算法的Cleanup 1.8能夠確定從核苷酸序列數(shù)據(jù)庫(kù)中指定的任何一對(duì)序列間的整體同源性,并自動(dòng)從冗余數(shù)據(jù)庫(kù)中生成一組純化的無(wú)冗余的核苷酸序列集萃. 冗余問(wèn)題一向是序列組間比較的關(guān)鍵概念,,無(wú)冗余序列無(wú)疑對(duì)進(jìn)行統(tǒng)計(jì)學(xué)分析和加快廣泛性檢索核苷酸序列數(shù)據(jù)庫(kù)的速度非常有益. 所有公開(kāi)的數(shù)據(jù)庫(kù)都會(huì)存有同一序列或近似于相同序列的多個(gè)不同條目,,基于這種偏倚數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析往往會(huì)有很高的將不顯著視為顯著的危險(xiǎn)性. 為了實(shí)現(xiàn)無(wú)偏倚的統(tǒng)計(jì)學(xué)分析和進(jìn)行更有效的數(shù)據(jù)庫(kù)檢索,必須使用經(jīng)過(guò)純化的無(wú)冗余序列數(shù)據(jù). 然而實(shí)際操作中對(duì)生物序列數(shù)據(jù)冗余性的定義難免含混,、不易確切,,Cleanup就使用了一個(gè)基于序列相似性程度的定量指標(biāo)來(lái)描述冗余性:一旦用戶(hù)給出一個(gè)閾值,那么顯示出一定的相似性而且與數(shù)據(jù)庫(kù)中的另一較長(zhǎng)序列間存在重疊的序列就被認(rèn)為是冗余序列. 從互聯(lián)網(wǎng)上下載此程序的地址是ftp://area.ba.cnr.it/pub/embnet/software/Cleanup/.
大規(guī)模序列比較軟件包(Large Scale Sequence Comparison Package) LASSAP (位于http://www-rocq.inria.fr/genome/)是一個(gè)跨越多種Unix平臺(tái)(SGI/Irix,,SUN/Solaris,,IBM/AIX,DEC/Digital Unix等)的新穎而全面的序列比較軟件包. 它使用了目前所有主要的序列比較算法:BLAST,F(xiàn)ASTA,,Smith-Waterman動(dòng)態(tài)變程,、Needleman/Wunsch法、K-best對(duì)齊法,、字符串匹配(主要針對(duì)冗余問(wèn)題),、模式匹配算法(譬如搜索ProSite特征模式)等. LASSAP中的所有算法都是基于成對(duì)比較、且不同算法間的優(yōu)勢(shì)能共享以外,,還具備:1) 數(shù)據(jù)庫(kù)內(nèi)或庫(kù)間比較(數(shù)據(jù)庫(kù)既可以是來(lái)源于一個(gè)大數(shù)據(jù)庫(kù)的一套序