人類基因組研究已進(jìn)入一個(gè)新時(shí)期,,2003年4月14日正式發(fā)表了人類基因組全圖,,到2006年初為止,GenBank中的DNA堿基數(shù)目已達(dá)60億,,DNA序列數(shù)目達(dá)到5千多萬。
如何分析這些基因數(shù)據(jù),,從中獲得生物結(jié)構(gòu),、功能的相關(guān)信息是基因組研究取得成果的決定性步驟,。基因組的研究也將全面進(jìn)入信息提取和數(shù)據(jù)分析階段,,即基因組信息學(xué)發(fā)揮重要作用的階段,。
基因組信息學(xué)是生物信息學(xué)的核心。包括基因組信息的獲取,、處理,、存儲,、分配和解釋,。包括了兩層含義,,一是對海量基因數(shù)據(jù)的收集、整理與服務(wù),;二是從數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律,,也就是用好這些數(shù)據(jù)。
廣泛使用的基因序列比對和搜索軟件有Fasta ,,Blast,,以及多序列搜索工具Clustalw,,Clustalx,這些基因組信息學(xué)軟件都已經(jīng)在曙光服務(wù)器上得到部署和應(yīng)用,,并有相應(yīng)的成功案例,。
曙光公司助力生物信息學(xué)的發(fā)展,可為基因組信息學(xué)研究提供系統(tǒng)的解決方案,,包括相應(yīng)的硬件平臺和軟件配置,。
1.生物信息學(xué)和基因組信息學(xué)
生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,,成為生命科學(xué)研究的前沿。而基因組信息學(xué)是生物信息學(xué)的核心,,生物信息學(xué)則以基因組信息學(xué)為基礎(chǔ),。
基因組信息學(xué)包括了基因組信息的獲取,、處理、存儲,、分配和解釋。有兩層含義,,一是對海量基因數(shù)據(jù)的收集,、整理與服務(wù);二是從數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律,,也就是用好這些數(shù)據(jù),。
生物信息學(xué)是把基因組 DNA序列信息分析作為源頭,,找到基因組序列中代表蛋白質(zhì)和 RNA基因的編碼區(qū),;同時(shí),,闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),,破譯隱藏在 DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),,從而認(rèn)識代謝,、發(fā)育,、分化,、進(jìn)化的規(guī)律,。
生物信息學(xué)利用基因組中編碼區(qū)的信息進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)的模擬和蛋白質(zhì)功能的預(yù)測,,并將此類信息與生物體和生命過程的生理生化信息相結(jié)合,闡明其分子機(jī)理,,最終進(jìn)行蛋白質(zhì)、核酸的分子設(shè)計(jì),、藥物設(shè)計(jì)和個(gè)體化的醫(yī)療保健設(shè)計(jì),。
2.生物信息數(shù)據(jù)庫及其查詢
生物學(xué)中最重要的兩種物質(zhì)有:DNA和蛋白質(zhì),。DNA是一種由堿基按一定規(guī)則排列而成的雙鏈結(jié)構(gòu)生物大分子,,這種堿基排列順序就構(gòu)成了生物的遺傳信息,。蛋白質(zhì)是由DNA根據(jù)鏈結(jié)構(gòu)上的某些功能堿基序列復(fù)制而成的具有特殊功能的生物大分子,。生物基因包括DNA鏈上的堿基及其排列順序,。雖然堿基的數(shù)目只有四種Adenine(A),、Cytosine(C),、Guanine(G)、Thymine(T),,而它們在DNA上做各種有序的排列形成了生物的多樣性,。所以對這種堿基序列進(jìn)行測序,、編碼和研究是生物學(xué)研究最重要的工作。生物基因序列數(shù)據(jù)就是對于某一生物基因采用某種編碼方式編碼產(chǎn)生的數(shù)據(jù),。
近年來大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫,。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),,并提供相關(guān)的數(shù)據(jù)查詢,、數(shù)據(jù)處理的服務(wù),。隨著因特網(wǎng)的普及,,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問,,或者通過網(wǎng)絡(luò)下載,。
這些生物信息數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),,只經(jīng)過簡單的歸類整理和注釋,;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫,、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定目標(biāo)衍生而來,是對生物學(xué)知識和信息的進(jìn)一步整理,。國際上著名的一級核酸數(shù)據(jù)庫有GenBank數(shù)據(jù)庫,、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT,、PIR等,;蛋白質(zhì)結(jié)構(gòu)庫有PDB等,。國際上二級生物學(xué)數(shù)據(jù)庫非常多,它們因針對不同的研究內(nèi)容和需要而各具特色,,如人類基因組圖譜庫GDB,、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC,、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等,。