生物信息學(xué)是當(dāng)前生物學(xué)領(lǐng)域的研究熱點(diǎn),,預(yù)計(jì)在未來的若干年它將變得越來越重要,、越來越引起人們的重視,。
近期任務(wù)
由于未來幾年蛋白質(zhì)和核酸的測序數(shù)據(jù)將以指數(shù)方式增加,近期生物信息學(xué)將在以下幾方面迅速發(fā)展:
大規(guī)?;蚪M測序中的信息分析
大規(guī)模測序是基因組研究的最基本任務(wù),,它的每一個(gè)環(huán)節(jié)都與信息分析緊密相關(guān)。目前,,從測序儀的光密度采樣與分析,、堿基讀出,、載體標(biāo)識(shí)與去除、拼接與組裝,、填補(bǔ)序列間隙,,到重復(fù)序列標(biāo)識(shí)、讀框預(yù)測和基因標(biāo)注的每一步都是緊密依賴基因組信息學(xué)的軟件和數(shù)據(jù)庫的,。特別是拼接和填補(bǔ)序列間隙更需要把實(shí)驗(yàn)設(shè)討和信息分析時(shí)刻聯(lián)系在一起.拼接與組裝中的難點(diǎn)是處理重復(fù)序列,,這在含有約30%重復(fù)序列的人類基因組中顯得尤其突出。
新基因和新SNPs(單核苷酸多態(tài)性)的發(fā)現(xiàn)與鑒定
人類基因組的工作草圖即將完成,,因此發(fā)現(xiàn)新基因就成了當(dāng)務(wù)之急,。使用基因組信息學(xué)的方法通過超大規(guī)模計(jì)算是發(fā)現(xiàn)新基因的重要手段,可以說大部分新基因是靠理論方法預(yù)測出來的,。比如啤酒酵母完整基因組(約1300萬bp)所包含的6千多個(gè)基因,,大約60%是通過信息分析得到的。
當(dāng)人類基因找到之后,,自然要解決的問題是:不同人種間基因有什么差別,;正常人和病人基因又有什么差別。”這就是通常所說的SNPs(單核苷酸多態(tài)性),。構(gòu)建SNPs及其相關(guān)數(shù)據(jù)庫是基因組研究走向應(yīng)用的重要步驟,。1998年國際已開展了以EST為主發(fā)現(xiàn)新Spps的研究。在我國開展中華民族SNPs研究也是至關(guān)重要的,。
完整基因組的比較研究
現(xiàn)在,,生物信息學(xué)家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對(duì)若干重大生物學(xué)問題進(jìn)行分析,,比如:研究生命是從哪里起源的,?生命是如何進(jìn)化的?遺傳密碼是如何起源的,?估計(jì)最小獨(dú)立生活的生物至少需要多少基因,,這些基因是如何使它們活起來的?比如,,鼠和人的基因組大小相似,,都含有約三十億堿基對(duì),基因的數(shù)目也類似,??墒鞘蠛腿瞬町惔_如此之大,這是為什么,?同樣,,有的科學(xué)家估計(jì)不同人種間基因組的差別僅為0.1%;人猿間差別約為I%,。但他們表型間的差異十分顯著,。因此其表型差異不僅應(yīng)從基因,、DNA序列找原因,也應(yīng)考慮到整個(gè)研究組,、考慮染色體組織上的差異,。總之,,這些例子說明由完整基因組研究所導(dǎo)致的比較基因組學(xué)必將為基因組研究開辟新的領(lǐng)域,。
大規(guī)模基因功能表達(dá)譜的分析
隨著人類基因組測序逐漸接,。近完成,、一些學(xué)者就提出如下的問題:即使我們已經(jīng)獲得了人的完整基因圖譜,那我們對(duì)人的生命活動(dòng)能說明到什么程度呢,?于是他們提出了一系列由上述數(shù)據(jù)所不能說明的問題,,例如:基因表達(dá)的產(chǎn)物是否出現(xiàn)與何時(shí)出現(xiàn);基因表達(dá)產(chǎn)物的濃度是多少,;是否存在翻譯后的修飾過程,,若存在是如何修飾的;基因敲出(knock-out)或基因過度表達(dá)的影響是什么,;多基因的表現(xiàn)型如何,,等。概括這些問題,,其實(shí)質(zhì)應(yīng)該是:我們雖然知道了基因,,知道了核酸序列,但我們不知道它們是如何發(fā)揮功能的,,或者說它們是如何按照特定的時(shí)間,、空間進(jìn)行基因表達(dá)的,表達(dá)量有多少,。
為了得到基因表達(dá)的功能譜,,國際上在核酸和蛋白質(zhì)兩個(gè)層次上都發(fā)展了新技術(shù)。這就是在核酸層次上的DNA芯片技術(shù)和在蛋白質(zhì)層次上的二維凝膠電泳和測序質(zhì)譜技術(shù),,也稱蛋白質(zhì)組技術(shù),。
生物大分子的結(jié)構(gòu)模擬與藥物設(shè)計(jì)
隨著人類基因組計(jì)劃的執(zhí)行,,估計(jì)幾年之內(nèi)就可找到人類的8萬到10萬個(gè)基因,,也就是發(fā)現(xiàn)它們的一級(jí)序列。然而要了解他們的功能,、要找到這些蛋白質(zhì)功能的分子基礎(chǔ),,必須進(jìn)一步知道它們的三維結(jié)構(gòu)。與此同時(shí),,要設(shè)計(jì)藥物也需要了解相應(yīng)的蛋白質(zhì)受體的三維結(jié)構(gòu),。這是擺在科學(xué)家面前的緊迫任務(wù),。
遠(yuǎn)期任務(wù)
生物信息學(xué)的遠(yuǎn)期任務(wù)是讀懂人類基因組,發(fā)現(xiàn)人類遺傳語言的根本規(guī)律,。從而闡u若干生物學(xué)中的重大自然哲學(xué)問題,,像生命的起源與進(jìn)化等。這一研究的關(guān)鍵和核心是了解非編碼區(qū),。
非編碼區(qū)信息結(jié)構(gòu)分析
近年來完整基因組的研究表明,,在細(xì)菌這樣的微生物中非編碼區(qū)只占整個(gè)基因組序列的10%到 20%。而高等生物和人的基因組中非編碼區(qū)都占到基因組序列的絕大部分,。從生物進(jìn)化的觀點(diǎn)看來,,隨著生物體功能的完善和復(fù)雜化非編碼區(qū)序列明顯增加的趨勢表明:這部分序列必定具有重要的生物功能。普遍的認(rèn)識(shí)是,,它們與基因在四維時(shí)空的表達(dá)調(diào)控有關(guān),。因此尋找這些區(qū)域的編碼特征以及信息調(diào)節(jié)與表達(dá)規(guī)律是未來相當(dāng)長時(shí)間內(nèi)的熱點(diǎn)課題。
對(duì)人類基因組來說,,迄今為止,,人們真正掌握規(guī)律的只有DNA上的編碼蛋白質(zhì)的區(qū)域(基因),很多資料說u這部分序列只占基因組的3%到5%,,也就是說,,人類基因組中多達(dá) 95%到97%是非編碼區(qū)。如何深人了解這些非編碼區(qū)序列的功能是當(dāng)前科學(xué)家們面臨的一個(gè)真正的挑戰(zhàn),。
遺傳密碼起源和生物進(jìn)化的研究
自 1859年Darwin的物種起源發(fā)表以來,,進(jìn)化論成為對(duì)人類自然科學(xué)和自然哲學(xué)發(fā)展的最重大貢獻(xiàn)之一。進(jìn)化論研究的核心是描述生物進(jìn)化的歷史(系統(tǒng)進(jìn)化樹)和探索進(jìn)化過程的機(jī)制,。自本世紀(jì)中葉以來,,隨著分子生物學(xué)的不斷發(fā)展,進(jìn)化論的研究也進(jìn)入了分子水平,。當(dāng)前分子進(jìn)化的研究已是進(jìn)化論研究的重要手段,,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法,。近年來,,隨著序列數(shù)據(jù)的大量增加,對(duì)序列差異和進(jìn)化關(guān)系的爭論也越來越激烈,。不少的研究結(jié)果并不支持分子鐘的假設(shè),。因?yàn)榛谀骋环N分子序列所重構(gòu)出的進(jìn)化樹,只能反映這種序列的系統(tǒng)發(fā)育關(guān)系,,并不一定能代表物種之間真正的進(jìn)化關(guān)系,,即可能存在著基因樹與物種樹之間的差異。同時(shí),,對(duì)垂直進(jìn)化和水平演化之間關(guān)系的討論正逐漸引起人們的重視,。當(dāng)前的資料給了我們,。一個(gè)更為復(fù)雜也更為豐滿的進(jìn)化模式,它啟示我們要徹底了解進(jìn)化的規(guī)律必須使用整個(gè)基因組的信息,。相應(yīng)地必須發(fā)展新的理論方法,。 總之,當(dāng)前是生物信息學(xué)研究的一個(gè)有活力的新時(shí)代,。不少科學(xué)家還說它是人類基因組研究的收獲時(shí)代,,它不僅將賦予人們各種基礎(chǔ)研究的重要成果,也會(huì)帶來巨大的經(jīng)濟(jì)效益和社會(huì)效益,。在未來的幾年中DNA序列數(shù)據(jù)將以意想不到的速度增長,,這是一個(gè)難得的機(jī)會(huì),我國應(yīng)盡早利用這些數(shù)據(jù)就可能走在國際科學(xué)界的最前沿,。