不經(jīng)意間,,一個似熟悉卻陌生的科學(xué)術(shù)語撞入我們的視野———生物信息學(xué),。什么是生物信息學(xué)?如果你僅僅“顧名思義”,,以為生物信息學(xué)既涉及生物,、物理、化學(xué),,又與數(shù)學(xué),、計(jì)算機(jī)科學(xué)、信息科學(xué)等有關(guān),,因此內(nèi)容寬泛無邊,,那就錯了。實(shí)際上,,生物信息學(xué)的內(nèi)涵十分具體,,范圍非常明確。由于生物信息學(xué)是伴隨基因組研究的產(chǎn)生而產(chǎn)生,,發(fā)展而發(fā)展的,,因此它主要履行對基因組研究相關(guān)生物信息的獲取,、加工、儲存,、分配,、分析和解釋等職責(zé)。在完成對自身基因組的測序之后,,人類亟需破譯基因組所蘊(yùn)涵的功能密碼,,攻克基因藥物研制和基因診斷治療等科學(xué)顛峰的“后基因組時代”,生物信息學(xué)將更加舉足輕重,。 要破譯生命“天書”,,僅僅依靠傳統(tǒng)的實(shí)驗(yàn)觀察手段是無濟(jì)于事的。生命科學(xué)的革命性巨變,,將生物信息學(xué)推到了前臺,。 關(guān)于生命“天書”,中科院生物物理所資深研究員陳潤生的描述十分生動到位,。他說,,生物的遺傳物質(zhì)是一類稱為“脫氧核糖核酸”(DNA)的生物大分子,它是由4種核甘酸(即堿基,,通常用字符A,、T、G,、C代表)串接起來組成的,。通俗地說,生物的遺傳密碼就是由這4個字符串成的“線狀長鏈”,。這種“鏈”往往很長,,比如人的遺傳密碼就含有32億個字符,將它們堆起來就構(gòu)成了一部有100多萬頁,,每頁含3000個字符的“天書”,。這本“天書”包含了人體的結(jié)構(gòu)和功能以及生命活動過程的大量信息,,但它僅僅是由4個字符組成,,既無“語法”,又無“標(biāo)點(diǎn)符號”,,看上去每一頁都相似,。如何讀懂它是個極大的難題。 伴隨基因組研究的展開,,相關(guān)信息出現(xiàn)了“爆炸性”增長,。根據(jù)國際數(shù)據(jù)庫的統(tǒng)計(jì),1999年12月已知的生物DNA堿基數(shù)目為30億,,2000年4月達(dá)到60億,,至今已超過140億,,大約每14個月就翻一番??茖W(xué)家指出,,如果不把生物學(xué)問題轉(zhuǎn)化為數(shù)字符號,進(jìn)行依賴于計(jì)算機(jī)的信息學(xué)處理,,生命天書將永無解密的一天,。 據(jù)介紹,現(xiàn)有的DNA測序儀每個反應(yīng)只能讀取幾百到上千個堿基,,因此要“通讀”全部32億個人類遺傳密碼,,就必須首先把人的基因組打碎,測完一小段一小段的序列后,,再把它們重新拼接和組裝起來,。在這個過程中,特別需要把實(shí)驗(yàn)設(shè)計(jì)和信息分析時刻聯(lián)系在一起,,否則多達(dá)數(shù)千萬個的小片段就失去了“上下文”的聯(lián)系,。另一方面,還要按照不同的步驟要求,,發(fā)展適當(dāng)?shù)乃惴ê蛙浖?001年春天,,包括中國科學(xué)家在內(nèi)的多國科學(xué)家宣布繪制成人類基因組“工作草圖”,即測得了人類基因組的絕大部分序列,。而得到這些序列,,是把人類基因組打碎后,利用超級計(jì)算機(jī),,拼接和組裝了大約5遍才實(shí)現(xiàn)的,。 在人類基因組測序“大戰(zhàn)”中出盡風(fēng)頭的美國塞萊拉公司最近宣布,將退出新一輪基因組測序的競爭,,集中精力挖掘蘊(yùn)涵在基因序列中的信息,,尋找制藥的“靶點(diǎn)”。從中我們明顯嗅到后基因組研究“漲潮”的訊息,。 近日來北京參加“第二屆中國信息學(xué)大會”的Stephen教授向記者透露了塞萊拉公司的最新動向,。這位美國國家生物技術(shù)信息中心的高級科學(xué)家說:“盡管塞萊拉公司在人類基因組測序的競爭中非常成功,而且可以說他們做了一件大好事———就是使人類基因組計(jì)劃的公共投資得到了強(qiáng)化,。但是,,目前他們已經(jīng)從‘賣基因數(shù)據(jù)庫’轉(zhuǎn)而集中精力‘尋找制藥的靶點(diǎn)’。這是一個非常值得關(guān)注的現(xiàn)象,。” “進(jìn)入后基因組時代”,,這句話人們已經(jīng)說了不少日子了。但從塞萊拉這樣美國最大基因組研究與開發(fā)私營公司的戰(zhàn)略重點(diǎn)轉(zhuǎn)移,人們得以真正清晰地看到了“攻堅(jiān)”的軌跡,。 人類基因組計(jì)劃所推動的大規(guī)模DNA測序,,為生物醫(yī)藥工業(yè)提供了大量可用于新藥開發(fā)的原材料。有些基因產(chǎn)物可以直接作為藥物,,而有些基因則可以成為藥物作用的對象(圈內(nèi)稱作“靶點(diǎn)”),。生物信息學(xué)為分子生物學(xué)家提供了大量對基因序列進(jìn)行分析的工具,不但可以從資料的獲取,、基因功能的預(yù)測,、藥物篩選過程中的信息處理等方面大大加快新藥開發(fā)的進(jìn)程,而且可以大大加快傳統(tǒng)的基因發(fā)現(xiàn)和研究,,因而成為各贏利性研究機(jī)構(gòu)和醫(yī)藥公司爭奪基因?qū)@闹匾ぞ摺?有的人吸煙喝酒卻長壽,;也有的人自幼就疾病纏身;同一種治療腫瘤的藥物對一些人非常有效,,對另一些人則完全無效,,這是為什么? 人類基因組研究對此的回答是,,他們的基因組存在差異,。這種差異很多表現(xiàn)為單個堿基上的變異??茖W(xué)界目前普遍認(rèn)為對單個堿基變異,,也就是基因多態(tài)性的研究是人類基因組計(jì)劃走向應(yīng)用的重要步驟。因?yàn)樗梢詾楦呶H后w的發(fā)現(xiàn),、疾病相關(guān)基因的鑒定,、藥物的設(shè)計(jì)和測試以及生物學(xué)的基礎(chǔ)研究提供一個強(qiáng)有力的工具。有人估計(jì)與癌癥相關(guān)的原癌基因約有1000個,,抑癌基因有100個,,約有6000種以上的人類疾患與各種人類基因的變化相關(guān)聯(lián)。隨著人類基因組研究的不斷深入,,當(dāng)我們知道了人類全部基因在染色體上的位置,、它們的序列特征以及它們的表達(dá)規(guī)律和產(chǎn)物(蛋白質(zhì)等)特征后,人們就可以有效地判定各種疾患的分子機(jī)制,,進(jìn)而發(fā)展合適的診斷和治療手段,。專家指出,在研究中至少有兩項(xiàng)生物信息學(xué)工作非常重要,。一是構(gòu)建與疾病相關(guān)的,、包括基因多態(tài)數(shù)據(jù)庫在內(nèi)的人類基因信息數(shù)據(jù)庫,。二是發(fā)展有效地分析基因分型數(shù)據(jù)的生物信息學(xué)算法,,特別是將基因多態(tài)數(shù)據(jù)與疾病和致病因素相聯(lián)系的計(jì)算方法。 在不同的組織(心,、腦,、肺等)中,,基因表達(dá)的時空差異是很大的,為了得到不同時間(如人的幼年,、中年及老年),、不同組織的基因表達(dá)譜,國際上在核酸和蛋白質(zhì)兩個層次上都發(fā)展了新技術(shù),,這就是基因芯片(或稱DNA芯片)技術(shù)和大規(guī)模蛋白質(zhì)分離和序列鑒定技術(shù)(也稱蛋白質(zhì)組技術(shù)),。由于芯片上樣品點(diǎn)的密度很大,可以達(dá)到每片幾十萬個,,因此基因表達(dá)譜數(shù)據(jù)的挖掘和知識積累就成為該研究成敗的關(guān)鍵,。這顯示無論是基因芯片還是蛋白質(zhì)組技術(shù)的發(fā)展,都更強(qiáng)烈地依賴生物信息學(xué)的理論,、技術(shù)與數(shù)據(jù)庫,。 今年2月16日出版的國際著名醫(yī)學(xué)雜志《柳葉刀》發(fā)表了美國食品與藥品管理局(FDA)與美國國立癌癥研究所一項(xiàng)合作研究的結(jié)果:從手指取少量血液,應(yīng)用目前最先進(jìn)的SELDI蛋白質(zhì)芯片技術(shù),,在30分鐘內(nèi)就可以知道是否患有卵巢癌,,診斷準(zhǔn)確率達(dá)到95%,癌癥陽性預(yù)測率達(dá)到94%(目前普遍使用的診斷方法僅達(dá)到20%左右),。據(jù)介紹,,所謂SELDI蛋白質(zhì)芯片技術(shù),就是把“表面增強(qiáng)激光解析電離”(SELDI)技術(shù)與人工智能計(jì)算機(jī)技術(shù)相結(jié)合,,通過分析人類血清蛋白質(zhì)波譜的變化,,來捕捉疾病早期的“蛛絲馬跡”。在上述這項(xiàng)研究中,,全部Ⅰ期卵巢癌病人的血清無一“漏網(wǎng)”,,全部被計(jì)算機(jī)識別出來。 此外,,今年4月召開的美國腫瘤協(xié)會第93次年會又公布了SELDI蛋白質(zhì)芯片技術(shù)在前列腺癌,、乳腺癌、膀胱癌,、肝癌,、肺癌等惡性腫瘤的早期檢測中也得到同樣令人興奮的結(jié)果———這是生物信息學(xué)推動人類癌癥研究進(jìn)步的最新實(shí)例之一。 對僅占人類基因組1.1%的編碼蛋白質(zhì)的區(qū)域(基因)的相關(guān)研究就已經(jīng)締造了數(shù)十個諾貝爾獎得主,,可以預(yù)見,,對多達(dá)98%的非編碼區(qū)的認(rèn)識歷程,將更加異彩紛呈,。 中科院強(qiáng)伯勤院士近日在“第二屆中國生物信息學(xué)大會”上談到:“今后DNA序列數(shù)據(jù)的增長將更為驚人,。而且生物學(xué)數(shù)據(jù)的積累并不僅僅表現(xiàn)在DNA序列方面,與其同步的還有蛋白質(zhì)的一級結(jié)構(gòu),即氨基酸序列的增長,。他說,,與正在以指數(shù)增長的生物學(xué)數(shù)據(jù)相比,人類相關(guān)知識的增長(粗略地用每年發(fā)表的生物,、醫(yī)學(xué)論文數(shù)來代表)顯得十分緩慢,。一方面是巨量的數(shù)據(jù),另一方面是我們在醫(yī)學(xué),、藥物,、農(nóng)業(yè)和環(huán)保等方面對新知識的渴求,這些新知識將幫助人們改善其生存環(huán)境和提高生活質(zhì)量,。這就構(gòu)成了一個極大的矛盾,。”毫無疑問,這些巨量的數(shù)據(jù)與解析數(shù)據(jù)的能力之間的矛盾還將日益尖銳,,生物信息學(xué)作為解決這個矛盾最前沿,、最具活力的新興力量必將主演一場生命科學(xué)大戲。 專家指出,,生物信息學(xué)的發(fā)展將會對生命科學(xué)帶來革命性的變革,。它的成果不僅對相關(guān)基礎(chǔ)學(xué)科起到巨大的推動作用,而且還將對醫(yī)藥,、衛(wèi)生,、食品、農(nóng)業(yè)等產(chǎn)業(yè)產(chǎn)生巨大的影響,,甚至引發(fā)新的產(chǎn)業(yè)革命,。 因此,各國政府和工業(yè)界對生物信息學(xué)研究極為重視,,投入了大量資金,。歐美各國及日本相繼成立了生物信息中心,如美國的國家生物技術(shù)信息中心,、歐洲生物信息學(xué)研究所,、日本信息生物學(xué)中心等。這些機(jī)構(gòu)相互合作,,共同維護(hù)著GenBank,、EMBL、DDBJ三大基因序列數(shù)據(jù)庫,。 它們每天通過計(jì)算機(jī)網(wǎng)絡(luò)互相交換數(shù)據(jù),,使得三個數(shù)據(jù)庫能同時獲得最新數(shù)據(jù)。最近兩三年,,美國一些最著名的大學(xué),,如哈佛,、斯坦福和普林斯頓大學(xué)等都投資幾千萬到一億多美元成立了生物、物理,、數(shù)學(xué)等學(xué)科交叉的新中心。1999年6月,,美國國立衛(wèi)生研究院(NIH)的一個顧問小組建議在生物計(jì)算領(lǐng)域建立總額為數(shù)億美元的重大科研基金,,并成立5到20個計(jì)算中心來處理海量的基因組相關(guān)信息。 生物信息學(xué)在中國生命科學(xué)舞臺上漸成氣候,,但是還有不少問題與困難需要解決和克服,。 長期以來,“中國生物信息學(xué)研究起步晚”,,幾乎已成定論,。但是,這要看怎樣算,。 實(shí)際上,,在生物信息學(xué)成為一個獨(dú)立的學(xué)科之前,作為其重要學(xué)科基礎(chǔ)的生物物理學(xué)研究在我國已有了較大的發(fā)展,。20世紀(jì)70年代,,中科院生物化學(xué)研究所首先開展生物分子的手性和生物起源中的對稱性破缺研究,并將非平衡熱力學(xué),、非線性物理學(xué),、耗散結(jié)構(gòu)和混沌理論等引入理論生物學(xué)研究,同時培養(yǎng)了一批人才,。隨后,,在國家“863”計(jì)劃的支持下,我國從“七五”初期開始在蛋白質(zhì)結(jié)構(gòu)預(yù)測,、結(jié)構(gòu)模擬和藥物設(shè)計(jì)領(lǐng)域開展工作,,并取得突出的成績,先后造就了施蘊(yùn)渝,、陳凱先,、王志新、張春霆等中科院院士,。 而且,,即使是對于DNA序列信息的研究在我國起步也不算晚。20世紀(jì)80年代初,,內(nèi)蒙古大學(xué)的羅遼復(fù)教授,、中科院生物物理所的陳潤生研究員和天津大學(xué)的張春霆教授等就先后開展了DNA序列信息分析的研究,改進(jìn)或發(fā)展了信息論,、密碼學(xué)和幾何學(xué)等方法,。20世紀(jì)80年代末,,國際人類基因組計(jì)劃一開始,陳潤生研究員等就及時轉(zhuǎn)入了基因組信息學(xué)的研究,。1993年,,國家自然科學(xué)基金委確立我國人類基因組研究第一個重大課題“中華民族若干基因位點(diǎn)的結(jié)構(gòu)和功能研究”,開始資助基因信息組學(xué)研究,。盡管當(dāng)時的資助力度不大,,但仍有力地推動了這一領(lǐng)域的發(fā)展。 20世紀(jì)90年代中期以后,,由于人類基因組研究的巨大進(jìn)展,,生物信息學(xué)的相關(guān)研究在我國有了更大的發(fā)展。像清華大學(xué)在基因調(diào)控及基因功能分析,、蛋白質(zhì)二級結(jié)構(gòu)預(yù)測,,天津大學(xué)物理系和中科院理論物理所在相關(guān)算法,中科院生物物理所在基因組大規(guī)模測序數(shù)據(jù)的組裝和標(biāo)識,,北京大學(xué)在蛋白質(zhì)分子設(shè)計(jì),,華大基因組研究中心(中科院遺傳所人類基因組研究中心)在大規(guī)模測序數(shù)據(jù)處理自動化流程體系及數(shù)據(jù)庫系統(tǒng)建立等方面均已取得階段性成果。此外,,復(fù)旦大學(xué)遺傳學(xué)研究所為克隆新基因而建立的一整套生物信息系統(tǒng)也已初具規(guī)模,。 但是,我國生物信息學(xué)研究與發(fā)達(dá)國家的差距也是有目共睹的,,特別是在研究規(guī)模和人才培養(yǎng)上的差距尤其明顯,。為此,我國科學(xué)家提出,,立足國情,、艱苦奮斗發(fā)展我國的生物信息學(xué)事業(yè)勢在必行。他們認(rèn)為,,要創(chuàng)造一個更加寬松的學(xué)術(shù)環(huán)境,,建立聯(lián)合教育培養(yǎng)多學(xué)科背景人才的機(jī)制,加強(qiáng)生物信息學(xué)學(xué)科建設(shè)的延續(xù)性,,避免重復(fù)投資建設(shè),,搞全國一盤棋和多學(xué)科大協(xié)作等是非常重要的。同時還應(yīng)適當(dāng)?shù)刂С謸碛形覈灾髦R產(chǎn)權(quán)的算法,、軟件的后繼開發(fā),、包裝工作,這不僅僅因?yàn)槠錆撛诘纳虡I(yè)利潤,,更要逐漸確立中國在世界生物信息學(xué)領(lǐng)域的地位,。 目前,在國家有關(guān)部門的支持和科學(xué)家的呼吁下,,我國國家級生物信息學(xué)中心正在籌建之中,。各地政府也給予了足夠重視,,如北京市已經(jīng)成立了北京生物工程學(xué)會生物信息學(xué)專業(yè)委員會(即北方生物信息學(xué)研究會),目的在于聯(lián)合北方地區(qū)從事生物信息學(xué)的專家,,加強(qiáng)合作,,促進(jìn)學(xué)科的發(fā)展,并為政府決策提供參考意見,。 正如中科院副院長陳竺院士最近在“第二屆中國生物信息學(xué)大會”上所指出的:“人類基因組計(jì)劃草圖的完成是各國生命科學(xué)制高點(diǎn)角逐的序幕,,真正白熱化的競爭才剛剛開始。”人們衷心希望,,越來越得心應(yīng)手地使用生物信息學(xué)這把開啟后基因組時代“金鑰匙”的中國人,,能夠早日實(shí)現(xiàn)生命科學(xué)的跨越式發(fā)展,。