不經(jīng)意間,,一個(gè)似熟悉卻陌生的科學(xué)術(shù)語(yǔ)撞入我們的視野———生物信息學(xué),。什么是生物信息學(xué),?如果你僅僅“顧名思義”,,以為生物信息學(xué)既涉及生物,、物理,、化學(xué),又與數(shù)學(xué),、計(jì)算機(jī)科學(xué),、信息科學(xué)等有關(guān),因此內(nèi)容寬泛無(wú)邊,,那就錯(cuò)了,。實(shí)際上,生物信息學(xué)的內(nèi)涵十分具體,,范圍非常明確,。由于生物信息學(xué)是伴隨基因組研究的產(chǎn)生而產(chǎn)生,發(fā)展而發(fā)展的,因此它主要履行對(duì)基因組研究相關(guān)生物信息的獲取,、加工,、儲(chǔ)存、分配,、分析和解釋等職責(zé),。在完成對(duì)自身基因組的測(cè)序之后,人類亟需破譯基因組所蘊(yùn)涵的功能密碼,,攻克基因藥物研制和基因診斷治療等科學(xué)顛峰的“后基因組時(shí)代”,,生物信息學(xué)將更加舉足輕重。 要破譯生命“天書”,,僅僅依靠傳統(tǒng)的實(shí)驗(yàn)觀察手段是無(wú)濟(jì)于事的,。生命科學(xué)的革命性巨變,將生物信息學(xué)推到了前臺(tái),。 關(guān)于生命“天書”,,中科院生物物理所資深研究員陳潤(rùn)生的描述十分生動(dòng)到位。他說(shuō),,生物的遺傳物質(zhì)是一類稱為“脫氧核糖核酸”(DNA)的生物大分子,,它是由4種核甘酸(即堿基,通常用字符A,、T,、G、C代表)串接起來(lái)組成的,。通俗地說(shuō),,生物的遺傳密碼就是由這4個(gè)字符串成的“線狀長(zhǎng)鏈”。這種“鏈”往往很長(zhǎng),,比如人的遺傳密碼就含有32億個(gè)字符,,將它們堆起來(lái)就構(gòu)成了一部有100多萬(wàn)頁(yè),每頁(yè)含3000個(gè)字符的“天書”,。這本“天書”包含了人體的結(jié)構(gòu)和功能以及生命活動(dòng)過(guò)程的大量信息,,但它僅僅是由4個(gè)字符組成,既無(wú)“語(yǔ)法”,,又無(wú)“標(biāo)點(diǎn)符號(hào)”,,看上去每一頁(yè)都相似。如何讀懂它是個(gè)極大的難題,。 伴隨基因組研究的展開(kāi),,相關(guān)信息出現(xiàn)了“爆炸性”增長(zhǎng)。根據(jù)國(guó)際數(shù)據(jù)庫(kù)的統(tǒng)計(jì),,1999年12月已知的生物DNA堿基數(shù)目為30億,,2000年4月達(dá)到60億,,至今已超過(guò)140億,大約每14個(gè)月就翻一番,??茖W(xué)家指出,如果不把生物學(xué)問(wèn)題轉(zhuǎn)化為數(shù)字符號(hào),,進(jìn)行依賴于計(jì)算機(jī)的信息學(xué)處理,,生命天書將永無(wú)解密的一天。 據(jù)介紹,,現(xiàn)有的DNA測(cè)序儀每個(gè)反應(yīng)只能讀取幾百到上千個(gè)堿基,,因此要“通讀”全部32億個(gè)人類遺傳密碼,就必須首先把人的基因組打碎,,測(cè)完一小段一小段的序列后,,再把它們重新拼接和組裝起來(lái)。在這個(gè)過(guò)程中,,特別需要把實(shí)驗(yàn)設(shè)計(jì)和信息分析時(shí)刻聯(lián)系在一起,,否則多達(dá)數(shù)千萬(wàn)個(gè)的小片段就失去了“上下文”的聯(lián)系。另一方面,,還要按照不同的步驟要求,,發(fā)展適當(dāng)?shù)乃惴ê蛙浖?001年春天,包括中國(guó)科學(xué)家在內(nèi)的多國(guó)科學(xué)家宣布繪制成人類基因組“工作草圖”,,即測(cè)得了人類基因組的絕大部分序列,。而得到這些序列,是把人類基因組打碎后,,利用超級(jí)計(jì)算機(jī),拼接和組裝了大約5遍才實(shí)現(xiàn)的,。 在人類基因組測(cè)序“大戰(zhàn)”中出盡風(fēng)頭的美國(guó)塞萊拉公司最近宣布,,將退出新一輪基因組測(cè)序的競(jìng)爭(zhēng),集中精力挖掘蘊(yùn)涵在基因序列中的信息,,尋找制藥的“靶點(diǎn)”,。從中我們明顯嗅到后基因組研究“漲潮”的訊息。 近日來(lái)北京參加“第二屆中國(guó)信息學(xué)大會(huì)”的Stephen教授向記者透露了塞萊拉公司的最新動(dòng)向,。這位美國(guó)國(guó)家生物技術(shù)信息中心的高級(jí)科學(xué)家說(shuō):“盡管塞萊拉公司在人類基因組測(cè)序的競(jìng)爭(zhēng)中非常成功,,而且可以說(shuō)他們做了一件大好事———就是使人類基因組計(jì)劃的公共投資得到了強(qiáng)化。但是,,目前他們已經(jīng)從‘賣基因數(shù)據(jù)庫(kù)’轉(zhuǎn)而集中精力‘尋找制藥的靶點(diǎn)’,。這是一個(gè)非常值得關(guān)注的現(xiàn)象。” “進(jìn)入后基因組時(shí)代”,,這句話人們已經(jīng)說(shuō)了不少日子了,。但從塞萊拉這樣美國(guó)最大基因組研究與開(kāi)發(fā)私營(yíng)公司的戰(zhàn)略重點(diǎn)轉(zhuǎn)移,,人們得以真正清晰地看到了“攻堅(jiān)”的軌跡。 人類基因組計(jì)劃所推動(dòng)的大規(guī)模DNA測(cè)序,,為生物醫(yī)藥工業(yè)提供了大量可用于新藥開(kāi)發(fā)的原材料,。有些基因產(chǎn)物可以直接作為藥物,而有些基因則可以成為藥物作用的對(duì)象(圈內(nèi)稱作“靶點(diǎn)”),。生物信息學(xué)為分子生物學(xué)家提供了大量對(duì)基因序列進(jìn)行分析的工具,,不但可以從資料的獲取、基因功能的預(yù)測(cè),、藥物篩選過(guò)程中的信息處理等方面大大加快新藥開(kāi)發(fā)的進(jìn)程,,而且可以大大加快傳統(tǒng)的基因發(fā)現(xiàn)和研究,因而成為各贏利性研究機(jī)構(gòu)和醫(yī)藥公司爭(zhēng)奪基因?qū)@闹匾ぞ摺?有的人吸煙喝酒卻長(zhǎng)壽,;也有的人自幼就疾病纏身,;同一種治療腫瘤的藥物對(duì)一些人非常有效,對(duì)另一些人則完全無(wú)效,,這是為什么,? 人類基因組研究對(duì)此的回答是,他們的基因組存在差異,。這種差異很多表現(xiàn)為單個(gè)堿基上的變異,。科學(xué)界目前普遍認(rèn)為對(duì)單個(gè)堿基變異,,也就是基因多態(tài)性的研究是人類基因組計(jì)劃走向應(yīng)用的重要步驟,。因?yàn)樗梢詾楦呶H后w的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定,、藥物的設(shè)計(jì)和測(cè)試以及生物學(xué)的基礎(chǔ)研究提供一個(gè)強(qiáng)有力的工具,。有人估計(jì)與癌癥相關(guān)的原癌基因約有1000個(gè),抑癌基因有100個(gè),,約有6000種以上的人類疾患與各種人類基因的變化相關(guān)聯(lián),。隨著人類基因組研究的不斷深入,當(dāng)我們知道了人類全部基因在染色體上的位置,、它們的序列特征以及它們的表達(dá)規(guī)律和產(chǎn)物(蛋白質(zhì)等)特征后,,人們就可以有效地判定各種疾患的分子機(jī)制,進(jìn)而發(fā)展合適的診斷和治療手段,。專家指出,,在研究中至少有兩項(xiàng)生物信息學(xué)工作非常重要。一是構(gòu)建與疾病相關(guān)的,、包括基因多態(tài)數(shù)據(jù)庫(kù)在內(nèi)的人類基因信息數(shù)據(jù)庫(kù),。二是發(fā)展有效地分析基因分型數(shù)據(jù)的生物信息學(xué)算法,特別是將基因多態(tài)數(shù)據(jù)與疾病和致病因素相聯(lián)系的計(jì)算方法,。 在不同的組織(心,、腦,、肺等)中,基因表達(dá)的時(shí)空差異是很大的,,為了得到不同時(shí)間(如人的幼年,、中年及老年)、不同組織的基因表達(dá)譜,,國(guó)際上在核酸和蛋白質(zhì)兩個(gè)層次上都發(fā)展了新技術(shù),,這就是基因芯片(或稱DNA芯片)技術(shù)和大規(guī)模蛋白質(zhì)分離和序列鑒定技術(shù)(也稱蛋白質(zhì)組技術(shù))。由于芯片上樣品點(diǎn)的密度很大,,可以達(dá)到每片幾十萬(wàn)個(gè),,因此基因表達(dá)譜數(shù)據(jù)的挖掘和知識(shí)積累就成為該研究成敗的關(guān)鍵。這顯示無(wú)論是基因芯片還是蛋白質(zhì)組技術(shù)的發(fā)展,,都更強(qiáng)烈地依賴生物信息學(xué)的理論,、技術(shù)與數(shù)據(jù)庫(kù)。 今年2月16日出版的國(guó)際著名醫(yī)學(xué)雜志《柳葉刀》發(fā)表了美國(guó)食品與藥品管理局(FDA)與美國(guó)國(guó)立癌癥研究所一項(xiàng)合作研究的結(jié)果:從手指取少量血液,,應(yīng)用目前最先進(jìn)的SELDI蛋白質(zhì)芯片技術(shù),,在30分鐘內(nèi)就可以知道是否患有卵巢癌,診斷準(zhǔn)確率達(dá)到95%,,癌癥陽(yáng)性預(yù)測(cè)率達(dá)到94%(目前普遍使用的診斷方法僅達(dá)到20%左右),。據(jù)介紹,所謂SELDI蛋白質(zhì)芯片技術(shù),,就是把“表面增強(qiáng)激光解析電離”(SELDI)技術(shù)與人工智能計(jì)算機(jī)技術(shù)相結(jié)合,,通過(guò)分析人類血清蛋白質(zhì)波譜的變化,來(lái)捕捉疾病早期的“蛛絲馬跡”,。在上述這項(xiàng)研究中,,全部Ⅰ期卵巢癌病人的血清無(wú)一“漏網(wǎng)”,全部被計(jì)算機(jī)識(shí)別出來(lái),。 此外,,今年4月召開(kāi)的美國(guó)腫瘤協(xié)會(huì)第93次年會(huì)又公布了SELDI蛋白質(zhì)芯片技術(shù)在前列腺癌、乳腺癌,、膀胱癌、肝癌,、肺癌等惡性腫瘤的早期檢測(cè)中也得到同樣令人興奮的結(jié)果———這是生物信息學(xué)推動(dòng)人類癌癥研究進(jìn)步的最新實(shí)例之一,。 對(duì)僅占人類基因組1.1%的編碼蛋白質(zhì)的區(qū)域(基因)的相關(guān)研究就已經(jīng)締造了數(shù)十個(gè)諾貝爾獎(jiǎng)得主,可以預(yù)見(jiàn),,對(duì)多達(dá)98%的非編碼區(qū)的認(rèn)識(shí)歷程,,將更加異彩紛呈。 中科院強(qiáng)伯勤院士近日在“第二屆中國(guó)生物信息學(xué)大會(huì)”上談到:“今后DNA序列數(shù)據(jù)的增長(zhǎng)將更為驚人,。而且生物學(xué)數(shù)據(jù)的積累并不僅僅表現(xiàn)在DNA序列方面,,與其同步的還有蛋白質(zhì)的一級(jí)結(jié)構(gòu),,即氨基酸序列的增長(zhǎng)。他說(shuō),,與正在以指數(shù)增長(zhǎng)的生物學(xué)數(shù)據(jù)相比,,人類相關(guān)知識(shí)的增長(zhǎng)(粗略地用每年發(fā)表的生物、醫(yī)學(xué)論文數(shù)來(lái)代表)顯得十分緩慢,。一方面是巨量的數(shù)據(jù),,另一方面是我們?cè)卺t(yī)學(xué)、藥物,、農(nóng)業(yè)和環(huán)保等方面對(duì)新知識(shí)的渴求,,這些新知識(shí)將幫助人們改善其生存環(huán)境和提高生活質(zhì)量。這就構(gòu)成了一個(gè)極大的矛盾,。”毫無(wú)疑問(wèn),,這些巨量的數(shù)據(jù)與解析數(shù)據(jù)的能力之間的矛盾還將日益尖銳,生物信息學(xué)作為解決這個(gè)矛盾最前沿,、最具活力的新興力量必將主演一場(chǎng)生命科學(xué)大戲,。 專家指出,生物信息學(xué)的發(fā)展將會(huì)對(duì)生命科學(xué)帶來(lái)革命性的變革,。它的成果不僅對(duì)相關(guān)基礎(chǔ)學(xué)科起到巨大的推動(dòng)作用,,而且還將對(duì)醫(yī)藥、衛(wèi)生,、食品,、農(nóng)業(yè)等產(chǎn)業(yè)產(chǎn)生巨大的影響,甚至引發(fā)新的產(chǎn)業(yè)革命,。 因此,,各國(guó)政府和工業(yè)界對(duì)生物信息學(xué)研究極為重視,投入了大量資金,。歐美各國(guó)及日本相繼成立了生物信息中心,,如美國(guó)的國(guó)家生物技術(shù)信息中心、歐洲生物信息學(xué)研究所,、日本信息生物學(xué)中心等,。這些機(jī)構(gòu)相互合作,共同維護(hù)著GenBank,、EMBL,、DDBJ三大基因序列數(shù)據(jù)庫(kù)。 它們每天通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)互相交換數(shù)據(jù),,使得三個(gè)數(shù)據(jù)庫(kù)能同時(shí)獲得最新數(shù)據(jù),。最近兩三年,美國(guó)一些最著名的大學(xué),,如哈佛,、斯坦福和普林斯頓大學(xué)等都投資幾千萬(wàn)到一億多美元成立了生物,、物理、數(shù)學(xué)等學(xué)科交叉的新中心,。1999年6月,,美國(guó)國(guó)立衛(wèi)生研究院(NIH)的一個(gè)顧問(wèn)小組建議在生物計(jì)算領(lǐng)域建立總額為數(shù)億美元的重大科研基金,并成立5到20個(gè)計(jì)算中心來(lái)處理海量的基因組相關(guān)信息,。 生物信息學(xué)在中國(guó)生命科學(xué)舞臺(tái)上漸成氣候,,但是還有不少問(wèn)題與困難需要解決和克服。 長(zhǎng)期以來(lái),,“中國(guó)生物信息學(xué)研究起步晚”,,幾乎已成定論。但是,,這要看怎樣算,。 實(shí)際上,在生物信息學(xué)成為一個(gè)獨(dú)立的學(xué)科之前,,作為其重要學(xué)科基礎(chǔ)的生物物理學(xué)研究在我國(guó)已有了較大的發(fā)展,。20世紀(jì)70年代,中科院生物化學(xué)研究所首先開(kāi)展生物分子的手性和生物起源中的對(duì)稱性破缺研究,,并將非平衡熱力學(xué),、非線性物理學(xué)、耗散結(jié)構(gòu)和混沌理論等引入理論生物學(xué)研究,,同時(shí)培養(yǎng)了一批人才,。隨后,在國(guó)家“863”計(jì)劃的支持下,,我國(guó)從“七五”初期開(kāi)始在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),、結(jié)構(gòu)模擬和藥物設(shè)計(jì)領(lǐng)域開(kāi)展工作,并取得突出的成績(jī),,先后造就了施蘊(yùn)渝,、陳凱先、王志新,、張春霆等中科院院士,。 而且,即使是對(duì)于DNA序列信息的研究在我國(guó)起步也不算晚,。20世紀(jì)80年代初,,內(nèi)蒙古大學(xué)的羅遼復(fù)教授、中科院生物物理所的陳潤(rùn)生研究員和天津大學(xué)的張春霆教授等就先后開(kāi)展了DNA序列信息分析的研究,,改進(jìn)或發(fā)展了信息論、密碼學(xué)和幾何學(xué)等方法,。20世紀(jì)80年代末,,國(guó)際人類基因組計(jì)劃一開(kāi)始,,陳潤(rùn)生研究員等就及時(shí)轉(zhuǎn)入了基因組信息學(xué)的研究。1993年,,國(guó)家自然科學(xué)基金委確立我國(guó)人類基因組研究第一個(gè)重大課題“中華民族若干基因位點(diǎn)的結(jié)構(gòu)和功能研究”,,開(kāi)始資助基因信息組學(xué)研究。盡管當(dāng)時(shí)的資助力度不大,,但仍有力地推動(dòng)了這一領(lǐng)域的發(fā)展,。 20世紀(jì)90年代中期以后,由于人類基因組研究的巨大進(jìn)展,,生物信息學(xué)的相關(guān)研究在我國(guó)有了更大的發(fā)展,。像清華大學(xué)在基因調(diào)控及基因功能分析、蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè),,天津大學(xué)物理系和中科院理論物理所在相關(guān)算法,,中科院生物物理所在基因組大規(guī)模測(cè)序數(shù)據(jù)的組裝和標(biāo)識(shí),北京大學(xué)在蛋白質(zhì)分子設(shè)計(jì),,華大基因組研究中心(中科院遺傳所人類基因組研究中心)在大規(guī)模測(cè)序數(shù)據(jù)處理自動(dòng)化流程體系及數(shù)據(jù)庫(kù)系統(tǒng)建立等方面均已取得階段性成果,。此外,復(fù)旦大學(xué)遺傳學(xué)研究所為克隆新基因而建立的一整套生物信息系統(tǒng)也已初具規(guī)模,。 但是,,我國(guó)生物信息學(xué)研究與發(fā)達(dá)國(guó)家的差距也是有目共睹的,特別是在研究規(guī)模和人才培養(yǎng)上的差距尤其明顯,。為此,,我國(guó)科學(xué)家提出,立足國(guó)情,、艱苦奮斗發(fā)展我國(guó)的生物信息學(xué)事業(yè)勢(shì)在必行,。他們認(rèn)為,要?jiǎng)?chuàng)造一個(gè)更加寬松的學(xué)術(shù)環(huán)境,,建立聯(lián)合教育培養(yǎng)多學(xué)科背景人才的機(jī)制,,加強(qiáng)生物信息學(xué)學(xué)科建設(shè)的延續(xù)性,避免重復(fù)投資建設(shè),,搞全國(guó)一盤棋和多學(xué)科大協(xié)作等是非常重要的,。同時(shí)還應(yīng)適當(dāng)?shù)刂С謸碛形覈?guó)自主知識(shí)產(chǎn)權(quán)的算法、軟件的后繼開(kāi)發(fā),、包裝工作,,這不僅僅因?yàn)槠錆撛诘纳虡I(yè)利潤(rùn),更要逐漸確立中國(guó)在世界生物信息學(xué)領(lǐng)域的地位,。 目前,,在國(guó)家有關(guān)部門的支持和科學(xué)家的呼吁下,我國(guó)國(guó)家級(jí)生物信息學(xué)中心正在籌建之中。各地政府也給予了足夠重視,,如北京市已經(jīng)成立了北京生物工程學(xué)會(huì)生物信息學(xué)專業(yè)委員會(huì)(即北方生物信息學(xué)研究會(huì)),,目的在于聯(lián)合北方地區(qū)從事生物信息學(xué)的專家,加強(qiáng)合作,,促進(jìn)學(xué)科的發(fā)展,,并為政府決策提供參考意見(jiàn)。 正如中科院副院長(zhǎng)陳竺院士最近在“第二屆中國(guó)生物信息學(xué)大會(huì)”上所指出的:“人類基因組計(jì)劃草圖的完成是各國(guó)生命科學(xué)制高點(diǎn)角逐的序幕,,真正白熱化的競(jìng)爭(zhēng)才剛剛開(kāi)始,。”人們衷心希望,越來(lái)越得心應(yīng)手地使用生物信息學(xué)這把開(kāi)啟后基因組時(shí)代“金鑰匙”的中國(guó)人,,能夠早日實(shí)現(xiàn)生命科學(xué)的跨越式發(fā)展,。