中國學者張陽最近在第七屆蛋白質結構預測技術評估大賽中獲得第一名的好成績,。消息傳來,他做博士后時的導師歐陽鐘燦院士給予高度評價,。據(jù)歐陽鐘燦介紹,,由生物大分子的基因序列預測其結構,是當前生物學研究面臨的最重要挑戰(zhàn)之一,,如果能夠實現(xiàn),將在生物技術與藥物設計領域產(chǎn)生巨大影響,。
2006年11月26~30日,,第七屆CASP總結大會在美國加州阿薩爾默會議中心舉行,在大會公布的測評排列名單上,,美國堪薩斯大學的助理教授張陽位居第一,。
對此,中國科學院院士歐陽鐘燦評價說:“CASP被譽為蛋白質結構預測領域的奧林匹克競賽,,張陽獲得第一名,,表明他已經(jīng)走在這個領域的最前沿,這個成就令人興奮,。”
蛋白質結構預測技術評估(CASP)大賽是一個世界性的蛋白質結構預測技術評比活動,。1994年,第一屆CASP在美國馬里蘭大學生物技術研究所的約翰·莫爾特(John Moult)倡議,、組織下舉行,,此后每兩年舉行一次。
張陽在華中師范大學師從劉連壽教授并獲得物理學博士學位,,1999~2000年在中國科學院理論物理所跟隨歐陽鐘燦院士做博士后,,2001年初到美國。張陽說:“比賽獲勝說明我們的預測方法的確行之有效,,我很高興看到這一點,。在當今蛋白質結構預測這個競爭激烈的領域,贏得CASP比賽勝利是得到同行尊重和承認的最重要和幾乎唯一的途徑,。”
近日,,張陽到北京參加會議并到中科院理論物理所訪問,,在此期間,他接受了《科學時報》的專訪,。
結構密碼蘊藏在排序中
這是一個復雜但很有意思的生命過程——基因承載了生命的遺傳信息,,生命的功能則是藉由蛋白質執(zhí)行的;蛋白質是由20種氨基酸組成的肽鏈,,而DNA中的基因控制了蛋白質中氨基酸種類的排序,。蛋白質只有在折疊的狀態(tài)下才能表現(xiàn)出生命的功能,但折疊是如何自發(fā)形成的呢,?
氨基酸序列與蛋白質空間結構的關系研究源于美國生物化學家安芬森(C.Anfinsen),。1961年,他研究了核糖核酸酶的去折疊和重折疊過程,,發(fā)現(xiàn)在相同的環(huán)境中去折疊的蛋白質都會恢復到原來的空間結構,,認為蛋白質鏈會以自由能最低的方式形成三維結構,由此推測蛋白質的折疊密碼隱藏在氨基酸排序中,,即所謂的安芬森原則:蛋白質一級排序決定三維結構,。因為“對控制蛋白質鏈折疊原理的研究”,安芬森獲得1972年諾貝爾化學獎,。
然而,,蛋白質的空間結構極其復雜,該如何確定呢,?現(xiàn)在有兩種方法:一種是實驗測量,,包括用X射線衍射和核磁共振成像;一種是理論預測,,利用計算機根據(jù)理論和已知的氨基酸序列等信息來預測,,方法包括同源結構模擬、折疊辨識模擬和基于第一性原理的從頭計算,。
1913年,,勞爾和布拉格父子第一次發(fā)現(xiàn)X射線通過晶體可以產(chǎn)生衍射現(xiàn)象從而確定原子在晶體中的位置并因此獲得諾貝爾獎。1957年,,劍橋大學的肯德魯用勞爾-布拉格的方法確定出第一個蛋白質(肌紅蛋白)的三維結構從而獲得1962年的諾貝爾化學獎,。此后18年間,人類共測出38個蛋白質結構;至1980年,,這個數(shù)目增長到184個,。
顯然,用實驗方法測量蛋白質及生物大分子的結構相當繁瑣,。張陽說:“蛋白質結構的實驗測定十分費時費力,。多年前測定一個蛋白質的結構就有可能獲得諾貝爾獎。如今隨著技術的進步,實驗測蛋白質結構的時間和花費已經(jīng)大大地減少了,,但測定一個蛋白質結構的平均費用也在100萬美元左右,。”
自然界有大量種類的蛋白質,實驗只能測出其中非常小的一部分,,目前“蛋白質數(shù)據(jù)庫”中只有3萬多個蛋白質的結構,。有沒有其他方法可以更快、更經(jīng)濟地測量出大量蛋白質呢,?
物含妙理總堪尋
既然蛋白質結構的密碼隱藏在序列中,,那么解開這個密碼就可以通過序列來解開蛋白質的結構。張陽說:“我們的目的就是用計算機從氨基酸的序列來直接預測蛋白質的結構,。將序列輸進計算機里,,設計一套程序,讓計算機去計算和確定蛋白質中每個原子的三維坐標,。如果這種理論方法經(jīng)實驗數(shù)據(jù)的驗證可行,,那么就可能通過計算機自動預測出蛋白質的結構,這幾乎是免費的,。”
然而,,用序列預測結構談何容易。驅動氨基酸折疊形成特定三維空間的作用諸多,,包括氨基酸側鏈分子間作用力,、水分子表面張力、氨基酸側鏈分子間的電偶極距和電磁力以及它與水分子的相互作用等,。根據(jù)數(shù)學計算,由100個氨基酸構成的小蛋白質的空間構象可能會有1050種空間結構,。
物含妙理總堪尋,。張陽說,一種氨基酸序列只可能有一種蛋白質結構,,這就是計算機預測蛋白質結構的意義所在,。根據(jù)安芬森的熱動力學原理,蛋白質在細胞中應該處在它與環(huán)境的自由能最低態(tài),。這意味著可以根據(jù)物理,、化學、生物學等知識來設計蛋白質的能量函數(shù),,因此尋找這種最低自由能所代表的結構,。
科學家們使出十八般武藝來預測序列與結構間的密碼,尋找出三種有代表性的預測方法:同源結構模擬(Homology Modeling),、折疊辨識模擬(Fold Recognition)和基于“第一原則”的從頭計算方法(Ab Initio),。
張陽說,同源模擬又稱為比較性模擬。如果目標蛋白質與已測出結構的蛋白質的序列有30%以上的相似,,那么這兩種蛋白質可被視為同源,,它們也應該有類似的空間結構。因此,,若知道同源蛋白質家族中的某些蛋白質的結構,,就可利用它們作為模板來模擬目標蛋白質的結構,這種方法速度較快,,精度也比較高,。但是這種方法有局限性,畢竟已知結構的蛋白質數(shù)量很少,,而且很多蛋白質沒有同源系列,。
折疊辨識模擬又稱串線指認方法,意思是指把目標蛋白序列與蛋白質數(shù)據(jù)庫中所有的蛋白質結構進行逐一對比,。自然界中有些蛋白質的氨基酸序列不大相同,,但其結構極為相似。張陽說:“這對我們建立新計算機模型非常有用,。在無法進行序列比對的情況下,,我們就想辦法用目標序列直接與已有的其他蛋白質結構進行比較。具體做法是,,設計一個打分系統(tǒng),,讓計算機來識別這個序列放在被比較的其他蛋白質上是否‘舒服’,再根據(jù)得分高低判斷序列是否會折疊成這種結構,,評分系統(tǒng)是這種方法的關鍵,。”
“從頭計算”方法源于安芬森的“最低自由能構型假說”。張陽說,,前兩種方法是用已知結構的蛋白質為模板來構建新的結構,,而“從頭計算”不需要模板,它是以物理為基礎來研究蛋白質的折疊方法,,怎樣設計適當?shù)哪芰亢瘮?shù),,怎樣找到相應的最低自由能是這種方法的關鍵。
蛋白質預測的夢幻項目
歐陽鐘燦說,,隨著人類和其他動物基因組測序工作的完成,,生物學研究面臨的最重要的挑戰(zhàn)之一,就是如何由這些生物大分子的基因序列預測它們的結構,。如果能夠做到這一點,,將在生物技術與藥物設計領域產(chǎn)生巨大的影響。
DNA測序技術的突飛猛進讓科學家們可以由此推導出大量的蛋白質序列,,各類學者也在你追我趕地預測蛋白質結構,,許多人聲稱自己的理論模式與實驗測量結果最吻合,有沒有一種更公正的評價方式呢?
約翰·莫爾特倡議舉行的CASP大賽,,是一種大規(guī)模的實驗,旨在對當時的蛋白質結構預測技術水平有一個深入客觀的了解,掌握當前的方法能夠做什么,存在的困難以及將來的發(fā)展方向,。
測評工作分三步:從實驗研究協(xié)會收集并確定預測目標蛋白,請X射線晶體檢測學家和核磁共振光譜學家在限定時間內測出結構,;公布目標蛋白質序列,,要求結構模型研究協(xié)會在限定時間內提交預測結果;再組織獨立的討論和測評,。
從1994年的33個目標蛋白質,、35個參加小組,到2006年100個目標蛋白質,、207個參加小組與98個服務器,,CASP進行到了第7屆,成為代表著蛋白質結構預測領域的世界前沿水平競爭,。最近在紐約科學院的一次演講中,,莫爾特將CASP形容為夢幻項目,他說,,蛋白質結構一定蘊含奧妙,,等待我們去尋找,創(chuàng)建CASP的初衷就是跨越科學和人類的障礙,,確定最先進的技術,,解開最重要的瓶頸問題。
博采眾家之長,,脫穎而出
張陽從2002年開始與人合作參加CASP,,但在2006年,他獨立參加比賽,。他感謝過去的經(jīng)歷給自己的幫助,。
1999年,在德國做完洪堡學者后,,張陽跟隨中國科學院理論物理研究所郝柏林院士和鄭偉謀教授做理論物理研究。在此期間,,他偶然讀到歐陽鐘燦一篇細胞膜的文章,,覺得特別有意思。他說:“我原來的研究領域是高能物理,,研究對象是電子質子夸克等看不見摸不著的基本粒子,。觀測這些粒子需要高能碰撞,然后對末態(tài)進行間接研究,;歐陽老師的文章讓我覺得生物和我原來的研究領域完全不同,。研究對象可以是看得見、摸得著的東西。”于是,,他就轉到歐陽鐘燦的研究小組,,與博士生周海軍共同研究DNA分子的彈性和伸長間的關系。
2001年初,,張陽到美國布法羅大學師從Jeffrey Skolnick教授,。“Skolnick教授是世界上最權威的結構生物信息學家之一。我很有幸能在Skolnick實驗室工作,。從他那里我得到了關于蛋白質結構方面系統(tǒng)的學習和訓練。實際上在到美國之前,,我甚至連蛋白質長什么樣都不知道,。”張陽說。
2002年,,張陽和Skolnick合作參加CASP5,,他們應用切割模板結構的方法設計了一種名為Tasser的軟件。在這種方法中他們綜合應用同源模擬,、折疊模擬和“從頭計算”三種方法的優(yōu)點,,將類似的結構片段剪切出來,然后再按最低自由能法讓計算機將片斷組合起來,。他說:“設計Tasser的關鍵是找出自由能最低的態(tài),。”
2005年底,張陽成為堪薩斯大學的助理教授,,建立了自己的實驗室,。他獨立開始做的第一件事就是參加2006年5月開始的CASP。這一次,,他根據(jù)經(jīng)驗重新制作了新的軟件——I-TASSER,。張陽介紹說,這個軟件對已經(jīng)組合的蛋白質片斷進行再切割和組合,,使預測的精度大大提高,。當?shù)?0個目標蛋白質的預測結構與實驗結構公布后,他的服務器就在自動組位居第一,,而且一直遙遙領先,。
為什么會有這樣好的結果呢?張陽說:“主要是我們的算法設計得好,。一是要正確定義能量函數(shù),,二是設計一種精確的計算機搜尋引擎來尋找能量最低值。因為這個能量函數(shù)有無窮多個局域網(wǎng)的極小值,,怎樣快速找到這個總體最小值是關鍵的一步,。”
還有很長的路要走
歐陽鐘燦說:“近40年來,,科學家們一直在探討蛋白質序列與結構間關系,一直沒有確切的結論,,但結果一次比一次好,,張陽的勝利說明理論物理學家做這種事情很有長處。”
黎明在中科院理論物理所獲得博士學位,,現(xiàn)在是中國科學院研究生院老師,,他說:“參加比賽的都是各路的神仙,張陽能夠取得這樣的成績當然是很大的成就,,這個第一遠不只是一個新算法就能做到的,。他把以前別人做過的‘棋局’全都做了統(tǒng)計歸納,做成這樣的東西非常費事,,對國內的科學家來說,,很多人不愿意去做費事的東西,坐不下來,,能做到這一步需要花費很多的努力,。”
張陽說:“現(xiàn)有的從頭計算方法只能預測氨基酸數(shù)量在100左右的蛋白質結構,解開序列與結構之謎還有很長的路要走,。”CASP的網(wǎng)站上有這樣一段話:“目前,,雖然蛋白質結構預測問題還沒有完全解決,但是至少有了希望,。”莫爾特也曾講過:“與同源模擬法相比,了解蛋白質結構的物理原理更為困難,,但我們相信最終我們還是要回到物理學上,。”