Matthew E. Crawford, Micahael E.Cusick, James I. Garrels
Proteomics: A Trends Guide,July, 2000
隨著模型有機體和人類的基因組的完全測序,,人們的注意力轉(zhuǎn)向了蛋白質(zhì)組學(xué)-蛋白質(zhì)的大規(guī)模識別和定性,。蛋白質(zhì)組學(xué)隨著強有力的新技術(shù)的出現(xiàn)而進展快速,。蛋白質(zhì)組學(xué)的數(shù)據(jù)庫發(fā)展成為知識資源,,提供了不同于傳統(tǒng)形式的信息資源庫,。
盡管蛋白質(zhì)組學(xué)技術(shù)增加了研究的蛋白質(zhì)數(shù)目,,單個蛋白質(zhì)的識別和定性仍然是關(guān)鍵的,。從物理證據(jù)(比如在凝膠上的遷移或者肽段的質(zhì)量)識別蛋白質(zhì)成分通常是起點,。在此之后出現(xiàn)蛋白質(zhì)的全序列,,通常從已知的DNA序列推知,然后作出結(jié)構(gòu)和功能推測,。在模型有機體諸如酵母,,超過一半的蛋白質(zhì)已經(jīng)被功能分析,大約10%已經(jīng)在至少一個實驗室中被研究,。然而,,即使對于這些蛋白質(zhì)許多功能還有待發(fā)現(xiàn)。
蛋白質(zhì)組學(xué)技術(shù)與傳統(tǒng)方法不同,,能夠從許多蛋白質(zhì)立即收集數(shù)據(jù),,增加我們關(guān)于在生理改變和疾病的每個時期的蛋白質(zhì)表達、修飾,、定位,、翻轉(zhuǎn)和蛋白質(zhì)-蛋白質(zhì)相互作用的知識。這里我們綜述現(xiàn)存數(shù)據(jù)庫和知識資源,,展示如何從物理數(shù)據(jù)識別蛋白質(zhì),、蛋白質(zhì)的識別如何獲得序列以及如何從序列分析預(yù)測結(jié)構(gòu)和功能。最后,,我們討論模型有機體數(shù)據(jù)庫,,它提供了蛋白質(zhì)功能的更多線索,以及蛋白質(zhì)組數(shù)據(jù)庫,,它幫助研究者根據(jù)發(fā)表的研究文獻所含的知識積累分析蛋白質(zhì)組數(shù)據(jù),。
從實驗數(shù)據(jù)識別蛋白質(zhì)
今天的主要技術(shù)是二維凝膠電泳(2DE)和質(zhì)譜(MS)。兩種方法都是通過物理參數(shù)分辨蛋白質(zhì)和肽段,。在將來,,更多的蛋白質(zhì)可以通過蛋白質(zhì)芯片上的親和力因素直接識別,蛋白質(zhì)芯片是一個與DNA 微陣列技術(shù)相似的方法,目前被用于定量mRNA表達,。所有的蛋白質(zhì)組分析的方法都需要數(shù)據(jù)庫完成識別,。
2DE技術(shù)通過大小和電荷分析蛋白質(zhì)。在仔細(xì)的標(biāo)化條件下,,單是凝膠上的位置就足夠識別一些蛋白質(zhì),。SWISS-2DPAGE,,一個在ExPASy服務(wù)器上的數(shù)據(jù)庫,,為在2D凝膠上預(yù)測蛋白質(zhì)遷移提供了許多標(biāo)化的凝膠圖象和工具。比較已知細(xì)胞類型或組織的凝膠和SWISS-2DPAGE的圖象集可以幫助識別關(guān)鍵標(biāo)志物,,但是實際上詳細(xì)的比對低到中等豐度的蛋白質(zhì)有困難,,除非凝膠在同一實驗室中在嚴(yán)格控制的條件下跑膠。其難度是由于蛋白質(zhì)樣品本身的變化性,、樣品制備的不可重復(fù)性以及任何凝膠系統(tǒng)不能完全分辨樣品中的所有蛋白質(zhì),。MS有希望幫助排除凝膠對凝膠方式比對的需要。
MS徹底改革了蛋白質(zhì)組學(xué),??梢詮哪z分離的蛋白質(zhì)酶解肽段獲得高度精確的質(zhì)量,在有有效的數(shù)據(jù)庫情況下它們就足夠進行蛋白質(zhì)識別,。通過肽段質(zhì)量識別蛋白質(zhì)的資源包括ExPASy的PeptIdent工具,、PROWL的PepFrag、Protein Prospector的MS-FIT和MA-TAG以及SEQUEST,。這些資源包括從已知和預(yù)測的蛋白質(zhì)序列的理論摘要編輯的肽段數(shù)據(jù)庫,。通過肽質(zhì)量識別蛋白質(zhì)被證明足夠有力來識別單一樣本的多個蛋白質(zhì),有時能夠直接分析純化的蛋白質(zhì)復(fù)合體,。
通過肽質(zhì)量識別蛋白質(zhì)需要進入一個蛋白質(zhì)序列數(shù)據(jù)庫.最常用的數(shù)據(jù)庫是SWISS-PROT,、TreEMBL和美國的國立生物技術(shù)信息中心(NCBI)的蛋白質(zhì)序列非重復(fù)(nr)集合。SWISS-PROT是一個ExPASy服務(wù)器上的蛋白質(zhì)序列的注解的集合,;TrEMBL是一個給以自動注解的蛋白質(zhì)預(yù)測序列的大集合,,直到它們完全注解后并進入SWISS-PROT;NCBI nr數(shù)據(jù)庫含有整個GenBank保存的DNA序列所翻譯的蛋白質(zhì)序列以及PDB,、SWISS-PROT和PIR數(shù)據(jù)庫里的蛋白質(zhì)序列,。蛋白質(zhì)序列數(shù)據(jù)庫也提供額外的信息,包括簡要的功能描述(如果已知),、序列特征(比如修飾信號)的注解,、二級和三級結(jié)構(gòu)的預(yù)測、關(guān)鍵參考文獻和與其它數(shù)據(jù)庫的鏈接,。
蛋白質(zhì)功能的探索起自序列,。如果蛋白質(zhì)已經(jīng)充分了解的,它的功能通常可以從序列數(shù)據(jù)庫的條目以及一些關(guān)鍵文獻中確定,。如果蛋白質(zhì)沒有充分了解或者是完全不了解,,仍然可以從相關(guān)蛋白質(zhì)的分析獲得其功能的線索。BLAST分析生成了緊密相關(guān)蛋白質(zhì)的列表,,其中的一些可能已經(jīng)被定性,;如果序列比較擴展到全長,相似的功能能夠被預(yù)測,。比對的更短的區(qū)域可能顯示保守的結(jié)構(gòu)域,,它們本身就提供了功能的線索。
BLAST所新添的程序允許在更短區(qū)域進行更敏感的搜索,。圖譜反復(fù)搜索的BLAST(PSI-BLAST)允許從BLAST搜索結(jié)果衍生的蛋白質(zhì)比對結(jié)果相互作用構(gòu)建圖譜,。然而必須小心對待PSI-BLAST,因為即使加入一個不相關(guān)的序列到比對中也會產(chǎn)生圖譜的偏移,。模式命中誘導(dǎo)的BLAST(PHI-BLAST)允許使用使用者構(gòu)建模式的數(shù)據(jù)庫搜索,。在ExPASy和在NCBI獲得的工具允許靈活地應(yīng)用BLAST和結(jié)構(gòu)域分析,并鏈接到相關(guān)的數(shù)據(jù)庫和文獻,。
從序列進行功能預(yù)測
BLAST分析是序列比對的強有力工具但是應(yīng)用到功能預(yù)測上可能不精確,。BLAST結(jié)果從比對的長度和比對區(qū)域的相似性獲得。必須注意不能將一個蛋白質(zhì)的描述簡單地轉(zhuǎn)移到另外一個相關(guān)的蛋白質(zhì)上,,該蛋白質(zhì)可能只是享有一個共同但是高度保守的結(jié)構(gòu)域,。DNA序列數(shù)據(jù)庫中的功能注解有時是誤導(dǎo)的,因為提交者拷貝了基于共享結(jié)構(gòu)域的功能注釋,,而它們對全長蛋白質(zhì)的功能是偶然的,。如果反復(fù)拷貝到數(shù)據(jù)庫中,這些錯誤會導(dǎo)致"注解災(zāi)難",。
大多蛋白質(zhì)含有多個結(jié)構(gòu)域,,而描述與這些結(jié)構(gòu)域相關(guān)的功能對于蛋白質(zhì)注解是關(guān)鍵的。幸運的是現(xiàn)在已經(jīng)有了結(jié)構(gòu)域分析有效的數(shù)據(jù)庫和工具,。最早的是PROSITE,是SWISS-PROT的伙伴數(shù)據(jù)庫,。這個數(shù)據(jù)庫將結(jié)構(gòu)域和基元做成序列一致模式的圖表并提供了優(yōu)秀的注解。其它結(jié)構(gòu)域數(shù)據(jù)庫包括Pfam,、BLOCK,、ProDOM、PRINT和SMART,。它們提供不同的算法生成許多不同類型的圖譜(隱藏的Markov模式,、簽名、指紋或者模塊)用統(tǒng)計學(xué)定義結(jié)構(gòu)域,。
為了增強這些結(jié)構(gòu)域數(shù)據(jù)庫的功能,,一個叫做InterPro的協(xié)會將它們其中的一些結(jié)合成為一個統(tǒng)一的形式。InterPro允許所有成員數(shù)據(jù)庫用關(guān)鍵詞或者序列(用近來補充的InterProScan) 同時進行搜索并呈現(xiàn)統(tǒng)一的、非重復(fù)的注解,。InterPro目前代表結(jié)構(gòu)域分析最完全的資源,,但是SMART也可以被推薦。SMART包含的結(jié)構(gòu)域要少(與InterPro的3000個相比只有400個),但是這樣能夠?qū)⒏嗟淖⒁饬ν兜竭@些結(jié)構(gòu)域的功能注解上,。另外,,SMART有InterPro或其它結(jié)構(gòu)域數(shù)據(jù)庫所沒有的特點,諸如結(jié)構(gòu)域的分類分布,,通過結(jié)構(gòu)域結(jié)構(gòu)(按照一個固定的順序排列結(jié)構(gòu)域)以及結(jié)構(gòu)域組成(含有同樣的結(jié)構(gòu)域而不管它們的次序)搜索,。
現(xiàn)在已經(jīng)有了結(jié)構(gòu)預(yù)測的可靠算法。盡管只從原始序列的預(yù)測仍然不可靠,,但是蛋白質(zhì)穿線方法(基于一個相關(guān)蛋白質(zhì)的已知結(jié)構(gòu)預(yù)測結(jié)構(gòu))經(jīng)常證明在蛋白質(zhì)定性中證明有幫助,。相關(guān)蛋白質(zhì)享有共同的結(jié)構(gòu)因此當(dāng)一個蛋白質(zhì)家族中的一個成員的結(jié)構(gòu)確定后它允許預(yù)測同一家族中其它蛋白質(zhì)的結(jié)構(gòu)。因為結(jié)構(gòu)分析算法是計算機密集的,,大多公共搜索網(wǎng)址依賴于儲存的、預(yù)先計算好的搜索,。一個這樣的資源是蛋白質(zhì)數(shù)據(jù)庫的中間序列文庫(PDB-ISL),。基于SCOP(蛋白質(zhì)的結(jié)構(gòu)分類)中的手工定義的結(jié)構(gòu)分類,,PDB-ISL使得研究者能夠發(fā)現(xiàn)與那些與已經(jīng)解決結(jié)構(gòu)的蛋白質(zhì)在結(jié)構(gòu)上相關(guān)的蛋白質(zhì),。結(jié)果是與查詢序列的特殊區(qū)域相對應(yīng)的折疊列表(一系列特殊排列以及有特殊關(guān)聯(lián)的二級結(jié)構(gòu))。通過檢測這個列表可以發(fā)現(xiàn)有關(guān)該蛋白質(zhì)可能結(jié)構(gòu)的線索,。盡管蛋白質(zhì)穿線方法在此綜述范圍之外,,結(jié)果可能是印象深刻的、特別是查詢和模板序列之間的相同程度高的時候,。如果序列等同小于30%,,結(jié)果就不可靠需要小心。
3DCrunch網(wǎng)址含有來自SWISS-PROT和TreEMBL記錄的理論模型,。如果一個興趣蛋白質(zhì)不在SWISS-PROT或者3DCrunch中,,在ExPASy的SWISS-MODEL網(wǎng)址提供基于符合PDB結(jié)構(gòu)作為模板的結(jié)構(gòu)基礎(chǔ)上的建立蛋白質(zhì)模型的工具。另外一個發(fā)現(xiàn)理論模型的有用的數(shù)據(jù)庫是MODBASE,,它含有對應(yīng)于大約17000個蛋白質(zhì)的模型,,包括幾近完整的釀酒酵母的蛋白質(zhì)組。酵母蛋白質(zhì)結(jié)構(gòu)資源在酵母基因組數(shù)據(jù)庫網(wǎng)址可以作為Sacch3D獲得,。3維模型突出強調(diào)對于結(jié)構(gòu)和功能最為關(guān)鍵的氨基酸,,通過聚焦這些關(guān)鍵殘基允許蛋白質(zhì)的比對。這些改進的比對允許評估那些僅僅用BLAST比較認(rèn)為不顯著的遠(yuǎn)處的相似,。理論上和同源性為基礎(chǔ)的蛋白質(zhì)-結(jié)構(gòu)模型的精確性因為正在進行的"結(jié)構(gòu)基因組學(xué)"變得可行應(yīng)該進一步增高,。
一個結(jié)構(gòu)為基礎(chǔ)搜索的特征是可以識別結(jié)構(gòu)相似而不享有相同演化祖先的蛋白質(zhì)。如果一個注解的蛋白質(zhì)與興趣蛋白質(zhì)相似就值得檢查是否是通過趨同進化各自獨立演化而來。在NCBI上結(jié)構(gòu)報告上的預(yù)先計算的載體比對搜索工具(VAST)比對允許快速鏈接到結(jié)構(gòu)鄰居,,其方式類似于NCBI核酸或蛋白質(zhì)報告所能獲得的與蛋白質(zhì)或核酸鄰居的鏈接,。到一個結(jié)構(gòu)報告的最快的途徑是在PDB數(shù)據(jù)庫進行目的蛋白質(zhì)的BlastP搜索并查看作為結(jié)構(gòu)報告的結(jié)果。
分析決定蛋白質(zhì)最終亞細(xì)胞定位的分類信號能夠輔助蛋白質(zhì)功能的理解,。PSORT II是最近版本的算法,,它用統(tǒng)計學(xué)估計序列中一些模式的存在情況(諸如N末端信號序列、核定位信號,、跨膜片斷和卷曲結(jié)構(gòu))從而預(yù)測蛋白質(zhì)的亞細(xì)胞定位并產(chǎn)生一個積分指示該預(yù)測的可靠性,。
用模型有機體和文獻數(shù)據(jù)庫的功能分析
模型有機體蛋白質(zhì)的生物化學(xué)和遺傳學(xué)定性已經(jīng)提供了一些個體蛋白質(zhì)、蛋白質(zhì)復(fù)合體以及蛋白質(zhì)通路功能的深入理解,。因為出現(xiàn)了許多在模型有機體和人類之間存在保守蛋白質(zhì)功能的例子,,模型有機體諸如酵母、線蟲和果蠅的功能被加強了,。已經(jīng)建立了這些模型有機體的完善的數(shù)據(jù)庫支持不同科研團體的需要以及其它領(lǐng)域需要模型有機體信息的研究者的工作,。
酵母基因組數(shù)據(jù)庫(SGD)、WormBase/AceDB (C.elegans)和FlyBase(黑腹果蠅)是杰出的例子,。這些數(shù)據(jù)庫將每個有機體詳盡的突變分析分類變成目錄,,通常允許描述蛋白質(zhì)功能細(xì)致到個別的氨基酸。這些數(shù)據(jù)庫隨著每個基因組計劃的完成將逐漸提供功能基因組實驗的檢索和目錄,??梢垣@取系統(tǒng)的基因敲除、DNA微陣列研究和酵母大規(guī)模蛋白質(zhì)相互作用研究的信息并注解擴展到其它有機體,。盡管模型有機體數(shù)據(jù)庫有不同的形式因而對于其它領(lǐng)域的研究者使用起來有困難,,然而它們?nèi)匀皇抢斫獾鞍踪|(zhì)功能的優(yōu)秀資源。
考慮到生物文獻的巨大數(shù)目,,一個(仍未意識到的)希望是從生物文本中知識的自動提取,,其最終將使功能分析更加容易。除了機器判讀文本所呈現(xiàn)的明顯的困難外,,存在的一個事實是機器搜索只有摘要和標(biāo)題可以獲得而沒有全文,。盡管電子出版的進步最終將使全文普遍而價廉地獲得,而這一天目前還沒到來,。摘要由于它的體積小必然限制了其所傳送的功能詳細(xì)情況,,許多主要雜志的長幅文章加重了該限制。另外還有一個"Babel塔"問題-相同的條件能夠代表大量不同的生物概念以及相同的概念能夠被眾多不同的條件所描述,??紤]到有經(jīng)驗的研究者在克服Babel塔所遇到的困難,對于機器來說前途似乎顯得渺茫,。
數(shù)十年來遺傳學(xué),、生物化學(xué),、細(xì)胞生物學(xué)和醫(yī)學(xué)研究所積累的實驗文獻為數(shù)龐大。蛋白質(zhì)組學(xué)研究者每個實驗都獲得幾百個新蛋白質(zhì),,沒有時間對于每個蛋白質(zhì)都作廣泛的文獻搜索,。對已經(jīng)測序的模型有機體的蛋白質(zhì)文獻詳盡而綜合的管理強調(diào)了這個問題。出芽釀酒酵母的酵母蛋白質(zhì)組數(shù)據(jù)庫(PombePDTM),、線蟲的C.elegans蛋白質(zhì)組數(shù)據(jù)庫(WormPD TM)以及分裂酵母的裂殖酵母菌蛋白質(zhì)組數(shù)據(jù)庫(PombePD TM)以統(tǒng)一的形式從超過20000個研究文獻中呈現(xiàn)全文實驗結(jié)果,。每個蛋白質(zhì)報告都是含有做成表格形式的蛋白質(zhì)性質(zhì)(定位、功能分類等)以及載有更復(fù)雜實驗結(jié)果的網(wǎng)頁,。在線工具和鏈接允許從每個蛋白質(zhì)漫游到其它物種的同源物,。這些數(shù)據(jù)庫總稱為BioKnowledgeTM文庫延伸到其它模型有機體和人類將產(chǎn)生一個功能強大的知識資源,它將對解譯來自眾多物種的比較基因組,、功能基因組和蛋白質(zhì)組的結(jié)果有用,。酵母的許多功能基因組研究已經(jīng)能夠在YPD范圍內(nèi)讀出和解譯。
結(jié)論
蛋白質(zhì)組學(xué)將最終產(chǎn)生遠(yuǎn)遠(yuǎn)超出DNA序列數(shù)據(jù)庫所儲存的數(shù)據(jù),。人類和模型有機體的蛋白質(zhì)完全分類以及建立知識資源方便進入蛋白質(zhì)功能的綜合知識對于蛋白質(zhì)組學(xué)的前進是至關(guān)重要的,。因為蛋白質(zhì)組學(xué)的目標(biāo)是全面了解蛋白質(zhì)以及因為每個細(xì)胞類型所表達的蛋白質(zhì)不同,蛋白質(zhì)組的探索將需要在很長的時間里建立數(shù)據(jù)以及知識管理的新的和創(chuàng)新性的資源,。