Matthew E. Crawford, Micahael E.Cusick, James I. Garrels
Proteomics: A Trends Guide,July, 2000
隨著模型有機體和人類的基因組的完全測序,人們的注意力轉向了蛋白質組學-蛋白質的大規(guī)模識別和定性,。蛋白質組學隨著強有力的新技術的出現(xiàn)而進展快速,。蛋白質組學的數(shù)據(jù)庫發(fā)展成為知識資源,提供了不同于傳統(tǒng)形式的信息資源庫,。
盡管蛋白質組學技術增加了研究的蛋白質數(shù)目,,單個蛋白質的識別和定性仍然是關鍵的,。從物理證據(jù)(比如在凝膠上的遷移或者肽段的質量)識別蛋白質成分通常是起點。在此之后出現(xiàn)蛋白質的全序列,,通常從已知的DNA序列推知,,然后作出結構和功能推測。在模型有機體諸如酵母,,超過一半的蛋白質已經(jīng)被功能分析,,大約10%已經(jīng)在至少一個實驗室中被研究。然而,,即使對于這些蛋白質許多功能還有待發(fā)現(xiàn),。
蛋白質組學技術與傳統(tǒng)方法不同,能夠從許多蛋白質立即收集數(shù)據(jù),,增加我們關于在生理改變和疾病的每個時期的蛋白質表達、修飾,、定位,、翻轉和蛋白質-蛋白質相互作用的知識。這里我們綜述現(xiàn)存數(shù)據(jù)庫和知識資源,,展示如何從物理數(shù)據(jù)識別蛋白質,、蛋白質的識別如何獲得序列以及如何從序列分析預測結構和功能。最后,,我們討論模型有機體數(shù)據(jù)庫,,它提供了蛋白質功能的更多線索,以及蛋白質組數(shù)據(jù)庫,,它幫助研究者根據(jù)發(fā)表的研究文獻所含的知識積累分析蛋白質組數(shù)據(jù),。
從實驗數(shù)據(jù)識別蛋白質
今天的主要技術是二維凝膠電泳(2DE)和質譜(MS)。兩種方法都是通過物理參數(shù)分辨蛋白質和肽段,。在將來,,更多的蛋白質可以通過蛋白質芯片上的親和力因素直接識別,蛋白質芯片是一個與DNA 微陣列技術相似的方法,,目前被用于定量mRNA表達,。所有的蛋白質組分析的方法都需要數(shù)據(jù)庫完成識別。
2DE技術通過大小和電荷分析蛋白質,。在仔細的標化條件下,,單是凝膠上的位置就足夠識別一些蛋白質。SWISS-2DPAGE,,一個在ExPASy服務器上的數(shù)據(jù)庫,,為在2D凝膠上預測蛋白質遷移提供了許多標化的凝膠圖象和工具。比較已知細胞類型或組織的凝膠和SWISS-2DPAGE的圖象集可以幫助識別關鍵標志物,,但是實際上詳細的比對低到中等豐度的蛋白質有困難,,除非凝膠在同一實驗室中在嚴格控制的條件下跑膠,。其難度是由于蛋白質樣品本身的變化性、樣品制備的不可重復性以及任何凝膠系統(tǒng)不能完全分辨樣品中的所有蛋白質,。MS有希望幫助排除凝膠對凝膠方式比對的需要,。
MS徹底改革了蛋白質組學??梢詮哪z分離的蛋白質酶解肽段獲得高度精確的質量,,在有有效的數(shù)據(jù)庫情況下它們就足夠進行蛋白質識別。通過肽段質量識別蛋白質的資源包括ExPASy的PeptIdent工具,、PROWL的PepFrag,、Protein Prospector的MS-FIT和MA-TAG以及SEQUEST。這些資源包括從已知和預測的蛋白質序列的理論摘要編輯的肽段數(shù)據(jù)庫,。通過肽質量識別蛋白質被證明足夠有力來識別單一樣本的多個蛋白質,,有時能夠直接分析純化的蛋白質復合體。
通過肽質量識別蛋白質需要進入一個蛋白質序列數(shù)據(jù)庫.最常用的數(shù)據(jù)庫是SWISS-PROT,、TreEMBL和美國的國立生物技術信息中心(NCBI)的蛋白質序列非重復(nr)集合,。SWISS-PROT是一個ExPASy服務器上的蛋白質序列的注解的集合;TrEMBL是一個給以自動注解的蛋白質預測序列的大集合,,直到它們完全注解后并進入SWISS-PROT,;NCBI nr數(shù)據(jù)庫含有整個GenBank保存的DNA序列所翻譯的蛋白質序列以及PDB、SWISS-PROT和PIR數(shù)據(jù)庫里的蛋白質序列,。蛋白質序列數(shù)據(jù)庫也提供額外的信息,,包括簡要的功能描述(如果已知)、序列特征(比如修飾信號)的注解,、二級和三級結構的預測,、關鍵參考文獻和與其它數(shù)據(jù)庫的鏈接。
蛋白質功能的探索起自序列,。如果蛋白質已經(jīng)充分了解的,,它的功能通常可以從序列數(shù)據(jù)庫的條目以及一些關鍵文獻中確定,。如果蛋白質沒有充分了解或者是完全不了解,,仍然可以從相關蛋白質的分析獲得其功能的線索。BLAST分析生成了緊密相關蛋白質的列表,,其中的一些可能已經(jīng)被定性,;如果序列比較擴展到全長,相似的功能能夠被預測,。比對的更短的區(qū)域可能顯示保守的結構域,,它們本身就提供了功能的線索。
BLAST所新添的程序允許在更短區(qū)域進行更敏感的搜索,。圖譜反復搜索的BLAST(PSI-BLAST)允許從BLAST搜索結果衍生的蛋白質比對結果相互作用構建圖譜,。然而必須小心對待PSI-BLAST,,因為即使加入一個不相關的序列到比對中也會產(chǎn)生圖譜的偏移。模式命中誘導的BLAST(PHI-BLAST)允許使用使用者構建模式的數(shù)據(jù)庫搜索,。在ExPASy和在NCBI獲得的工具允許靈活地應用BLAST和結構域分析,,并鏈接到相關的數(shù)據(jù)庫和文獻。
從序列進行功能預測
BLAST分析是序列比對的強有力工具但是應用到功能預測上可能不精確,。BLAST結果從比對的長度和比對區(qū)域的相似性獲得,。必須注意不能將一個蛋白質的描述簡單地轉移到另外一個相關的蛋白質上,該蛋白質可能只是享有一個共同但是高度保守的結構域,。DNA序列數(shù)據(jù)庫中的功能注解有時是誤導的,,因為提交者拷貝了基于共享結構域的功能注釋,而它們對全長蛋白質的功能是偶然的,。如果反復拷貝到數(shù)據(jù)庫中,,這些錯誤會導致"注解災難"。
大多蛋白質含有多個結構域,,而描述與這些結構域相關的功能對于蛋白質注解是關鍵的,。幸運的是現(xiàn)在已經(jīng)有了結構域分析有效的數(shù)據(jù)庫和工具。最早的是PROSITE,是SWISS-PROT的伙伴數(shù)據(jù)庫,。這個數(shù)據(jù)庫將結構域和基元做成序列一致模式的圖表并提供了優(yōu)秀的注解,。其它結構域數(shù)據(jù)庫包括Pfam,、BLOCK,、ProDOM、PRINT和SMART,。它們提供不同的算法生成許多不同類型的圖譜(隱藏的Markov模式,、簽名、指紋或者模塊)用統(tǒng)計學定義結構域,。
為了增強這些結構域數(shù)據(jù)庫的功能,,一個叫做InterPro的協(xié)會將它們其中的一些結合成為一個統(tǒng)一的形式。InterPro允許所有成員數(shù)據(jù)庫用關鍵詞或者序列(用近來補充的InterProScan) 同時進行搜索并呈現(xiàn)統(tǒng)一的,、非重復的注解,。InterPro目前代表結構域分析最完全的資源,但是SMART也可以被推薦,。SMART包含的結構域要少(與InterPro的3000個相比只有400個),但是這樣能夠將更多的注意力投到這些結構域的功能注解上,。另外,SMART有InterPro或其它結構域數(shù)據(jù)庫所沒有的特點,,諸如結構域的分類分布,,通過結構域結構(按照一個固定的順序排列結構域)以及結構域組成(含有同樣的結構域而不管它們的次序)搜索。
現(xiàn)在已經(jīng)有了結構預測的可靠算法,。盡管只從原始序列的預測仍然不可靠,,但是蛋白質穿線方法(基于一個相關蛋白質的已知結構預測結構)經(jīng)常證明在蛋白質定性中證明有幫助,。相關蛋白質享有共同的結構因此當一個蛋白質家族中的一個成員的結構確定后它允許預測同一家族中其它蛋白質的結構。因為結構分析算法是計算機密集的,,大多公共搜索網(wǎng)址依賴于儲存的,、預先計算好的搜索。一個這樣的資源是蛋白質數(shù)據(jù)庫的中間序列文庫(PDB-ISL),?;赟COP(蛋白質的結構分類)中的手工定義的結構分類,PDB-ISL使得研究者能夠發(fā)現(xiàn)與那些與已經(jīng)解決結構的蛋白質在結構上相關的蛋白質,。結果是與查詢序列的特殊區(qū)域相對應的折疊列表(一系列特殊排列以及有特殊關聯(lián)的二級結構),。通過檢測這個列表可以發(fā)現(xiàn)有關該蛋白質可能結構的線索。盡管蛋白質穿線方法在此綜述范圍之外,,結果可能是印象深刻的,、特別是查詢和模板序列之間的相同程度高的時候。如果序列等同小于30%,,結果就不可靠需要小心,。
3DCrunch網(wǎng)址含有來自SWISS-PROT和TreEMBL記錄的理論模型。如果一個興趣蛋白質不在SWISS-PROT或者3DCrunch中,,在ExPASy的SWISS-MODEL網(wǎng)址提供基于符合PDB結構作為模板的結構基礎上的建立蛋白質模型的工具,。另外一個發(fā)現(xiàn)理論模型的有用的數(shù)據(jù)庫是MODBASE,它含有對應于大約17000個蛋白質的模型,,包括幾近完整的釀酒酵母的蛋白質組,。酵母蛋白質結構資源在酵母基因組數(shù)據(jù)庫網(wǎng)址可以作為Sacch3D獲得。3維模型突出強調對于結構和功能最為關鍵的氨基酸,,通過聚焦這些關鍵殘基允許蛋白質的比對,。這些改進的比對允許評估那些僅僅用BLAST比較認為不顯著的遠處的相似。理論上和同源性為基礎的蛋白質-結構模型的精確性因為正在進行的"結構基因組學"變得可行應該進一步增高,。
一個結構為基礎搜索的特征是可以識別結構相似而不享有相同演化祖先的蛋白質,。如果一個注解的蛋白質與興趣蛋白質相似就值得檢查是否是通過趨同進化各自獨立演化而來。在NCBI上結構報告上的預先計算的載體比對搜索工具(VAST)比對允許快速鏈接到結構鄰居,,其方式類似于NCBI核酸或蛋白質報告所能獲得的與蛋白質或核酸鄰居的鏈接,。到一個結構報告的最快的途徑是在PDB數(shù)據(jù)庫進行目的蛋白質的BlastP搜索并查看作為結構報告的結果。
分析決定蛋白質最終亞細胞定位的分類信號能夠輔助蛋白質功能的理解,。PSORT II是最近版本的算法,,它用統(tǒng)計學估計序列中一些模式的存在情況(諸如N末端信號序列、核定位信號,、跨膜片斷和卷曲結構)從而預測蛋白質的亞細胞定位并產(chǎn)生一個積分指示該預測的可靠性,。
用模型有機體和文獻數(shù)據(jù)庫的功能分析
模型有機體蛋白質的生物化學和遺傳學定性已經(jīng)提供了一些個體蛋白質、蛋白質復合體以及蛋白質通路功能的深入理解。因為出現(xiàn)了許多在模型有機體和人類之間存在保守蛋白質功能的例子,,模型有機體諸如酵母,、線蟲和果蠅的功能被加強了。已經(jīng)建立了這些模型有機體的完善的數(shù)據(jù)庫支持不同科研團體的需要以及其它領域需要模型有機體信息的研究者的工作,。
酵母基因組數(shù)據(jù)庫(SGD),、WormBase/AceDB (C.elegans)和FlyBase(黑腹果蠅)是杰出的例子。這些數(shù)據(jù)庫將每個有機體詳盡的突變分析分類變成目錄,,通常允許描述蛋白質功能細致到個別的氨基酸,。這些數(shù)據(jù)庫隨著每個基因組計劃的完成將逐漸提供功能基因組實驗的檢索和目錄??梢垣@取系統(tǒng)的基因敲除,、DNA微陣列研究和酵母大規(guī)模蛋白質相互作用研究的信息并注解擴展到其它有機體。盡管模型有機體數(shù)據(jù)庫有不同的形式因而對于其它領域的研究者使用起來有困難,,然而它們?nèi)匀皇抢斫獾鞍踪|功能的優(yōu)秀資源,。
考慮到生物文獻的巨大數(shù)目,一個(仍未意識到的)希望是從生物文本中知識的自動提取,,其最終將使功能分析更加容易,。除了機器判讀文本所呈現(xiàn)的明顯的困難外,存在的一個事實是機器搜索只有摘要和標題可以獲得而沒有全文,。盡管電子出版的進步最終將使全文普遍而價廉地獲得,,而這一天目前還沒到來。摘要由于它的體積小必然限制了其所傳送的功能詳細情況,,許多主要雜志的長幅文章加重了該限制,。另外還有一個"Babel塔"問題-相同的條件能夠代表大量不同的生物概念以及相同的概念能夠被眾多不同的條件所描述??紤]到有經(jīng)驗的研究者在克服Babel塔所遇到的困難,,對于機器來說前途似乎顯得渺茫,。
數(shù)十年來遺傳學,、生物化學、細胞生物學和醫(yī)學研究所積累的實驗文獻為數(shù)龐大,。蛋白質組學研究者每個實驗都獲得幾百個新蛋白質,,沒有時間對于每個蛋白質都作廣泛的文獻搜索。對已經(jīng)測序的模型有機體的蛋白質文獻詳盡而綜合的管理強調了這個問題,。出芽釀酒酵母的酵母蛋白質組數(shù)據(jù)庫(PombePDTM),、線蟲的C.elegans蛋白質組數(shù)據(jù)庫(WormPD TM)以及分裂酵母的裂殖酵母菌蛋白質組數(shù)據(jù)庫(PombePD TM)以統(tǒng)一的形式從超過20000個研究文獻中呈現(xiàn)全文實驗結果。每個蛋白質報告都是含有做成表格形式的蛋白質性質(定位,、功能分類等)以及載有更復雜實驗結果的網(wǎng)頁,。在線工具和鏈接允許從每個蛋白質漫游到其它物種的同源物。這些數(shù)據(jù)庫總稱為BioKnowledgeTM文庫延伸到其它模型有機體和人類將產(chǎn)生一個功能強大的知識資源,它將對解譯來自眾多物種的比較基因組,、功能基因組和蛋白質組的結果有用,。酵母的許多功能基因組研究已經(jīng)能夠在YPD范圍內(nèi)讀出和解譯。
結論
蛋白質組學將最終產(chǎn)生遠遠超出DNA序列數(shù)據(jù)庫所儲存的數(shù)據(jù),。人類和模型有機體的蛋白質完全分類以及建立知識資源方便進入蛋白質功能的綜合知識對于蛋白質組學的前進是至關重要的,。因為蛋白質組學的目標是全面了解蛋白質以及因為每個細胞類型所表達的蛋白質不同,蛋白質組的探索將需要在很長的時間里建立數(shù)據(jù)以及知識管理的新的和創(chuàng)新性的資源,。