Matthew E. Crawford, Micahael E.Cusick, James I. Garrels
Proteomics: A Trends Guide,July, 2000
隨著模型有機(jī)體和人類的基因組的完全測(cè)序,,人們的注意力轉(zhuǎn)向了蛋白質(zhì)組學(xué)-蛋白質(zhì)的大規(guī)模識(shí)別和定性,。蛋白質(zhì)組學(xué)隨著強(qiáng)有力的新技術(shù)的出現(xiàn)而進(jìn)展快速。蛋白質(zhì)組學(xué)的數(shù)據(jù)庫(kù)發(fā)展成為知識(shí)資源,,提供了不同于傳統(tǒng)形式的信息資源庫(kù)。
盡管蛋白質(zhì)組學(xué)技術(shù)增加了研究的蛋白質(zhì)數(shù)目,,單個(gè)蛋白質(zhì)的識(shí)別和定性仍然是關(guān)鍵的,。從物理證據(jù)(比如在凝膠上的遷移或者肽段的質(zhì)量)識(shí)別蛋白質(zhì)成分通常是起點(diǎn)。在此之后出現(xiàn)蛋白質(zhì)的全序列,,通常從已知的DNA序列推知,,然后作出結(jié)構(gòu)和功能推測(cè)。在模型有機(jī)體諸如酵母,,超過(guò)一半的蛋白質(zhì)已經(jīng)被功能分析,,大約10%已經(jīng)在至少一個(gè)實(shí)驗(yàn)室中被研究。然而,,即使對(duì)于這些蛋白質(zhì)許多功能還有待發(fā)現(xiàn),。
蛋白質(zhì)組學(xué)技術(shù)與傳統(tǒng)方法不同,,能夠從許多蛋白質(zhì)立即收集數(shù)據(jù),增加我們關(guān)于在生理改變和疾病的每個(gè)時(shí)期的蛋白質(zhì)表達(dá),、修飾,、定位、翻轉(zhuǎn)和蛋白質(zhì)-蛋白質(zhì)相互作用的知識(shí),。這里我們綜述現(xiàn)存數(shù)據(jù)庫(kù)和知識(shí)資源,,展示如何從物理數(shù)據(jù)識(shí)別蛋白質(zhì)、蛋白質(zhì)的識(shí)別如何獲得序列以及如何從序列分析預(yù)測(cè)結(jié)構(gòu)和功能,。最后,,我們討論模型有機(jī)體數(shù)據(jù)庫(kù),它提供了蛋白質(zhì)功能的更多線索,,以及蛋白質(zhì)組數(shù)據(jù)庫(kù),,它幫助研究者根據(jù)發(fā)表的研究文獻(xiàn)所含的知識(shí)積累分析蛋白質(zhì)組數(shù)據(jù)。
從實(shí)驗(yàn)數(shù)據(jù)識(shí)別蛋白質(zhì)
今天的主要技術(shù)是二維凝膠電泳(2DE)和質(zhì)譜(MS),。兩種方法都是通過(guò)物理參數(shù)分辨蛋白質(zhì)和肽段,。在將來(lái),更多的蛋白質(zhì)可以通過(guò)蛋白質(zhì)芯片上的親和力因素直接識(shí)別,,蛋白質(zhì)芯片是一個(gè)與DNA 微陣列技術(shù)相似的方法,,目前被用于定量mRNA表達(dá)。所有的蛋白質(zhì)組分析的方法都需要數(shù)據(jù)庫(kù)完成識(shí)別,。
2DE技術(shù)通過(guò)大小和電荷分析蛋白質(zhì),。在仔細(xì)的標(biāo)化條件下,單是凝膠上的位置就足夠識(shí)別一些蛋白質(zhì),。SWISS-2DPAGE,,一個(gè)在ExPASy服務(wù)器上的數(shù)據(jù)庫(kù),為在2D凝膠上預(yù)測(cè)蛋白質(zhì)遷移提供了許多標(biāo)化的凝膠圖象和工具,。比較已知細(xì)胞類型或組織的凝膠和SWISS-2DPAGE的圖象集可以幫助識(shí)別關(guān)鍵標(biāo)志物,,但是實(shí)際上詳細(xì)的比對(duì)低到中等豐度的蛋白質(zhì)有困難,除非凝膠在同一實(shí)驗(yàn)室中在嚴(yán)格控制的條件下跑膠,。其難度是由于蛋白質(zhì)樣品本身的變化性,、樣品制備的不可重復(fù)性以及任何凝膠系統(tǒng)不能完全分辨樣品中的所有蛋白質(zhì)。MS有希望幫助排除凝膠對(duì)凝膠方式比對(duì)的需要,。
MS徹底改革了蛋白質(zhì)組學(xué),。可以從凝膠分離的蛋白質(zhì)酶解肽段獲得高度精確的質(zhì)量,,在有有效的數(shù)據(jù)庫(kù)情況下它們就足夠進(jìn)行蛋白質(zhì)識(shí)別,。通過(guò)肽段質(zhì)量識(shí)別蛋白質(zhì)的資源包括ExPASy的PeptIdent工具、PROWL的PepFrag,、Protein Prospector的MS-FIT和MA-TAG以及SEQUEST,。這些資源包括從已知和預(yù)測(cè)的蛋白質(zhì)序列的理論摘要編輯的肽段數(shù)據(jù)庫(kù),。通過(guò)肽質(zhì)量識(shí)別蛋白質(zhì)被證明足夠有力來(lái)識(shí)別單一樣本的多個(gè)蛋白質(zhì),有時(shí)能夠直接分析純化的蛋白質(zhì)復(fù)合體,。
通過(guò)肽質(zhì)量識(shí)別蛋白質(zhì)需要進(jìn)入一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫(kù).最常用的數(shù)據(jù)庫(kù)是SWISS-PROT,、TreEMBL和美國(guó)的國(guó)立生物技術(shù)信息中心(NCBI)的蛋白質(zhì)序列非重復(fù)(nr)集合。SWISS-PROT是一個(gè)ExPASy服務(wù)器上的蛋白質(zhì)序列的注解的集合,;TrEMBL是一個(gè)給以自動(dòng)注解的蛋白質(zhì)預(yù)測(cè)序列的大集合,,直到它們完全注解后并進(jìn)入SWISS-PROT;NCBI nr數(shù)據(jù)庫(kù)含有整個(gè)GenBank保存的DNA序列所翻譯的蛋白質(zhì)序列以及PDB,、SWISS-PROT和PIR數(shù)據(jù)庫(kù)里的蛋白質(zhì)序列,。蛋白質(zhì)序列數(shù)據(jù)庫(kù)也提供額外的信息,包括簡(jiǎn)要的功能描述(如果已知),、序列特征(比如修飾信號(hào))的注解,、二級(jí)和三級(jí)結(jié)構(gòu)的預(yù)測(cè)、關(guān)鍵參考文獻(xiàn)和與其它數(shù)據(jù)庫(kù)的鏈接,。
蛋白質(zhì)功能的探索起自序列,。如果蛋白質(zhì)已經(jīng)充分了解的,它的功能通??梢詮男蛄袛?shù)據(jù)庫(kù)的條目以及一些關(guān)鍵文獻(xiàn)中確定,。如果蛋白質(zhì)沒(méi)有充分了解或者是完全不了解,仍然可以從相關(guān)蛋白質(zhì)的分析獲得其功能的線索,。BLAST分析生成了緊密相關(guān)蛋白質(zhì)的列表,其中的一些可能已經(jīng)被定性,;如果序列比較擴(kuò)展到全長(zhǎng),,相似的功能能夠被預(yù)測(cè)。比對(duì)的更短的區(qū)域可能顯示保守的結(jié)構(gòu)域,,它們本身就提供了功能的線索,。
BLAST所新添的程序允許在更短區(qū)域進(jìn)行更敏感的搜索。圖譜反復(fù)搜索的BLAST(PSI-BLAST)允許從BLAST搜索結(jié)果衍生的蛋白質(zhì)比對(duì)結(jié)果相互作用構(gòu)建圖譜,。然而必須小心對(duì)待PSI-BLAST,,因?yàn)榧词辜尤胍粋€(gè)不相關(guān)的序列到比對(duì)中也會(huì)產(chǎn)生圖譜的偏移。模式命中誘導(dǎo)的BLAST(PHI-BLAST)允許使用使用者構(gòu)建模式的數(shù)據(jù)庫(kù)搜索,。在ExPASy和在NCBI獲得的工具允許靈活地應(yīng)用BLAST和結(jié)構(gòu)域分析,,并鏈接到相關(guān)的數(shù)據(jù)庫(kù)和文獻(xiàn)。
從序列進(jìn)行功能預(yù)測(cè)
BLAST分析是序列比對(duì)的強(qiáng)有力工具但是應(yīng)用到功能預(yù)測(cè)上可能不精確,。BLAST結(jié)果從比對(duì)的長(zhǎng)度和比對(duì)區(qū)域的相似性獲得,。必須注意不能將一個(gè)蛋白質(zhì)的描述簡(jiǎn)單地轉(zhuǎn)移到另外一個(gè)相關(guān)的蛋白質(zhì)上,該蛋白質(zhì)可能只是享有一個(gè)共同但是高度保守的結(jié)構(gòu)域,。DNA序列數(shù)據(jù)庫(kù)中的功能注解有時(shí)是誤導(dǎo)的,,因?yàn)樘峤徽呖截惲嘶诠蚕斫Y(jié)構(gòu)域的功能注釋,,而它們對(duì)全長(zhǎng)蛋白質(zhì)的功能是偶然的。如果反復(fù)拷貝到數(shù)據(jù)庫(kù)中,,這些錯(cuò)誤會(huì)導(dǎo)致"注解災(zāi)難",。
大多蛋白質(zhì)含有多個(gè)結(jié)構(gòu)域,而描述與這些結(jié)構(gòu)域相關(guān)的功能對(duì)于蛋白質(zhì)注解是關(guān)鍵的,。幸運(yùn)的是現(xiàn)在已經(jīng)有了結(jié)構(gòu)域分析有效的數(shù)據(jù)庫(kù)和工具,。最早的是PROSITE,是SWISS-PROT的伙伴數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)將結(jié)構(gòu)域和基元做成序列一致模式的圖表并提供了優(yōu)秀的注解,。其它結(jié)構(gòu)域數(shù)據(jù)庫(kù)包括Pfam,、BLOCK、ProDOM,、PRINT和SMART,。它們提供不同的算法生成許多不同類型的圖譜(隱藏的Markov模式、簽名,、指紋或者模塊)用統(tǒng)計(jì)學(xué)定義結(jié)構(gòu)域,。
為了增強(qiáng)這些結(jié)構(gòu)域數(shù)據(jù)庫(kù)的功能,一個(gè)叫做InterPro的協(xié)會(huì)將它們其中的一些結(jié)合成為一個(gè)統(tǒng)一的形式,。InterPro允許所有成員數(shù)據(jù)庫(kù)用關(guān)鍵詞或者序列(用近來(lái)補(bǔ)充的InterProScan) 同時(shí)進(jìn)行搜索并呈現(xiàn)統(tǒng)一的,、非重復(fù)的注解。InterPro目前代表結(jié)構(gòu)域分析最完全的資源,,但是SMART也可以被推薦,。SMART包含的結(jié)構(gòu)域要少(與InterPro的3000個(gè)相比只有400個(gè)),但是這樣能夠?qū)⒏嗟淖⒁饬ν兜竭@些結(jié)構(gòu)域的功能注解上。另外,,SMART有InterPro或其它結(jié)構(gòu)域數(shù)據(jù)庫(kù)所沒(méi)有的特點(diǎn),,諸如結(jié)構(gòu)域的分類分布,通過(guò)結(jié)構(gòu)域結(jié)構(gòu)(按照一個(gè)固定的順序排列結(jié)構(gòu)域)以及結(jié)構(gòu)域組成(含有同樣的結(jié)構(gòu)域而不管它們的次序)搜索,。
現(xiàn)在已經(jīng)有了結(jié)構(gòu)預(yù)測(cè)的可靠算法,。盡管只從原始序列的預(yù)測(cè)仍然不可靠,但是蛋白質(zhì)穿線方法(基于一個(gè)相關(guān)蛋白質(zhì)的已知結(jié)構(gòu)預(yù)測(cè)結(jié)構(gòu))經(jīng)常證明在蛋白質(zhì)定性中證明有幫助,。相關(guān)蛋白質(zhì)享有共同的結(jié)構(gòu)因此當(dāng)一個(gè)蛋白質(zhì)家族中的一個(gè)成員的結(jié)構(gòu)確定后它允許預(yù)測(cè)同一家族中其它蛋白質(zhì)的結(jié)構(gòu),。因?yàn)榻Y(jié)構(gòu)分析算法是計(jì)算機(jī)密集的,大多公共搜索網(wǎng)址依賴于儲(chǔ)存的,、預(yù)先計(jì)算好的搜索,。一個(gè)這樣的資源是蛋白質(zhì)數(shù)據(jù)庫(kù)的中間序列文庫(kù)(PDB-ISL)?;赟COP(蛋白質(zhì)的結(jié)構(gòu)分類)中的手工定義的結(jié)構(gòu)分類,,PDB-ISL使得研究者能夠發(fā)現(xiàn)與那些與已經(jīng)解決結(jié)構(gòu)的蛋白質(zhì)在結(jié)構(gòu)上相關(guān)的蛋白質(zhì)。結(jié)果是與查詢序列的特殊區(qū)域相對(duì)應(yīng)的折疊列表(一系列特殊排列以及有特殊關(guān)聯(lián)的二級(jí)結(jié)構(gòu))。通過(guò)檢測(cè)這個(gè)列表可以發(fā)現(xiàn)有關(guān)該蛋白質(zhì)可能結(jié)構(gòu)的線索,。盡管蛋白質(zhì)穿線方法在此綜述范圍之外,,結(jié)果可能是印象深刻的、特別是查詢和模板序列之間的相同程度高的時(shí)候,。如果序列等同小于30%,,結(jié)果就不可靠需要小心。
3DCrunch網(wǎng)址含有來(lái)自SWISS-PROT和TreEMBL記錄的理論模型,。如果一個(gè)興趣蛋白質(zhì)不在SWISS-PROT或者3DCrunch中,,在ExPASy的SWISS-MODEL網(wǎng)址提供基于符合PDB結(jié)構(gòu)作為模板的結(jié)構(gòu)基礎(chǔ)上的建立蛋白質(zhì)模型的工具。另外一個(gè)發(fā)現(xiàn)理論模型的有用的數(shù)據(jù)庫(kù)是MODBASE,,它含有對(duì)應(yīng)于大約17000個(gè)蛋白質(zhì)的模型,,包括幾近完整的釀酒酵母的蛋白質(zhì)組。酵母蛋白質(zhì)結(jié)構(gòu)資源在酵母基因組數(shù)據(jù)庫(kù)網(wǎng)址可以作為Sacch3D獲得,。3維模型突出強(qiáng)調(diào)對(duì)于結(jié)構(gòu)和功能最為關(guān)鍵的氨基酸,,通過(guò)聚焦這些關(guān)鍵殘基允許蛋白質(zhì)的比對(duì)。這些改進(jìn)的比對(duì)允許評(píng)估那些僅僅用BLAST比較認(rèn)為不顯著的遠(yuǎn)處的相似,。理論上和同源性為基礎(chǔ)的蛋白質(zhì)-結(jié)構(gòu)模型的精確性因?yàn)檎谶M(jìn)行的"結(jié)構(gòu)基因組學(xué)"變得可行應(yīng)該進(jìn)一步增高,。
一個(gè)結(jié)構(gòu)為基礎(chǔ)搜索的特征是可以識(shí)別結(jié)構(gòu)相似而不享有相同演化祖先的蛋白質(zhì)。如果一個(gè)注解的蛋白質(zhì)與興趣蛋白質(zhì)相似就值得檢查是否是通過(guò)趨同進(jìn)化各自獨(dú)立演化而來(lái),。在NCBI上結(jié)構(gòu)報(bào)告上的預(yù)先計(jì)算的載體比對(duì)搜索工具(VAST)比對(duì)允許快速鏈接到結(jié)構(gòu)鄰居,,其方式類似于NCBI核酸或蛋白質(zhì)報(bào)告所能獲得的與蛋白質(zhì)或核酸鄰居的鏈接。到一個(gè)結(jié)構(gòu)報(bào)告的最快的途徑是在PDB數(shù)據(jù)庫(kù)進(jìn)行目的蛋白質(zhì)的BlastP搜索并查看作為結(jié)構(gòu)報(bào)告的結(jié)果,。
分析決定蛋白質(zhì)最終亞細(xì)胞定位的分類信號(hào)能夠輔助蛋白質(zhì)功能的理解,。PSORT II是最近版本的算法,它用統(tǒng)計(jì)學(xué)估計(jì)序列中一些模式的存在情況(諸如N末端信號(hào)序列,、核定位信號(hào),、跨膜片斷和卷曲結(jié)構(gòu))從而預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位并產(chǎn)生一個(gè)積分指示該預(yù)測(cè)的可靠性。
用模型有機(jī)體和文獻(xiàn)數(shù)據(jù)庫(kù)的功能分析
模型有機(jī)體蛋白質(zhì)的生物化學(xué)和遺傳學(xué)定性已經(jīng)提供了一些個(gè)體蛋白質(zhì),、蛋白質(zhì)復(fù)合體以及蛋白質(zhì)通路功能的深入理解。因?yàn)槌霈F(xiàn)了許多在模型有機(jī)體和人類之間存在保守蛋白質(zhì)功能的例子,,模型有機(jī)體諸如酵母,、線蟲(chóng)和果蠅的功能被加強(qiáng)了。已經(jīng)建立了這些模型有機(jī)體的完善的數(shù)據(jù)庫(kù)支持不同科研團(tuán)體的需要以及其它領(lǐng)域需要模型有機(jī)體信息的研究者的工作,。
酵母基因組數(shù)據(jù)庫(kù)(SGD),、WormBase/AceDB (C.elegans)和FlyBase(黑腹果蠅)是杰出的例子。這些數(shù)據(jù)庫(kù)將每個(gè)有機(jī)體詳盡的突變分析分類變成目錄,,通常允許描述蛋白質(zhì)功能細(xì)致到個(gè)別的氨基酸,。這些數(shù)據(jù)庫(kù)隨著每個(gè)基因組計(jì)劃的完成將逐漸提供功能基因組實(shí)驗(yàn)的檢索和目錄。可以獲取系統(tǒng)的基因敲除,、DNA微陣列研究和酵母大規(guī)模蛋白質(zhì)相互作用研究的信息并注解擴(kuò)展到其它有機(jī)體,。盡管模型有機(jī)體數(shù)據(jù)庫(kù)有不同的形式因而對(duì)于其它領(lǐng)域的研究者使用起來(lái)有困難,然而它們?nèi)匀皇抢斫獾鞍踪|(zhì)功能的優(yōu)秀資源,。
考慮到生物文獻(xiàn)的巨大數(shù)目,,一個(gè)(仍未意識(shí)到的)希望是從生物文本中知識(shí)的自動(dòng)提取,其最終將使功能分析更加容易,。除了機(jī)器判讀文本所呈現(xiàn)的明顯的困難外,,存在的一個(gè)事實(shí)是機(jī)器搜索只有摘要和標(biāo)題可以獲得而沒(méi)有全文。盡管電子出版的進(jìn)步最終將使全文普遍而價(jià)廉地獲得,,而這一天目前還沒(méi)到來(lái),。摘要由于它的體積小必然限制了其所傳送的功能詳細(xì)情況,許多主要雜志的長(zhǎng)幅文章加重了該限制,。另外還有一個(gè)"Babel塔"問(wèn)題-相同的條件能夠代表大量不同的生物概念以及相同的概念能夠被眾多不同的條件所描述,。考慮到有經(jīng)驗(yàn)的研究者在克服Babel塔所遇到的困難,,對(duì)于機(jī)器來(lái)說(shuō)前途似乎顯得渺茫,。
數(shù)十年來(lái)遺傳學(xué)、生物化學(xué),、細(xì)胞生物學(xué)和醫(yī)學(xué)研究所積累的實(shí)驗(yàn)文獻(xiàn)為數(shù)龐大,。蛋白質(zhì)組學(xué)研究者每個(gè)實(shí)驗(yàn)都獲得幾百個(gè)新蛋白質(zhì),沒(méi)有時(shí)間對(duì)于每個(gè)蛋白質(zhì)都作廣泛的文獻(xiàn)搜索,。對(duì)已經(jīng)測(cè)序的模型有機(jī)體的蛋白質(zhì)文獻(xiàn)詳盡而綜合的管理強(qiáng)調(diào)了這個(gè)問(wèn)題,。出芽釀酒酵母的酵母蛋白質(zhì)組數(shù)據(jù)庫(kù)(PombePDTM)、線蟲(chóng)的C.elegans蛋白質(zhì)組數(shù)據(jù)庫(kù)(WormPD TM)以及分裂酵母的裂殖酵母菌蛋白質(zhì)組數(shù)據(jù)庫(kù)(PombePD TM)以統(tǒng)一的形式從超過(guò)20000個(gè)研究文獻(xiàn)中呈現(xiàn)全文實(shí)驗(yàn)結(jié)果,。每個(gè)蛋白質(zhì)報(bào)告都是含有做成表格形式的蛋白質(zhì)性質(zhì)(定位,、功能分類等)以及載有更復(fù)雜實(shí)驗(yàn)結(jié)果的網(wǎng)頁(yè)。在線工具和鏈接允許從每個(gè)蛋白質(zhì)漫游到其它物種的同源物,。這些數(shù)據(jù)庫(kù)總稱為BioKnowledgeTM文庫(kù)延伸到其它模型有機(jī)體和人類將產(chǎn)生一個(gè)功能強(qiáng)大的知識(shí)資源,,它將對(duì)解譯來(lái)自眾多物種的比較基因組、功能基因組和蛋白質(zhì)組的結(jié)果有用,。酵母的許多功能基因組研究已經(jīng)能夠在YPD范圍內(nèi)讀出和解譯,。
結(jié)論
蛋白質(zhì)組學(xué)將最終產(chǎn)生遠(yuǎn)遠(yuǎn)超出DNA序列數(shù)據(jù)庫(kù)所儲(chǔ)存的數(shù)據(jù)。人類和模型有機(jī)體的蛋白質(zhì)完全分類以及建立知識(shí)資源方便進(jìn)入蛋白質(zhì)功能的綜合知識(shí)對(duì)于蛋白質(zhì)組學(xué)的前進(jìn)是至關(guān)重要的,。因?yàn)榈鞍踪|(zhì)組學(xué)的目標(biāo)是全面了解蛋白質(zhì)以及因?yàn)槊總€(gè)細(xì)胞類型所表達(dá)的蛋白質(zhì)不同,,蛋白質(zhì)組的探索將需要在很長(zhǎng)的時(shí)間里建立數(shù)據(jù)以及知識(shí)管理的新的和創(chuàng)新性的資源。