近日,,來自德國慕尼黑大學(xué)的研究人員在Nature Methods雜志上發(fā)表論文"HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment"介紹一種能提高蛋白序列比對(duì)分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術(shù)的軟件,,能通過新穎的序列尋找方法,更快更準(zhǔn)確的識(shí)別數(shù)據(jù)庫中具有相似序列的蛋白,,比現(xiàn)有的方法能快2500倍,!。
領(lǐng)導(dǎo)這一研究的是慕尼黑大學(xué)基因中心的Johannes Söding博士,,他表示,,“我們的方法能延伸序列分析的廣度和力度,從而能方便之后的蛋白結(jié)構(gòu)和功能的解析,。”
蛋白存在于生命中幾乎所有生化過程中,,一個(gè)蛋白的功能很大程度上依賴于其20種氨基酸排列組合的順序,以及氨基酸序列組成的三維空間結(jié)構(gòu),。因此對(duì)于序列相似的蛋白來說,,生物信息學(xué)方法能預(yù)測(cè)出其進(jìn)化相關(guān)性,從而預(yù)測(cè)出相似的結(jié)構(gòu)和功能,。
所以蛋白結(jié)構(gòu)分析是蛋白研究的一個(gè)重要方面,,蛋白結(jié)構(gòu)比對(duì)也成為了常規(guī)手段之一,研究人員常常在公眾數(shù)據(jù)庫中比對(duì)蛋白結(jié)構(gòu),,通過分析這些相似的已知結(jié)構(gòu)來分析蛋白的功能,,Söding博士說,“這種序列分析方法是生物信息學(xué)領(lǐng)域的一種基礎(chǔ)研究手段,。”
序列尋找程序能通過計(jì)算配對(duì)方式來評(píng)估序列相似性——兩個(gè)氨基酸序列被按照先后順序排列,,這是根據(jù)常見識(shí)別,或者同樣方式的氨基酸配對(duì),。“也許比配對(duì)序列相似性更加重要的是,,所謂的多序列比對(duì),在這種情況下,,研究人員可以尋找許多相關(guān)蛋白中的相似序列,,或者將其安排進(jìn)矩陣中——矩陣是指每個(gè)序列排列一行,相同單元中具有相同氨基酸”,Söding博士說,。因?yàn)檫M(jìn)化上相關(guān)蛋白的功能和結(jié)構(gòu)都通常是保守的,,比如說即使進(jìn)化過程中出現(xiàn)突變,序列改變了,,但是多序列比對(duì)能找到未知蛋白的結(jié)構(gòu)和分子功能,。
在過去的15年間,最流行的比對(duì)蛋白質(zhì)序列的工具是PSI-BLAST,,這是由于這一程序兼具速度和高靈敏度,,以及精確度。
但這一新成果,,Söding博士的這一最新HHblits方法在各方面更勝一籌,,這主要體現(xiàn)在兩個(gè)方面,首先研究人員能將興趣蛋白的序列,,與數(shù)據(jù)庫中蛋白的序列相互轉(zhuǎn)換,,進(jìn)入Hidden Markov Models (HMMs)模式,HMMs是一種能配合序列比對(duì)過程中出現(xiàn)的突變可能的統(tǒng)計(jì)模型,,因此這一步能提升亞序列相似搜索的靈敏度和準(zhǔn)確性,。
其次,這一研究組還研發(fā)了一種能幫助降低篩選量,,而又不損害搜索靈敏性的過濾成像,,這種方法能將搜索時(shí)間提高2500倍,Söding博士強(qiáng)調(diào)這種HHblits方法,,比較于之前的方法,,能更快更精確預(yù)測(cè)蛋白功能和結(jié)構(gòu),其研究組已經(jīng)著手更深入提升這一方法,,這包括協(xié)同蛋白三維結(jié)構(gòu)數(shù)據(jù)進(jìn)行分析,。(生物谷Bioon.com)
doi:10.1038/nmeth.1818
PMC:
PMID:
HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment
Michael Remmert, Andreas Biegert, Andreas Hauser & Johannes Söding
Sequence-based protein function and structure prediction depends crucially on sequence-search sensitivity and accuracy of the resulting sequence alignments. We present an open-source, general-purpose tool that represents both query and database sequences by profile hidden Markov models (HMMs): 'HMM-HMM–based lightning-fast iterative sequence search' (HHblits; http://toolkit.genzentrum.lmu.de/hhblits/). Compared to the sequence-search tool PSI-BLAST, HHblits is faster owing to its discretized-profile prefilter, has 50–100% higher sensitivity and generates more accurate alignments.