華中農(nóng)業(yè)大學(xué)作物遺傳改良國家重點實驗室水稻團隊在分子演化領(lǐng)域研究中取得了可喜進展,使用相關(guān)研究成果,可以方便專注于功能基因研究專家對演化模型的使用,。研究結(jié)果以“A dynamic programming procedure for searching optimal models to estimate substitution rates based on the maximum-likelihood method”為題,于4月26日在線發(fā)表在美國《國家科學(xué)院院刊》(PNAS)上,。文章通訊作者為我??妥淌邶埪h(yuǎn)老師和我校生科院張啟發(fā)老師,第一作者為生科院博士研究生章成君,。
達(dá)爾文在物種起源中提出,,任何生物體都有一個共同的祖先,將所有這些生物體聯(lián)系到一起,,可以畫出一個生命之樹,。分子演化學(xué)研究人員通過研究DNA或者蛋白質(zhì)的變化來反映生命(或基因)的演化過程。在這種方法中,,研究人員通過調(diào)整DNA或者蛋白質(zhì)變化的速率,,來模擬各個物種或者物種內(nèi)某一個基因的演化速率,從而來推斷出物種(或基因)的分化年代,,分析某個物種(或基因)是否更易于生存與繁衍等有用的信息,。
由于不同階段的DNA或者蛋白的變化速率的組合數(shù)目是非常巨大的,雖然現(xiàn)在電腦的計算能力已經(jīng)非常強大,,但是仍然無法計算所有的組合類型——對10個物種(或基因)來說,,即使它們相互之間的親緣關(guān)系已經(jīng)完全確定,單單允許DNA(或者蛋白質(zhì))的速率進行變化,,這種可能的組合就已經(jīng)超過了6820億,。在實際的研究過程中,傳統(tǒng)的做法是根據(jù)研究人員的興趣或者已經(jīng)獲得經(jīng)驗,,挑選出幾個特定的樹枝(branch),,針對這些樹枝的變化速率進行模擬。顯然,,這種傳統(tǒng)的做法存在著不少的缺陷:對不太了解的物種(基因)沒有辦法提出合理的組合,;存在很大的主觀性,不是客觀邏輯的分析結(jié)果,;簡單的提出假設(shè)組合,,會錯過很多更好的組合。
正是由于存在這些問題,,我校研究人員提出了根據(jù)局部動態(tài)最優(yōu)算法,,來改進這種傳統(tǒng)的靠運氣的做法,。該算法是找到固定一個樹枝最好的結(jié)果,然后在這個基礎(chǔ)上,,逐步固定更多的樹枝,。研究結(jié)果表明,在使用了這種算法之后,,僅僅通過n2(n是指用于分析的物種或者基因所構(gòu)成的生命樹的樹枝的總數(shù))次水平的計算之后,,就可以獲得與全局計算非常接近的結(jié)果。研究人員通過分析來自40篇文獻的50個例子,,證明采用這種算法得到的結(jié)果,,絕大部分(47/50)顯著好于傳統(tǒng)方法得到的結(jié)果。
對不太關(guān)注分子演化領(lǐng)域的功能基因研究學(xué)者來說,,該方法可以幫助其推斷基因功能,。為了方便功能基因研究專家使用使該方法,研究人員把這一算法放在了網(wǎng)站上(http://obsm.ncpgr.cn),,供廣大學(xué)者使用,。該程序容易操作,在一般情況下,,計算量也可以接受,,為研究者進一步研究基因的功能及其它重要信息提供了方便。(生物谷Bioon.com)
生物谷推薦原文出處:
PNAS doi: 10.1073/pnas.1018621108
Dynamic programming procedure for searching optimal models to estimate substitution rates based on the maximum-likelihood method
Chengjun Zhanga, Jia Wanga, Weibo Xiea, Gang Zhoua, Manyuan Longb,1, and Qifa Zhanga,1
Abstract
The substitution rate in a gene can provide valuable information for understanding its functionality and evolution. A widely used method to estimate substitution rates is the maximum-likelihood method implemented in the CODEML program in the PAML package. A limited number of branch models, chosen based on a priori information or an interest in a particular lineage(s), are tested, whereas a large number of potential models are neglected. A complementary approach is also needed to test all or a large number of possible models to search for the globally optional model(s) of maximum likelihood. However, the computational time for this search even in a small number of sequences becomes impractically long. Thus, it is desirable to explore the most probable spaces to search for the optimal models. Using dynamic programming techniques, we developed a simple computational method for searching the most probable optimal branch-specific models in a practically feasible computational time. We propose three search methods to find the optimal models, which explored O(n) (method 1) to O(n2) (method 2 and method 3) models when the given phylogeny has n branches. In addition, we derived a formula to calculate the number of all possible models, revealing the complexity of finding the optimal branch-specific model. We show that in a reanalysis of over 50 previously published studies, the vast majority obtained better models with significantly higher likelihoods than the conventional hypothesis model methods.