蛋白結(jié)合位點(diǎn)常常是以“共有性序列”(consensus sequences)表示的,比如說(shuō)TATA(A/T)A(A/T),,這種方式表述了在任意位置的大部分核苷酸,,但是沒(méi)有說(shuō)明清楚許多可變的情況,。因此,人們發(fā)明了多種序列表述方法。
早在1991年,,美國(guó)健康研究院NIH生物學(xué)家Tom Schneider發(fā)明了一種可變的,,圖標(biāo)形式的記錄方法:sequence logos。他利用每個(gè)位置的高度來(lái)表示其保守程度,,這樣特征高度就反映了相對(duì)的變化頻率,,比如說(shuō)一個(gè)consensus sequence位置上可能是C或者T,sequence logos上C的高度代表了其通常比T出現(xiàn)的頻率多5倍,。
但是之后有些科學(xué)家比如來(lái)自加州大學(xué)伯克利分校的Steven Brenner認(rèn)為Schneider的這種方法“非常不適合生物學(xué)家運(yùn)用”,,因此在1994年,一位從英國(guó)劍橋大學(xué)的研究生Brenner發(fā)明了一種稱之為Weblogo的序列表述Web版本,,這一方法經(jīng)過(guò)了他10年的時(shí)間完善,,在2004年終于得以公布。
這個(gè)Weblogo基于多序列比對(duì)信息,,把多序列的保守信息通過(guò)圖形表示出來(lái),。每個(gè)logo由一系列堿基(氨基酸)組成,在每一個(gè)序列位置上用總高度表示此位置上的序列保守性,,用堿基(氨基酸)字母的高度表示出現(xiàn)的頻率,。比較于sequence logos方法,Weblogo改進(jìn)了特異fonts產(chǎn)出的能力——可以從position weight matrices而不是aligned sequences建立logo,,并且也將基因組序列偏愛(ài)性(比如GC含量)考慮在內(nèi),。