國際人類基因組計劃合作組織在不久前出版的英國《自然》雜志上宣布,經(jīng)過多國科學(xué)家近3年的精心“雕琢”,,一張精度達99.999%,、誤差小于十萬分之一的人類基因組完成圖繪制完成,原本遺漏了15萬個細節(jié)的人類生命天書已經(jīng)幾近完美,。
新圖與舊圖
1990年啟動的人類基因組計劃經(jīng)過包括中國在內(nèi)的多國科學(xué)家的10年努力,,于2001年“大功告成”。2001年2月15日出版的英國《自然》雜志第409卷6822期以及2001年2月16日出版的美國《科學(xué)》雜志第291卷5507期,,分別正式公布了人類基因組計劃和塞萊拉遺傳公司的人類基因組全序列數(shù)據(jù),,人類基因組草圖誕生了。
根據(jù)草圖,,科學(xué)家分析得到的結(jié)果集中在以下幾個方面:一是人類基因數(shù)量少得驚人,。一些研究人員先前預(yù)測人類約有14萬個基因,但此時的研究結(jié)果卻大出所料,,人類基因總數(shù)在2.6383萬到3.9114萬個之間,,約3萬個左右,只比果蠅多大約1.3萬個基因。二是人類基因組中存在“熱點”和大片“荒漠”,。三是35.3%的基因組包含重復(fù)的序列,,這意味著所有這些重復(fù)序列,即原來被認為的“垃圾DNA”應(yīng)該被重新認識,。四是地球上人與人之間99.99%的基因密碼是相同的,,人與人之間的變異僅為萬分之一。
10月21日出版的《自然》雜志上,,國際人類基因組測序委員會對已經(jīng)完成的人類基因組序列給出了更為科學(xué)的陳述,,將人類蛋白質(zhì)編碼基因的估計數(shù)目由原來的約35000個縮減到了20000至25000個,研究人員已經(jīng)確定人類基因組中存在19599個蛋白質(zhì)編碼基因,,并且還確定有另外的2188個DNA片斷可能是蛋白質(zhì)編碼基因,。人類基因數(shù)量如此之少,甚至與微小的開花植物擬南芥和小蠕蟲的基因數(shù)量基本相同,,這無疑對人類虛榮心是一次打擊,。在《自然》雜志的文章中,研究人員表示,,這一人類基因組計劃的精準(zhǔn)結(jié)果為人類提供了最為清晰的人類基因組圖譜,,這一高精確度的人類基因組序列使全世界的研究人員能夠更精確地對遺傳信息以及它們對健康和疾病的影響進行研究。
鳥槍“不準(zhǔn)”
是什么原因?qū)е铝耍玻埃埃蹦甑牟輬D遺漏了15萬個“細節(jié)”呢,?很多科學(xué)家都把“矛頭”指向了測序技術(shù),,美國科學(xué)家更是一針見血地指出,塞萊拉遺傳公司董事長兼首席科學(xué)家克雷格·文特爾使用的,,通常用于大片段脫氧核糖核酸(DNA)測序的“鳥槍法”存在缺陷,,正是由于這種測序技術(shù)所帶來的遺憾,使得2001年人類基因草圖略顯潦草,。
“鳥槍法”又稱為“霰彈法”,,是有著 “基因魔鬼”之稱的文特爾發(fā)明的一種快速基因測序技術(shù)。塞萊拉遺傳公司與公共測序領(lǐng)域的科學(xué)家在人類基因測序競爭中采用了不同的路線,。前者使用的是“鳥槍法”,,其特點是測序速度快,但后期需要大量的計算,;后者使用的是基于BAC連續(xù)克隆系的測序法,,簡稱克隆法,這種方法早期需要較多的時間用于克隆和草圖繪制,。這兩種不同的技術(shù)路線,,一方面豐富了測序方法,另一方面也提高了測序技術(shù)水平,。
美國文特爾學(xué)會的3位科學(xué)家對“鳥槍法”進行了重新研究,,其中兩位曾經(jīng)參與過該方法的開發(fā),。他們把利用“鳥槍法”繪制的人類基因組草圖和最新公布的精圖進行了對比,發(fā)現(xiàn)“鳥槍法”無法測到人類基因組中某些重復(fù)出現(xiàn)的DNA片段,,這些片段占到基因組的3%至5%,,而這些無法“覆蓋”到的基因組對于理解遺傳性疾病具有重要意義。
負責(zé)這項技術(shù)研究工作的埃萬·艾希勒表示,,盡管“鳥槍法”可能有時“打”得不太準(zhǔn),,但這個缺陷并不能抹殺“鳥槍法”在快速基因測序中所發(fā)揮的重要作用,在進行快速DNA測序時,,“鳥槍法”仍然不失為一種可取的手段,。而最佳的DNA測序法是,,將“克隆法”和“鳥槍法”兩種測序方法相結(jié)合,,用“鳥槍法”進行整體測序,對于“鳥槍法”無法測序的區(qū)域,,再通過傳統(tǒng)方法對這些區(qū)域測序,。
速度過快
除了測序技術(shù)之外,還有什么因素影響到了人類生命天書的精確呢,?答案是:時間和速度,。
人類基因組計劃原定于2005年完成測序并向外界公布基本數(shù)據(jù),然而,,在1998年和2000年,,人類基因組國際組織決定將原來確定的人類基因組測序工作完成時間提前到2001年6月。究其原因,,一方面在于大規(guī)模測序技術(shù)的不斷提高使基因組測序速度加快,;另一方面就是私人公司加入到了人類基因組的測序行列,,公私競爭“催化”了測序速度,。
塞萊拉遺傳公司董事長兼首席科學(xué)家克雷格·文特爾原本是參加人類基因組計劃的科學(xué)家,由于在能否對基因進行專利申請方面與人類基因組的科學(xué)家們發(fā)生矛盾,,他便于1998年5月另立門戶,,在美國的馬里蘭州羅克威爾組建了塞萊拉遺傳公司進行基因測序。其目標(biāo)也十分明確,,與國際人類基因組計劃展開競爭,,投入3億美元,到2001年繪制出完整的人體基因組圖譜,。
文特爾企圖“壟斷”基因的野心迅速遭到了世界各國政治家和科學(xué)家的強烈反對,。有科學(xué)家一針見血地指出,“塞萊拉公司在基因組研究方面的‘欲望’助長了該公司與國際公共研究領(lǐng)域相悖的勢頭,,這種做法無疑違背了世界上多數(shù)公眾的利益,,更妨礙了該領(lǐng)域科學(xué)的進步。”2000年3月14日,美國前總統(tǒng)克林頓和英國首相布萊爾聯(lián)合發(fā)表聲明支持基因組數(shù)據(jù)公開的政策,,這一聲明使得以塞萊拉公司為首的私營企業(yè)“壟斷基因”的企圖明顯受挫,。然而,基因的“公”,、“私”之爭并沒有因此結(jié)束,。
私營的塞萊拉遺傳公司一問世便與國際人類基因組爭搶進度,試圖通過申請專利來獲取利潤,,到2000年4月6日,,塞萊拉遺傳公司突然宣布已基本完成人類基因的全部測序工作,盡管這一結(jié)果遭到不少科學(xué)家的質(zhì)疑,,指出其是“有漏洞的”,;但在這種形勢下,國際人類基因組計劃不得不把原定的時間再提前兩年,,但這個時間表仍然落后于塞萊拉遺傳公司宣布的進度,。
公私競爭大大加速了人類基因組測序工作,2000年6月26日,,雙方共同宣布繪制完成了人類基因組框架草圖,,但雙方在時間與速度的競爭,使得第一次公布的人類基因組測序結(jié)果難以“十全十美”,。此后,,國際人類基因組計劃合作組織立即啟動了一項十分艱難、但非常必要的“糾錯補漏”程序,,用了3年的時間將草圖一點點地豐滿起來,,那些令人頭疼的縫隙也從原來的15萬個減少到現(xiàn)在的341個。
“開始的結(jié)束”
在公布了人類基因組精確圖以后,,科學(xué)家們似乎并不為此感到“歡欣鼓舞”,,國際人類基因組計劃核心成員之一、美國冷泉港實驗室教授林肯·斯坦說:“在整個人類基因組測序工程中,,研究者已經(jīng)勝利攀登了一座高山,,走過了一條漫長而艱險的道路。但這僅僅是‘開始的結(jié)束’,。”
科學(xué)家們表示,,雖然從數(shù)量上相比人類的基因并不占優(yōu)勢,但人類的基因圖譜卻要復(fù)雜得多,。人類的復(fù)雜性不僅僅涉及到基因的數(shù)目,,而更在于自然界如何采用這些基因。但人類如何擁有較少的基因,,而又是如此復(fù)雜呢,?美國科學(xué)家埃里克·蘭德爾說:“基因的數(shù)量多少并不是關(guān)鍵問題,,最重要的因素是不同物種如何利用了這些基因。”另一位美國科學(xué)家克林斯則認為,,這在于人有多種蛋白質(zhì),,即復(fù)雜的蛋白質(zhì)做更多的工作。很多生物學(xué)上的復(fù)雜性,,不是基于單個蛋白質(zhì),,而是基于多個蛋白質(zhì)的組合。
蛋白質(zhì)組研究作為功能基因組學(xué)的重要支柱,,理所當(dāng)然地成為當(dāng)今生命科學(xué)領(lǐng)域的前沿,。蛋白質(zhì)組研究不僅可實現(xiàn)與基因組的對接與確認,直接揭示生命活動的規(guī)律和本質(zhì),、發(fā)現(xiàn)人類重大疾病與病原體致病的物質(zhì)基礎(chǔ)以及發(fā)生與發(fā)展的病理機制,;而且還可廣泛推動生命科學(xué)基礎(chǔ)學(xué)科以及分析、信息,、材料等應(yīng)用科學(xué)的發(fā)展,,對提高人類生物醫(yī)學(xué)原始創(chuàng)新能力、重大疾病防治水平具有重要意義,。從基因圖止步的地方開始,,人類蛋白質(zhì)組計劃迄今已開展7個項目。
幾近完美的人類生命天書要歸功于國際人類基因測序組織對已經(jīng)得到的富含基因的片段的基因組序列進行了徹底認真的檢查,,剔除多處錯誤和前后不一致的東西?,F(xiàn)在,基因組精圖在28.5億個堿基對的編碼中只剩下了341個缺口,,測序的失誤率降至十萬分之一,,也就是說幾乎不存在什么“漏洞”了;而這種精確度意味著這一人類基因組序列將成為今后國際人類生命科學(xué)研究的“金標(biāo)準(zhǔn)”,,任何人都可以通過免費使用這一非??煽康男蛄袛?shù)據(jù)庫來探尋疾病根源和發(fā)現(xiàn)新的治療藥物。
人類基因組圖譜大修正人類基因組僅有2萬~2.5萬個蛋白編碼基因
被用作模式生物的低等動物秀麗隱桿線蟲(C. elegans)只有1 mm長,,生命周期也只有短短數(shù)天,,但其基因組卻含有1.95萬個左右的基因,同樣被用作模式生物的低等植物擬南芥也有2.7萬個左右的基因,,而在進化上比這些低等動植物都優(yōu)越得多的人類,其基因組竟然僅有2萬~2.5萬個基因,!這是國際人類基因組測序協(xié)作組(IHGSC)最近公布的最新分析結(jié)果,。
由美國國立人類基因組研究所(NHGRI)和能源部(DOE)領(lǐng)導(dǎo)的IHGSC不久前宣布,人類基因組測序工作已圓滿完成,,其發(fā)表在2004年10月21日Nature(2004,,431:931)上的分析報告對2001年2月發(fā)表的初步分析報告進行了補充,。這篇最新分析報告不但為世人展現(xiàn)了一張精度大于99%、誤差小于10萬分之一的精確版人類基因組圖譜,,而且還進一步糾正了蛋白編碼基因的數(shù)量,,僅為2萬~2.5萬個,而非原先估計的3萬~3.5萬個,。
新基因組圖譜準(zhǔn)確率達99.999%
旨在破譯人類基因組常染色質(zhì)遺傳密碼的人類基因組計劃(HGP)自1990年啟動至2003年結(jié)束,,歷時共13年,該計劃由IHGSC來完成,。IHGSC是由法國,、德國、日本,、中國,、英國和美國等6個國家20個研究所的科學(xué)家組成的開放性國際協(xié)作組織,全球2800余名科學(xué)家參加了IHGSC的工作,。
2001年2月,,IHGSC宣布,人類基因組草圖已經(jīng)完成,。以今天的眼光來看,,草圖顯然存在很多重要的不足,例如,,僅測出了約90%的常染色質(zhì)基因組序列,,而且序列之間存在147821個未檢測出的空缺等等。
在2001-2003年之間,,IHGSC的不懈努力終于將此草圖轉(zhuǎn)化為今天這張既高度精確又相當(dāng)完整的人類基因組圖,。此外,在這段時間內(nèi),,還陸續(xù)發(fā)表了關(guān)于第5,、6、7,、9,、10、13,、14,、19、20,、21,、22號染色體和Y染色體的詳細評注和分析,其余12條染色體的資料不久也將發(fā)表,。
現(xiàn)在的基因組序列(Build 35)共包含28.5億個核苷酸,,它近乎完整,涵蓋了99%以上的常染色質(zhì)基因組序列,;準(zhǔn)確率為99.999%,也就是說誤差率只有1個堿基/10萬個堿基對,,比最初制訂的目標(biāo)精確了10倍,。
序列的連續(xù)性亦獲得了顯著改善,常染色質(zhì)基因組序列中僅存在341個空缺?,F(xiàn)在,,平均每一段連續(xù)序列含有3850萬個堿基對,約比2001年版草圖的81500個堿基對長475倍,。這些沒有中斷的已知序列可以在很大程度上幫助科學(xué)家尋找目標(biāo)基因及其鄰近的調(diào)節(jié)目標(biāo)基因活性的序列,,并顯著減少他們尋找疾病相關(guān)性短而少見的序列的工作量和費用。在剩余的341個空缺中,,很多與片段的重復(fù)(segmental duplications)相關(guān),,需要采用新的方法才能將其填滿。
IHGSC所完成的測序工作不僅完整而且精確,,足以進行一些對敏感性要求較高的科學(xué)分析,,例如基因數(shù)目的研究,疾病相關(guān)性重復(fù)片段的研究,,以及進化過程中基因“生”或“死”的研究,。該基因組序列的資料已于2003年4月被載入免費公用數(shù)據(jù)庫。
“完成”并非意味著現(xiàn)在的人類基因組圖就是完美無缺的,。雖然與2001版草圖相比,,空缺已經(jīng)從近15萬個減少至341個,但是人類基因組序列的這些頑固空缺已很難用現(xiàn)有的技術(shù)來填補,。填補這些空隙需要做進一步的研究,,并需要采用新的技術(shù)。
美國馬薩諸塞州麻省理工學(xué)院和哈佛大學(xué)Broad研究所所長Lander說:“已完成的人類基因組序列在準(zhǔn)確率,、完整性和連續(xù)性方面遠遠超過了我們的預(yù)期目標(biāo),。它反映出全球數(shù)百名科學(xué)家為了一個共同目標(biāo)——為21世紀(jì)的生物醫(yī)學(xué)奠定扎實的基礎(chǔ)——而進行大協(xié)作的奉獻精神。”
僅有2萬~2.5萬個蛋白編碼基因
IHGSC最新分析所得出的最出人意料的結(jié)果就是,,人類基因組只含有2萬~2.5萬個蛋白編碼基因,。
NHGRI所長Collins說:“僅僅在10年以前,大多數(shù)科學(xué)家還認為,,人類基因組大約含有10萬個蛋白編碼基因,。3年前,當(dāng)我們對人類基因組序列草圖進行分析時,,我們估計人類約有3萬~3.5萬個蛋白編碼基因,,這在當(dāng)時已經(jīng)使很多人感到震驚。而剛剛結(jié)束的分析結(jié)果發(fā)現(xiàn)人類的蛋白編碼基因數(shù)比預(yù)計的還要少得多,,這使我們對人類基因組的真實情況有了更準(zhǔn)確的了解,。全世界的科學(xué)家都可以從免費公用數(shù)據(jù)庫中獲得該高度精確的人類基因組序列,這就使他們有可能對人類遺傳學(xué)及其影響人類健康和疾病的機制進行更精確的研究,。”
人類基因組分析的主要目的之一就是確定人類的全部基因,。基因是編碼特定蛋白質(zhì)的一段DNA序列,,是遺傳的基本功能單位,。目前的研究結(jié)果顯示,人類基因組有19599個已經(jīng)獲得確定的蛋白編碼基因,,另外還有2188段可能為蛋白編碼基因的DNA序列,。
英國Wellcome Trust Sanger研究所Rogers說:“由于2001年版人類基因組草圖不夠完善,因此導(dǎo)致了一些早期基因模型是錯誤的,?;蜩b定仍是一項艱巨的任務(wù)。除了其他生物的基因組序列,、更好的計算機化模型和其他手段的改進外,,人類基因組測序工作的完成必將為基因鑒定工作提供極大的幫助。”
人類基因重復(fù)片段高達5.3%
科學(xué)家們認為,,已完成的人類基因組序列不但確定了更為確切的人類基因數(shù)量,,而且與2001版基因組序列草圖相比,質(zhì)量也有顯著的提高,,并且使人們對某些現(xiàn)象有了更清晰和深刻的理解,,例如DNA重復(fù)片段。
重復(fù)片段是指長的,、幾乎相同的DNA重復(fù)序列,。已知很多人類疾病是由重復(fù)序列的突變所引起的,例如Williams綜合征,、Charcot-Marie-Tooth?。韫羌∥s癥)和DiGeorge綜合征(胸腺發(fā)育不良)。美國圣路易斯市華盛頓大學(xué)基因組測序中心前主任,、西雅圖市華盛頓大學(xué)基因組系主任Waterston說:“以前只有基因組序列草圖的時候,,要對重復(fù)片段進行研究幾乎是不可能的。通過全世界科學(xué)家堅持不懈的努力,,現(xiàn)在我們已經(jīng)可以對人類基因組中這一重要而快速進化的部分進行研究了,。”
重復(fù)片段覆蓋了5.3%的人類基因組,顯著多于大鼠的基因組(約為3%)或小鼠的基因組(在1%~2%之間),。重復(fù)片段為人們開啟了一個了解人類基因組是如何進化的以及人類基因組目前正在經(jīng)歷什么樣的變化的窗口,。人類基因組如此高的重復(fù)片段百分比表明,,在最近4000萬年內(nèi),人類的遺傳物質(zhì)經(jīng)歷了快速的功能變革和結(jié)構(gòu)改變,。這大概就是人類具有獨特的特征,,從而有別于其非人類靈長類動物祖先的原因。
IHGSC在分析中發(fā)現(xiàn),,重復(fù)片段在不同的人類染色體之間的分布差異很大,。Y染色體就是一個最極端的例子,其重復(fù)片段占總長度的25%以上,。有些重復(fù)片段往往群集于每條染色體的中部(著絲粒)或末端(端粒)附近,。科學(xué)家們推測,,基因組可能將著絲粒和端粒處的重復(fù)片段用作一個進化實驗室,,來生成具有新功能的基因。
揭示基因的“生”與“死”
已完成的人類基因組序列準(zhǔn)確度很高,,這使科學(xué)家有可能了解在人類進化過程中基因的“生”和“死”,。科學(xué)家在人類基因組中發(fā)現(xiàn)了1000多個新基因,,這些基因是大約7500萬年前人類與嚙齒類動物向不同方向進化以后產(chǎn)生的,。這些基因多數(shù)是最近通過基因重復(fù)產(chǎn)生的,與免疫,、嗅覺和生殖功能有關(guān),,例如,人類基因組中最近重復(fù)的兩個基因家族分別編碼兩組蛋白質(zhì),,妊娠特異性β1糖蛋白和絨毛膜促性腺激素β蛋白,,這兩組蛋白質(zhì)可能與人類獨特的較長的妊娠期相關(guān)。
此外,,科學(xué)家們還利用已完成的人類基因組序列發(fā)現(xiàn)并鑒定了33個幾乎沒什么變化的基因,,但是由于它們在近期發(fā)生了1個或1個以上突變而導(dǎo)致了其功能喪失(或稱為“死亡”)??茖W(xué)家通過將這些基因與大鼠和小鼠基因組中的對應(yīng)基因(鼠類中這些對應(yīng)基因的功能仍保持)進行對照比較后,,確定了這些無功能基因(又稱為假基因)在人類基因組的確切位置。有趣的是,,科學(xué)家們還發(fā)現(xiàn),,上述33個假基因中的10個似乎與編碼嗅覺感受器的蛋白相關(guān),這就有助于解釋為什么人類的功能性嗅覺感受器較少,,從而導(dǎo)致了人類的嗅覺比嚙齒類動物差,。Axel和Buck不久前就因在嗅覺分子生物學(xué)方面所做出的杰出貢獻而獲得了2004年諾貝爾生理學(xué)或醫(yī)學(xué)獎。
然后,科學(xué)家將這33個假基因和黑猩猩的基因組序列草圖進行了對照比較,,以確定這些基因在大約500萬年前類人猿進化為人類前是否還是有功能的,。分析結(jié)果顯示,33個假基因中的27個在人類中和在黑猩猩中均無功能,,但有5個假基因雖在人類中無功能,,但在黑猩猩中還是有功能的,。美國休斯頓Baylor醫(yī)學(xué)院人類基因組測序中心主任Gibbs說:“對這些人類基因組中的假基因以及黑猩猩基因組中仍有功能的對應(yīng)基因的確定,,為將來的研究項目打下了堅實的基礎(chǔ)。” Gibbs等目前正在進行另一種非人類靈長類動物——恒河猴基因組的測序工作,。