華中農(nóng)業(yè)大學 生命科學院
多年來癌癥遺傳學研究策略是對單個獨立的基因進行研究,,然后把把這些單獨的研究結(jié)果綜合起來,形成比較全面的認識,。我們對癌癥的許多認識是基于這種研究方法。然而,,在上世紀九十年代基因組學的興起促進癌癥遺傳學形成了一套全新的技術(shù)思路,。新的研究策略是全面檢測腫瘤發(fā)生過程中所有的遺傳學變化,從整體上研究這些遺傳變化進而建立一個最好的發(fā)現(xiàn),,診斷和治療癌癥的方法,。通過大規(guī)模項目建立公共數(shù)據(jù)庫對促進癌癥研究有非常關(guān)鍵的作用,除了數(shù)據(jù)庫開發(fā)人員使用外,,來自腫瘤研究其它領域的研究人員也能以此為起點研究特異的現(xiàn)象,。為了建立癌癥基因組數(shù)據(jù)庫,幾個研究小組獨立開始進行這項大規(guī)模的工程,DNA測序作為一個共同的技術(shù)平臺,。大規(guī)模的DNA測序工程現(xiàn)在已經(jīng)在發(fā)現(xiàn)人新基因,,鑒定基因組中癌癥誘發(fā)的基因突變以及對正常細胞與癌細胞轉(zhuǎn)錄物變化進行定性和定量研究中發(fā)揮重要作用。癌癥基因組項目產(chǎn)生大量數(shù)據(jù),,這促進了包括DNA微陣列在內(nèi)的系統(tǒng)研究方法的興起,。總之,,從癌癥基因組工程中,,我們不僅認識到在癌細胞中基因組是怎樣變化的,而且可以理解這些變化是如何導致細胞水平的變化最終誘發(fā)癌癥產(chǎn)生的,。
本文主要評價三個癌癥基因組項目的早期結(jié)果,,科學進展以及合作情況。這三個基因組工程是The Cancer Genome Anatomy Project(CGAP), The Human Cancer Genome Project (HCGP)和The Cancer Genome Project (CGP)(參見表一),。
基因組和癌癥研究
現(xiàn)在所有基于人序列的數(shù)據(jù)都直接與人基因組相關(guān),。這為統(tǒng)一基因組范圍的研究提供一個極好的機會;同時在人基因組這一研究背景下分析所得到的數(shù)據(jù)也更有價值?,F(xiàn)在每個癌癥基因組項目都是在人類基因組計劃不斷提供大量DNA測序數(shù)據(jù)的背景下進行的,。癌癥基因組項目提供有關(guān)癌癥的信息有助于更好的分析,解釋和理解基因組,。這些致力于建立公數(shù)據(jù)庫的大規(guī)模工程將為攻克癌癥發(fā)揮巨大的作用,,而這也是人類基因組計劃的目標之一。圖一簡要的勾畫出癌癥基因組數(shù)據(jù)與產(chǎn)生癌癥相關(guān)信息之間的關(guān)系,。
癌癥基因組可以產(chǎn)生四種類型的數(shù)據(jù)信息。前兩類是轉(zhuǎn)錄序列,,產(chǎn)生于人cDNA序列的400-600bp表達序列標簽(expressed sequence tags,,ESTs)和由基因表達連續(xù)分析(serial analysis of gene expression,SAGE)得到的短序列標簽,。第三類信息基因組DNA序列,,代表基因單個外顯子的全部或一部分,它們已經(jīng)被篩選以尋找在人腫瘤中發(fā)生的序列突變,。最后一類是有助于查明腫瘤發(fā)生中的斷裂點信息,,它是由于腫瘤發(fā)生過程中大范圍的基因組重排所產(chǎn)生的。 癌癥基因組解析計劃(The Cancer Genome Anatomy Project,,CGAP)
目標和基本原理 CGAP的目標就是建立一個基于信息和物理資源的基因組和癌癥交叉研究平臺,。CGAP的策略是建立序列數(shù)據(jù)庫而不是去分析生物學功能,使這些信息容易用于生物學分析,。這個項目已經(jīng)建立了一個在正常細胞與癌細胞表達有很大不同的基因目錄,,所收集的基因數(shù)目在不斷增多。
CGAP和HCGP重點都在從各種癌和正常組織cDNA文庫中得到ESTs。CGAP ESTs主要是從轉(zhuǎn)錄物3′端poly(A)尾引發(fā)第一鏈合成得到,,它們使得鑒定來源于同一基因的序列變得很容易,。在經(jīng)過篩選除去任何可能的污染序列之后,這些序列儲存在EST數(shù)據(jù)庫(Expressed Sequence Tags Database,,dbEST)中,。到現(xiàn)在為止,CGAP已經(jīng)儲存了>1,000,000條ESTs,。ESTs方法產(chǎn)生cDNA克隆和用于基因標簽的序列,。這些克隆可以用于獲得全長轉(zhuǎn)錄產(chǎn)物,建立微陣列鑒定基因表達模式,。
隨著CGAP項目的進展,,人們引進了許多新的高通量基因表達檢測技術(shù)。CGAP已經(jīng)廣泛應用SAGE方法,,這種技術(shù)可以對基因表達定量分析,。在SAGE方法中序列標簽是很短的(通常是14個核苷),許多標簽在一個單克隆中是相連的,,因而從單一DNA測序反應中可以得到30多個標簽,。而且,由于這些標簽來源于特異性限制性酶切位點鄰近的序列,,因而這些標簽很容易被定位到某特異轉(zhuǎn)錄物,。
與ESTs相比SAGE有個優(yōu)點,標簽可以來源于一個轉(zhuǎn)錄物的多個區(qū)段,,但在鑒定兩個標簽是代表相同還是不同基因時也更困難,,特別是缺少完整基因序列情況下。當然,,人基因組測序完成后,,更多的全長轉(zhuǎn)錄物被發(fā)現(xiàn),來源于轉(zhuǎn)錄物不同片段的基因標簽的關(guān)系更容易被鑒定,。由于其具有對基因表達變化的定量能力,,因而CGAP數(shù)據(jù)鑒定多種腫瘤發(fā)生中都過量表達的基因很有用。CGAP與國家生物技術(shù)信息中心(National Center for Biotechnology Information,,NCBI) 一起建立一個公共的SAGE數(shù)據(jù)庫(SAGEmap),。最近CGAP已經(jīng)改進了將標簽定到特異基因的方法,并且開發(fā)了新的分析工具如SAGE Anatomic Viewer9,。CGAP的SAGE數(shù)據(jù)庫中大多數(shù)序列標簽是通過突變或物理刺激引起基因表達變化這種方法獲得的,。這些數(shù)據(jù)已經(jīng)被用于鑒定在乳房、卵巢,、腦和胰腺癌過表達的基因和鑒定在腫瘤內(nèi)皮細胞以及缺氧誘導下特異表達的基因,。通過計算機分析鑒定基因的表達變化可以通過定量PCR或原位雜交等方法進一步分析確證,。
基因表達數(shù)據(jù)與癌癥基因組整合 CGAP一個重要目標就是將癌癥基因組和其表達整合起來。高質(zhì)量的人類基因組序列,,與基于序列的基因表達數(shù)據(jù)為這種整合提供了一個途徑,。例如,我們可以借助一些基因組瀏覽器可以在基因組水平上分析CGAP ESTs和SAGE標簽,。
另一個基因組與基因表達的重要關(guān)系需要特別關(guān)注,。腫瘤細胞遺傳學在后基因組時代仍然象在進行基因組測序計劃之前一樣很重要。對腫瘤細胞染色體斷裂點進行定位可以鑒定與疾病發(fā)生直接相關(guān)的基因組區(qū)段,。甚至,,開發(fā)抗癌新藥Gleevec漫長探索過程就是建立在最初發(fā)現(xiàn)慢性骨髓樣白血病普遍發(fā)生染色體異位(導致BCR-ABL融合)這一基礎上(見文章末Box3)。然而基因組序列與細胞遺傳學圖還需要進一步實驗才能整合起來,。CGAP完成了高分辨率BAC克隆熒光原位雜交(FISH)圖,,這些克隆是用作人基因組計劃測序模板。這極大方便了對染色體斷裂點鑒定,。也就是說,,人們可以鑒定細胞遺傳學圖上的BAC克隆,從已知BAC序列片段中讀出DNA序列并分析它們與鄰近序列的關(guān)系,。借助這些知識,,染色體斷裂點發(fā)生所表現(xiàn)的DNA序列改變能很快可以被發(fā)現(xiàn)。BAC象"錨"一樣,,將基因組序列既可以與細胞遺傳學圖聯(lián)系起來,,又可以與基因聯(lián)系起來,因而,,認識癌癥基因組與表達的綜合關(guān)系就變得非常容易了,。CGAP還與Felix Mitelman一起合作建立癌癥染色體異常目錄網(wǎng)絡版,使得研究人員可以自由的利用這些信息,,也提供了一個方法可以將這些有價值的數(shù)據(jù)與基于測序的數(shù)據(jù)相連,。 人癌癥基因組計劃(The Human Cancer Genome Project,HCGP)
目標和基本原理 HCGP最重要的目標是鑒定人類基因組蛋白質(zhì)編碼區(qū)。轉(zhuǎn)錄物序列對鑒定人DNA序列中的基因有非常關(guān)鍵的作用,因此,,轉(zhuǎn)錄物測序是整個人基因組測序的一個基本內(nèi)容。
EST測序 所有的HCGP數(shù)據(jù)都是應用開放閱讀框(ORF)EST測序方法或ORESTES得到的,,這種方法可以對中間的蛋白質(zhì)編碼區(qū)測序,。通過轉(zhuǎn)錄物末端反轉(zhuǎn)錄建立的ESTs通常不能包括這些區(qū)域。這個方法包括PCR介導的表達基因內(nèi)部片段測序,。因而,,ORESTES方法能夠捕捉到許多新的低豐度的信息,其中大部分序列與同一時刻表達的其他轉(zhuǎn)錄物豐度差異顯著,。HCGP用最初的100,000 HCGP序列在染色體22鑒定出許多新的轉(zhuǎn)錄區(qū)域,,證實了這個策略的正確可行。在GenBank已經(jīng)儲存了將近800,000條HCGP序列。HCGP數(shù)據(jù)在產(chǎn)生之后就立即存到GenBank,,其中大多數(shù)數(shù)據(jù)可用于分析2001發(fā)布的人類基因組草圖,。
ESTs應用
對CGAP和HCGP計劃產(chǎn)生的ESTs,我們需要做的第一步就是將來源于相同基因的片段歸類,。理論上,,可以通過比較轉(zhuǎn)錄序列之間的同源性來進行鑒定。然而實際上,,由于轉(zhuǎn)錄物的可變性(如選擇性拼接和多態(tài)性),,基因家族成員序列相關(guān)性,來源于相同轉(zhuǎn)錄物標簽缺少重疊以及DNA序列質(zhì)量的不一致性,,聚類分析是很復雜的,。基因組研究院基因索引(The Institute for Genomic Research Gene Indices),, STACK和UniGene是聚類分析建立具有代表性的幾個數(shù)據(jù)庫,,UniGene使用得最廣泛。
然而聚類分析一個更可靠的方法是用人類基因組序列做"向?qū)?quot;,。通過這種方法我們可以鑒定嵌合體,,否則會導致錯誤的序列。這種方法還可以對具有很小部分重疊的轉(zhuǎn)錄物進行聚類分析,,也可以將類似的家族成員鑒別出來,。以基因組序列作為"向?qū)?quot;的策略還可以鑒定出轉(zhuǎn)錄物由于缺乏內(nèi)含子與基因組序列之間的不連續(xù)性。另外,,即使與已知的任何基因都不配,,通過將EST定位到基因組外顯子/內(nèi)含子結(jié)構(gòu)圖上仍可以將它鑒別出來?;蚪M聚類分析也可以用于進行轉(zhuǎn)錄物的染色體定位,。因此,EST聚類物廣泛用于鑒定與癌癥相關(guān)的基因和人類基因組上的轉(zhuǎn)錄物,。例如,,這種策略用于鑒定染色體21基因轉(zhuǎn)錄物,這包含B細胞慢性淋巴細胞白血?。˙-cell chronic lymphocytic leukaemia ,,B-CLL)腫瘤抑制基因位點,CLL抑制基因位點,,12p12腫瘤抑制位點和遺傳性前列腺癌位點,。由于這些原因,HCGP和CGAP將基因組聚類分析用于處理ESTs,。
ESTs聚類分析也為基因多樣性研究提供機會,,其中一些基因與癌癥表現(xiàn)型相關(guān),。CGAP已經(jīng)通過多態(tài)性分析來鑒別來源于相同基因序列的單核苷酸差異。這個方法的基礎就是來源不同個體組織cDNA文庫的轉(zhuǎn)錄物標簽,。盡管大多數(shù)單核苷多態(tài)性代表群體中普通的多態(tài)性,,然而其中的一些與癌癥發(fā)生和維持直接相關(guān)。
EST數(shù)據(jù)進行聚類分析還可以用于發(fā)現(xiàn)與惡性腫瘤相關(guān)的轉(zhuǎn)錄物變異,。CGAP和HCGP數(shù)據(jù)已經(jīng)廣泛用于分析已知的所有人類基因變異,,這些變異可能是由于外顯子選擇性剪接,外顯子組織特異性剪接或在癌癥發(fā)生中差異表達的基因選擇性剪接,。
CGAP信息研究組已經(jīng)開發(fā)了許多方便使用EST數(shù)據(jù)庫的工具,,可以在線通過計算機分析發(fā)現(xiàn)可能在一些特殊癌癥中優(yōu)先表達的基因。通過這些轉(zhuǎn)錄物數(shù)據(jù)庫發(fā)現(xiàn)的在單個腫瘤中表達的基因包括乳房癌,,前列腺癌,,結(jié)腸癌和口腔癌基因,還有生殖器官的一些癌特異表達的基因,。通過組織限制性表達分析鑒定癌癥免疫治療潛在靶點,,這種方法在這個領域是非常有前景的,。
癌癥基因組計劃(The Cancer Genome Project,CGP)
CGP是最近發(fā)起的三個測序癌癥基因組之一,。CGAP和HCGP主要是鑒定癌癥轉(zhuǎn)錄物,,而CGP目標是調(diào)查人基因組中所有基因的序列變化,CGP從一個不同的角度研究癌癥基因組,。如果與表達數(shù)據(jù)庫整合以后,可以從分子水平對癌癥有一個更全面的認識,。
對疾病發(fā)生和發(fā)展中出現(xiàn)的突變進行分析使得我們對癌癥生物學有更深的認識,。盡管已經(jīng)取得非常大的進步,,然而我們對鑒定癌癥基因組中發(fā)生的所有突變還是認識很少。同時,,我們能從癌癥突變基因中得到許多非常有價值的信息。如前所述鑒定染色體易位是很容易的,;然而,,這只是我們所進行的分析中非常普通的變化,如BCR-ABL融合,。許多高外顯率易變基因已經(jīng)被克隆,如乳房癌基因BRCA1和BRCA2,,而其它低外顯率或低頻率位點仍不清楚??偣灿袑⒔?5個體細胞突變基因在文獻中報道,。然而所有這些基因都是相對容易做的,,還有多結(jié)構(gòu)染色體異常癌基因組在分子水平不清楚。在以前的工作中,,對這些變化進行還原性分析提供了許多分散的復雜的數(shù)據(jù),。CGP計劃已經(jīng)開始鑒定那些比較困難的癌突變基因,這些基因沒有被定位到圖譜上或只是定位到不清楚的大片段上,。
人腫瘤中存在多種突變,,這帶來了麻煩。為了完整描述體細胞遺傳學變化,,基因組突變鑒定平臺技術(shù)需要研究基因內(nèi)微小突變(置換,,缺失和插入),以及大的突變?nèi)缈截悢?shù)的變化(減少和擴增)和重組,。
如果腫瘤和相應正常DNA完全測序,每個堿基覆蓋至少十次,,那么這些遺傳學信息都可以得到,。盡管這種假設的方法不可行,但我們可能設計出方法分析單一類型突變,。借助人類基因組序列和合適的高通量突變掃描鑒定技術(shù),掃描分析腫瘤中所有基因內(nèi)微小突變是可行的。人基因組草圖2001年發(fā)表,,所有測序在今年完成,。對這些序列完成注解還需要兩年,并對所有已知的基因進行定位和結(jié)構(gòu)鑒定,。利用這些信息,,我們能夠直接分析所有的基因,,并最終得到癌細胞基因組編碼序列的情況,。
在測序完成之前,,到目前為止已經(jīng)開始對已經(jīng)確定的>15,000基因進行分析了,。為了在合理的時間內(nèi)完成整個基因組分析,,CGP開發(fā)一套靈敏快速的突變掃描方法,這種方法是建立在異源雙鏈核酸實驗基礎上,。以目前估計的分析速度,對48種腫瘤和同一個體相應正常組織的30,,000個基因進行初步掃描需要四年時間,。相應的正常組織可以提供一個重要的參照,,腫瘤DNA種系突變也存在于正常組織中。通過對照我們可以排除種系突變,,主要考慮體細胞突變,。大多數(shù)(不是所有的)種系突變是呈多態(tài)性的,這種多態(tài)性對于基因組高密度SNPs作圖有幫助,。初步掃描腫瘤的數(shù)目受到經(jīng)濟,,時間和鑒定腫瘤異變基因所需要的樣品數(shù)目的限制,。
CGP目標就是掃描所有基因的編碼區(qū),。這可以通過掃描腫瘤樣品cDNA來完成;然而基因組DNA提供了更一致的原始材料,。而且缺失突變還可以誘導無義鏈介導的RNA降解,,這使得發(fā)現(xiàn)突變位點變得很困難,另外選擇性拼接也使分析變得更復雜。即使使用每天可以掃描>500,000 bp高通量自動分析儀,,我們能掃描的樣品也是有限的,。CGP所選腫瘤種類是盡可能多樣化,以便分析得到最多的癌癥基因數(shù)目,。然而,,所選擇的腫瘤類型偏向上皮組織源腫瘤,鑒定的基因是與高死亡率相關(guān)的突變基因,。
起初,,CGP策略集中在RASRAF-MEK-ERK-MAP激酶途徑,因為10-20%人腫瘤發(fā)生RAS基因突變,。研究發(fā)現(xiàn)位于染色體7q的BRAF突變參與惡性黑素瘤和結(jié)腸癌,,其它兩個RAF成員RAF1和ARAF1在CGP檢測的樣品中突變低于<1%。盡管RAF1在癌中突變頻率不高,,但隨著過去幾年來小分子抑制劑研究進展,,它可能成為一個有意義的潛在靶點。由于RAF蛋白的相似性,,我們可以用RAF1抑制劑BRAF突變病人,,也可以開發(fā)特異性抑制劑治療最普遍的BRAF突變。當然,,CGP所選擇的這些早期基因都可能參與惡性腫瘤發(fā)生,,例如參與信號轉(zhuǎn)導途徑發(fā)生突變的基因或與癌發(fā)生相關(guān)的基因家族如蛋白激酶家族。然而這是所發(fā)現(xiàn)早期突變基因,,表明通過基因組搜索可以發(fā)現(xiàn)更多這種類型的突變基因,。
基因組搜索基因內(nèi)微小突變方法,可以鑒定出更多通常在腫瘤中發(fā)生突變的基因,,也可以建立一個隨腫瘤發(fā)展而變化基因突變模式,。流行病學研究估計在一種普通的上皮成年腫瘤發(fā)生過程中需要經(jīng)過5-7個速度限制性階段。在對24種腫瘤(初步掃描的48個樣品中一部分)1,,000個基因掃描后發(fā)現(xiàn)在一個典型的腫瘤中有比這最低數(shù)目多得多的基因發(fā)生突變,,其中一些是可以遺傳的。到目前為止CGP收集的數(shù)據(jù)表明在24種腫瘤樣品中每個都有1,000-50,000堿基替換,。在這些突變中10-600個是體細胞編碼區(qū)非同義的突變,。這表明在腫瘤發(fā)生過程中需要發(fā)生更多速性突變,比先前預測的要多得多,。
基因組水平搜索所有種類突變,,還可以更深入分析人基因組中腫瘤相關(guān)基因數(shù)目。對癌相關(guān)基因突變的整體掃描可以回答許多問題,,如是否僅有少數(shù)幾個基因是大多數(shù)致癌突變的靶點,。目前,,考慮所有已知的顯著起作用的致癌基因和腫瘤抑制基因,人基因組中約1%基因參與癌癥發(fā)生,。最終可能會發(fā)現(xiàn)人基因組中5-10%或更多基因參與癌形成,。這種系統(tǒng)掃描可以鑒定出致癌主效基因并認識癌發(fā)生生物學本質(zhì),為治療,,診斷提供新的靶點,。
這三個計劃一個重要特征就是產(chǎn)生DNA序列數(shù)據(jù),無論是直接從基因組得到,,還是從轉(zhuǎn)錄物得到,。由于DNA數(shù)據(jù)是數(shù)字化的,因而它們能夠與來自其它實驗室數(shù)據(jù)集中建立數(shù)據(jù)庫,。將全世界的信息構(gòu)建成數(shù)據(jù)庫,,我們才能更好的推動癌癥研究,發(fā)現(xiàn)關(guān)鍵的生物學特征,,以用于改進發(fā)現(xiàn),,診斷和干預腫瘤發(fā)生的手段。
HCGP通過ORESTES產(chǎn)生ESTs具有中心偏愛性分布,,這與CGAP測序項目產(chǎn)生的3′ 和 5′ ESTs形成很好的互補。將這兩個轉(zhuǎn)錄物數(shù)據(jù)庫結(jié)合起來在效果上與鳥槍法類似可以覆蓋人轉(zhuǎn)錄物,。由于這兩個主要的癌癥相關(guān)轉(zhuǎn)錄物測序公共數(shù)據(jù)庫的互補性,,數(shù)據(jù)已經(jīng)整合到單一數(shù)據(jù)庫國際癌癥表達數(shù)據(jù)庫基因(International Database of Cancer Gene Expression),它可以從CGAP網(wǎng)頁上查到,。
轉(zhuǎn)錄物測序數(shù)據(jù)庫(CGAP和HCGP)與CGP突變鑒定方法的整合將全部實現(xiàn),。轉(zhuǎn)錄物測序數(shù)據(jù)直接用于CGP計劃,有助于鑒定人基因組基因結(jié)構(gòu),,這是CGP進行的先決條件,。考慮到每個項目提供的數(shù)據(jù)都是基于基因和序列,,將這些數(shù)據(jù)庫整合是可以做的,,主要的工作就是開發(fā)生物信息工具,可以鑒定基因突變與優(yōu)勢條件下表達模式之間的關(guān)系,。 發(fā)展方向
很顯然基因組產(chǎn)生大量數(shù)據(jù)信息將極大推動癌癥研究,。然而,如果沒有一個協(xié)議將這些數(shù)據(jù)統(tǒng)一起來,,它們將不能有效的被應用,。而且,開發(fā)利用這些數(shù)據(jù)需要整個科學界集體的智慧,。
因此,,我們的觀點是數(shù)據(jù)需要廣泛傳播,,與信息學工具集成以便于所有的科學家能廣泛利用。到目前為止,,CGAP與HCGP數(shù)據(jù)已經(jīng)通過CGAP網(wǎng)頁組合起來,,方便來自各個科學領域的研究人員查詢。到現(xiàn)在為止,,CGP重點是優(yōu)化高通量獲得數(shù)據(jù)的方法,,而不是與CGAP和HCGP數(shù)據(jù)整合,以集成的模式對外公布數(shù)據(jù),。然而這個計劃也需要通過一個集成的方便的平臺將數(shù)據(jù)對外發(fā)布,。在現(xiàn)階段還不清楚采用什么形式發(fā)布數(shù)據(jù),但隨著CGP數(shù)據(jù)增多,,它們將與CGAP與HCGP數(shù)據(jù)以集成模式發(fā)布,,采用統(tǒng)一的人基因組序列標準。那時,,想得到CGP數(shù)據(jù)的研究人員能直接與項目負責人聯(lián)系,。
與其他項目得到的數(shù)據(jù)整合,我們的目標是建立一個完整腫瘤分子數(shù)據(jù)庫?,F(xiàn)在遇到的最大困難就是將組織和腫瘤樣品定義的有關(guān)信息,,已知的腫瘤分子水平變化的信息(目前通常不在數(shù)據(jù)庫而是單獨出版)以及詳細臨床信息包括臨床試驗設計,病人反應和結(jié)果的信息進行整合,。以這種方式整合對數(shù)據(jù)進行整合將使基礎和臨床研究交融,,以便于整個腫瘤研究界能夠協(xié)同一致改善病人健康。