2月16日發(fā)表在《公共科學(xué)圖書館 綜合》 PLoS ONE 期刊上的一份研究報(bào)告稱康涅狄格大學(xué)的遺傳學(xué)家Mark Longo及同事發(fā)現(xiàn)由頂級(jí)公共測(cè)序機(jī)構(gòu)提供的測(cè)序結(jié)果構(gòu)建的基因組數(shù)據(jù)庫(kù)中的大約1/5的細(xì)菌,、植物和非靈長(zhǎng)類動(dòng)物基因組數(shù)據(jù)受到了人類DNA的污染,,樣品處理有可能是導(dǎo)致DNA數(shù)據(jù)庫(kù)廣泛污染的最主要原因,。這一研究報(bào)告引起了生物研究人員及各大權(quán)威媒體的高度關(guān)注,,《科學(xué)家》 The Scientist 雜志以及《自然》 Nature 雜志均在其官方網(wǎng)絡(luò)上第一時(shí)間對(duì)這一事件進(jìn)行了報(bào)道,。
Mark Longo等在報(bào)告中呼吁科學(xué)家們需更加努力以確保測(cè)序獲得的基因組不受到污染,,并應(yīng)對(duì)來(lái)自公共基因組數(shù)據(jù)庫(kù)的基因組進(jìn)行潛在污染檢測(cè),。
“基因組污染是一個(gè)大問(wèn)題,,但卻不是一個(gè)新問(wèn)題,,”加州大學(xué)進(jìn)化生物學(xué)家,、美國(guó)能源部聯(lián)合基因組研究所系統(tǒng)發(fā)育基因組學(xué)計(jì)劃負(fù)責(zé)人Jonathan Eisen說(shuō):“這篇論文或可幫助提醒人們注意這一問(wèn)題。”
污染有可能在測(cè)序的任何一個(gè)階段導(dǎo)入到基因組序列中,。有可能是空氣中的細(xì)菌落到了樣品中,,或是滅菌后仍殘留在試劑中的DNA片段。但最常見的污染原因則可能是科學(xué)家自身,,譬如在擴(kuò)增前將自身的一個(gè)細(xì)胞落入了樣品中,。
“研究人員戴手套進(jìn)行實(shí)驗(yàn)操作不僅是對(duì)自身的保護(hù),并且也可避免樣品受到自身的污染,,”論文的作者之一,、康涅狄格大學(xué)分子遺傳學(xué)家Rachel O'Neill說(shuō)道。
O'Neill實(shí)驗(yàn)室的一位大學(xué)生在對(duì)基因組數(shù)據(jù)庫(kù)進(jìn)行保守序列篩查時(shí),,興奮地發(fā)現(xiàn)大量物種間均存在一個(gè)相同的序列,。然而當(dāng)他嘗試在實(shí)驗(yàn)室重復(fù)這些結(jié)果時(shí)卻失敗了。這位學(xué)生不禁開始質(zhì)疑數(shù)據(jù)庫(kù)基因組是否存在污染,,于是他與實(shí)驗(yàn)室的同事合作對(duì)四個(gè)公共數(shù)據(jù)庫(kù)(UCSC Genome Browser數(shù)據(jù)庫(kù),,NCBI的GenBank數(shù)據(jù)庫(kù),DOE Joint Genome Institute數(shù)據(jù)庫(kù)以及Ensembl)中保存的所有非靈長(zhǎng)類基因組進(jìn)行了人類特異性重復(fù)序列Alu元件的篩查,。
在搜索的2057個(gè)原始序列基因組中,,研究人員發(fā)現(xiàn)有454個(gè)存在人類Alu元件序列的污染,約占總數(shù)的22.39%,。“我們發(fā)現(xiàn)污染的水平高到足以應(yīng)引起人們注意的程度,,”O'Neill說(shuō);“而這還僅只是來(lái)自于人類的污染,,可以想象會(huì)有多少來(lái)自實(shí)驗(yàn)室常見物種例如大腸桿菌等的污染存在,。”
Eisen指出:“大量論文曾報(bào)道過(guò)物種間的水平基因轉(zhuǎn)移,如今不禁讓人質(zhì)疑是否都僅是人類DNA污染數(shù)據(jù)所致,。人類污染的頻率將要求科學(xué)家們不得不完成一些超過(guò)標(biāo)準(zhǔn)的實(shí)驗(yàn)以確證他們的實(shí)驗(yàn)結(jié)果,。”
“當(dāng)涉及到人類測(cè)序時(shí),高水平的序列污染有可能會(huì)引發(fā)嚴(yán)重的后果,,”O'Neill說(shuō):“在一個(gè)魚樣本中找到Alu元件非常的簡(jiǎn)單,。但是在一個(gè)人類樣本中尋找另一個(gè)人的樣本就非常的困難。根據(jù)如此高污染的序列來(lái)決定個(gè)體化治療的策略有可能會(huì)導(dǎo)致難以想象的悲劇,。“
“隨著研究的不斷推進(jìn),,科學(xué)家們必須投入更多的資金進(jìn)行質(zhì)量控制,,然而在追求研究數(shù)據(jù)的壓力下質(zhì)量控制的重要性卻被人拋諸在了腦后,”Eisen說(shuō):“如果每個(gè)人都能意識(shí)到數(shù)據(jù)質(zhì)量的重要性將會(huì)有多好啊,,但是目前這似乎很難做到,。”(生物谷Bioon.com)
生物谷推薦原文出處:
PLoS ONE 6(2): e16410. doi:10.1371/journal.pone.0016410
Abundant Human DNA Contamination Identified in Non-Primate Genome Databases
Mark S. Longo, Michael J. O'Neill, Rachel J. O'Neill*
Department of Molecular and Cell Biology, University of Connecticut, Storrs, Connecticut, United States of America
Abstract
During routine screens of the NCBI databases using human repetitive elements we discovered an unlikely level of nucleotide identity across a broad range of phyla. To ascertain whether databases containing DNA sequences, genome assemblies and trace archive reads were contaminated with human sequences, we performed an in depth search for sequences of human origin in non-human species. 1Using a primate specific SINE, AluY, we screened 2,749 non-primate public databases from NCBI, Ensembl, JGI, and UCSC and have found 492 to be contaminated with human sequence. These represent species ranging from bacteria (B. cereus) to plants (Z. mays) to fish (D. rerio) with examples found from most phyla. The identification of such extensive contamination of human sequence across databases and sequence types warrants caution among the sequencing community in future sequencing efforts, such as human re-sequencing. We discuss issues this may raise as well as present data that gives insight as to how this may be occurring.