2月16日發(fā)表在《公共科學(xué)圖書館 綜合》 PLoS ONE 期刊上的一份研究報告稱康涅狄格大學(xué)的遺傳學(xué)家Mark Longo及同事發(fā)現(xiàn)由頂級公共測序機構(gòu)提供的測序結(jié)果構(gòu)建的基因組數(shù)據(jù)庫中的大約1/5的細菌、植物和非靈長類動物基因組數(shù)據(jù)受到了人類DNA的污染,樣品處理有可能是導(dǎo)致DNA數(shù)據(jù)庫廣泛污染的最主要原因,。這一研究報告引起了生物研究人員及各大權(quán)威媒體的高度關(guān)注,,《科學(xué)家》 The Scientist 雜志以及《自然》 Nature 雜志均在其官方網(wǎng)絡(luò)上第一時間對這一事件進行了報道,。
Mark Longo等在報告中呼吁科學(xué)家們需更加努力以確保測序獲得的基因組不受到污染,,并應(yīng)對來自公共基因組數(shù)據(jù)庫的基因組進行潛在污染檢測。
“基因組污染是一個大問題,,但卻不是一個新問題,”加州大學(xué)進化生物學(xué)家,、美國能源部聯(lián)合基因組研究所系統(tǒng)發(fā)育基因組學(xué)計劃負(fù)責(zé)人Jonathan Eisen說:“這篇論文或可幫助提醒人們注意這一問題,。”
污染有可能在測序的任何一個階段導(dǎo)入到基因組序列中。有可能是空氣中的細菌落到了樣品中,,或是滅菌后仍殘留在試劑中的DNA片段,。但最常見的污染原因則可能是科學(xué)家自身,,譬如在擴增前將自身的一個細胞落入了樣品中。
“研究人員戴手套進行實驗操作不僅是對自身的保護,,并且也可避免樣品受到自身的污染,,”論文的作者之一、康涅狄格大學(xué)分子遺傳學(xué)家Rachel O'Neill說道,。
O'Neill實驗室的一位大學(xué)生在對基因組數(shù)據(jù)庫進行保守序列篩查時,,興奮地發(fā)現(xiàn)大量物種間均存在一個相同的序列。然而當(dāng)他嘗試在實驗室重復(fù)這些結(jié)果時卻失敗了,。這位學(xué)生不禁開始質(zhì)疑數(shù)據(jù)庫基因組是否存在污染,,于是他與實驗室的同事合作對四個公共數(shù)據(jù)庫(UCSC Genome Browser數(shù)據(jù)庫,NCBI的GenBank數(shù)據(jù)庫,,DOE Joint Genome Institute數(shù)據(jù)庫以及Ensembl)中保存的所有非靈長類基因組進行了人類特異性重復(fù)序列Alu元件的篩查,。
在搜索的2057個原始序列基因組中,研究人員發(fā)現(xiàn)有454個存在人類Alu元件序列的污染,,約占總數(shù)的22.39%,。“我們發(fā)現(xiàn)污染的水平高到足以應(yīng)引起人們注意的程度,”O'Neill說,;“而這還僅只是來自于人類的污染,,可以想象會有多少來自實驗室常見物種例如大腸桿菌等的污染存在。”
Eisen指出:“大量論文曾報道過物種間的水平基因轉(zhuǎn)移,,如今不禁讓人質(zhì)疑是否都僅是人類DNA污染數(shù)據(jù)所致,。人類污染的頻率將要求科學(xué)家們不得不完成一些超過標(biāo)準(zhǔn)的實驗以確證他們的實驗結(jié)果。”
“當(dāng)涉及到人類測序時,,高水平的序列污染有可能會引發(fā)嚴(yán)重的后果,,”O'Neill說:“在一個魚樣本中找到Alu元件非常的簡單。但是在一個人類樣本中尋找另一個人的樣本就非常的困難,。根據(jù)如此高污染的序列來決定個體化治療的策略有可能會導(dǎo)致難以想象的悲劇,。“
“隨著研究的不斷推進,科學(xué)家們必須投入更多的資金進行質(zhì)量控制,,然而在追求研究數(shù)據(jù)的壓力下質(zhì)量控制的重要性卻被人拋諸在了腦后,,”Eisen說:“如果每個人都能意識到數(shù)據(jù)質(zhì)量的重要性將會有多好啊,但是目前這似乎很難做到,。”(生物谷Bioon.com)
生物谷推薦原文出處:
PLoS ONE 6(2): e16410. doi:10.1371/journal.pone.0016410
Abundant Human DNA Contamination Identified in Non-Primate Genome Databases
Mark S. Longo, Michael J. O'Neill, Rachel J. O'Neill*
Department of Molecular and Cell Biology, University of Connecticut, Storrs, Connecticut, United States of America
Abstract
During routine screens of the NCBI databases using human repetitive elements we discovered an unlikely level of nucleotide identity across a broad range of phyla. To ascertain whether databases containing DNA sequences, genome assemblies and trace archive reads were contaminated with human sequences, we performed an in depth search for sequences of human origin in non-human species. 1Using a primate specific SINE, AluY, we screened 2,749 non-primate public databases from NCBI, Ensembl, JGI, and UCSC and have found 492 to be contaminated with human sequence. These represent species ranging from bacteria (B. cereus) to plants (Z. mays) to fish (D. rerio) with examples found from most phyla. The identification of such extensive contamination of human sequence across databases and sequence types warrants caution among the sequencing community in future sequencing efforts, such as human re-sequencing. We discuss issues this may raise as well as present data that gives insight as to how this may be occurring.