基因組測序技術(shù)的發(fā)展,,促使越來越多個體基因組序列被測定,,不知大家有沒有留意過這些樣品來源的志愿者,,不過現(xiàn)在Whitehead生物醫(yī)藥研究院的一組研究人員指出通過簡單的網(wǎng)絡(luò)搜索,,就可以找到這些捐贈DNA的匿名志愿者了。
這項發(fā)表于1月18日Science雜志上的研究成果引發(fā)了諸多爭論,,作者認(rèn)為,,讓科學(xué)家們難以利用到個人基因組資料,會阻礙科學(xué)的進(jìn)步,,其實重點應(yīng)該在于教育捐贈者有關(guān)遺傳學(xué)研究的風(fēng)險和好處,,并且制定恰當(dāng)使用這些遺傳學(xué)信息的法規(guī)。
領(lǐng)導(dǎo)這一研究的是Whitehead生物醫(yī)藥研究院計算遺傳學(xué)家Yaniv Erlich,,他表示,,參與公共測序項目的志愿者們一般都被告知,這種匿名性并沒有100%的保證,,但其身份被泄露的風(fēng)險很小,,可以忽略不計。
然而,,在一篇發(fā)表于2005年的華盛頓郵報新聞中,,一個十幾歲的男孩通過在線族譜搜索工具,找到了其精子捐贈的父親,,這說明這種風(fēng)險性可能還是比較高的,。這篇新聞報道稱,這個男孩將其DNA樣品提交給了一個家譜搜索服務(wù)部門,,后者利用男孩的Y染色體中的重復(fù)序列,,在自己的序列數(shù)據(jù)庫中尋找相匹配的人,雖然這個搜索并沒有直接找到他父親,,但是卻搜索出了兩名同姓的男子,。追蹤這個信息,男孩就能找到并聯(lián)系上他的父親,。
“我們聽說了這個故事,就想,,哇,,這可能是對個體基因組(隱私)的一個威脅,”Erlich說,。
為了驗證要找到DNA捐贈者的身份是否十分容易,,Erlich研究組研發(fā)了能從全基因組序列中檢索Y染色體重復(fù)的軟件,通過尋找這些重復(fù)序列,,他們就能進(jìn)行家譜搜索了,。“然后我們就想,嘗試一下Craig Vente的基因組搜索吧,,結(jié)果它起作用了,!”
研究人員在Ysearch.org中搜索可用的家譜序列數(shù)據(jù)庫,,果然,通過這一迄今為止最強(qiáng)的匹配,,他們找到了來自英格蘭林肯郡的Venter,,將這個姓氏,與Craig Venter的年齡和居住地結(jié)合起來(這兩種信息一般與匿名人基因組序列一起公布),,然后研究人員利用網(wǎng)上公開記錄,,USsearch.com,就將范圍縮減到了兩個人,,其中一個就是Craig Vente,。
之后他們通過進(jìn)一步以實驗,利用他們的軟件搜索DNA序列的志愿者,,通過年齡和所在地的匹配對每一個姓氏可能的個人進(jìn)行了確認(rèn),,結(jié)果確定了大約50名志愿者的身份。Erlich說,,“最重要的一點,,是一切都公開。我們沒有入侵任何數(shù)據(jù)庫,,我們也不需要任何特殊的密碼,。”
雖然要識別某個人的身份的幾率依然很低,但是這項研究提出了是否還需更多注意捐贈者意思的問題,,不過來自哈佛醫(yī)學(xué)院的遺傳學(xué)教授George Church(未參與該項試驗)表示,,這沒有多大意義,“可以嘗試修改協(xié)議”,,比如保留參加者年齡等信息,,“但是這只是蒙上一層紗布,最終還是很容易找到他們,,”他說,。(生物谷Bioon.com)
DOI: 10.1126/science.1229566
PMC:
PMID:
Identifying Personal Genomes by Surname Inference
Melissa Gymrek1,2,3,4, Amy L. McGuire5, David Golan6, Eran Halperin7,8,9, Yaniv Erlich1,*
Sharing sequencing data sets without identifiers has become a common practice in genomics. Here, we report that surnames can be recovered from personal genomes by profiling short tandem repeats on the Y chromosome (Y-STRs) and querying recreational genetic genealogy databases. We show that a combination of a surname with other types of metadata, such as age and state, can be used to triangulate the identity of the target. A key feature of this technique is that it entirely relies on free, publicly accessible Internet resources. We quantitatively analyze the probability of identification for U.S. males. We further demonstrate the feasibility of this technique by tracing back with high probability the identities of multiple participants in public sequencing projects.