線粒體含有自身的遺傳物質(zhì),在人類的生命活動中扮演著重要的角色,。對mtDNA全基因組測定分析已成為醫(yī)學(xué),、分子人類學(xué)及法醫(yī)學(xué)研究中的重要手段。目前全球已有6700多個個體的mtDNA全基因組序列得到測定,,相關(guān)的數(shù)據(jù)保存在公共數(shù)據(jù)庫如GenBank中,,可供研究者進行重新分析和挖掘。由于各種原因,,某些測定的mtDNA全序列數(shù)據(jù)存在不同程度的錯誤,,后續(xù)的分析工作如果沒能充分剔除這些錯誤,而僅對數(shù)據(jù)庫中現(xiàn)有的數(shù)據(jù)不加選擇的進行分析,,有可能會得出錯誤的結(jié)論,。如近期Pereira等人發(fā)表的針對5140條人類mtDNA全基因組序列分析的文章(Am. J. Hum. Genet. 84, 628–640),,就受到這種問題的影響。
針對這種情況,,中國科學(xué)院昆明動物研究所姚永剛博士與德國Hans-Jürgen Bandelt教授,、西班牙Antonio Salas博士和英國Ian Logan博士進行了一項合作研究。該研究團隊通過分析GenBank數(shù)據(jù)庫中一些問題較多的數(shù)據(jù)集,,指出Pereira等人不加選擇地利用數(shù)據(jù)庫中的數(shù)據(jù)進行分析存在的多種問題,。在分析工作的基礎(chǔ)上,姚永剛等人就GenBank數(shù)據(jù)庫中問題較多的mtDNA全基因組數(shù)據(jù)開出了一個長長的名錄,,便于后續(xù)研究者在分析時剔除這些序列,。同時,姚永剛等人對研究者如何提高數(shù)據(jù)質(zhì)量提出了若干建議,,如向數(shù)據(jù)庫提交序列之前,,研究者應(yīng)該對數(shù)據(jù)進行仔細(xì)的檢查和精確的核對,避免錯誤出現(xiàn),。對存入數(shù)據(jù)庫中的序列,,如果發(fā)現(xiàn)錯誤,應(yīng)該及時更正并更新,。
該研究結(jié)果發(fā)表在國際著名學(xué)術(shù)期刊《美國人類遺傳學(xué)》(The American Journal of Human Genetics 85, 929–933, December 11, 2009),。(生物谷Bioon.com)
生物谷推薦原始出處:
The American Journal of Human Genetics Volume 85, Issue 6, doi:10.1016/j.ajhg.2009.10.023
mtDNA Data Mining in GenBank Needs Surveying
Yong-Gang Yao1, Antonio Salas2, Ian Logan3 and Hans-Jürgen Bandelt4, ,
1 Key Laboratory of Animal Models and Human Disease Mechanisms of Chinese Academy of Sciences & Yunnan Province, Kunming Institute of Zoology, Kunming 650223, China
2 Unidade de Xenética, Instituto de Medicina Legal and Departamento de Anatomía Patolóxica e Ciencias Forenses, Facultade de Medicina, Universidade de Santiago de Compostela, Galicia 15782, Spain
3 Exmouth, Devon, UK
4 Department of Mathematics, University of Hamburg, 20146 Hamburg, Germany