2012年8月21日 訊 /生物谷BIOON/ --一個(gè)美國(guó)研究小組利用DNA微芯片(DNA microchip)成功地編碼出一本5.27兆比特的書(shū)籍,,然后他們利用DNA測(cè)序來(lái)閱讀這本書(shū)。他們的實(shí)驗(yàn)證實(shí)DNA能夠被用來(lái)長(zhǎng)期儲(chǔ)存數(shù)字信息,。
來(lái)自哈佛大學(xué)維斯生物工程研究所(Wyss Institute for Biologically Inspired Engineering)的George Church和同事們將遺傳學(xué)家喬治-丘奇(George M. Church)撰寫(xiě)的大約有5.34萬(wàn)個(gè)單詞的書(shū)籍《再生》(Regenesis)編碼到DNA序列中,,連同一起的還有11張JPG格式的圖片和一段JavaScript程序。利用這種新方法所產(chǎn)生的數(shù)據(jù)是之前科學(xué)家們利用DNA編碼的數(shù)據(jù)的1000多倍,。
DNA是由核苷酸組成的,,而且在理論上,至少每個(gè)核苷酸能夠被用來(lái)編碼兩個(gè)比特的數(shù)據(jù),。這意味著這種數(shù)據(jù)密度是每立方毫米含有大量的1百萬(wàn)千兆比特(1 million gigabits)數(shù)據(jù),,而且只需四克DNA在理論上就能夠儲(chǔ)存每年創(chuàng)造出來(lái)的所有數(shù)字?jǐn)?shù)據(jù)。這要比諸如閃存盤(pán)之類(lèi)的數(shù)字儲(chǔ)存媒體所儲(chǔ)存的數(shù)據(jù)更加密集,,而且也更加穩(wěn)定,,這是因?yàn)镈NA序列在它們被編碼出來(lái)后上千年時(shí)間內(nèi)也能夠被讀出,。
在這項(xiàng)實(shí)驗(yàn)中,研究人員成功地利用短DNA序列而不是長(zhǎng)DNA序列來(lái)編碼數(shù)據(jù),,而這會(huì)降低寫(xiě)入和讀取數(shù)據(jù)的困難和成本。Kosuri博士說(shuō),,這種過(guò)程類(lèi)似于儲(chǔ)存數(shù)據(jù)到硬盤(pán)上,,其中在硬盤(pán)中,數(shù)據(jù)是被寫(xiě)入在被稱(chēng)作扇區(qū)的小硬盤(pán)塊中,。
他們首先將這本書(shū),、程序和圖片轉(zhuǎn)化為HTML格式的文件,然后將這些文件編譯為由0和1組成的大小為5.27兆比特的二進(jìn)制序列,。利用一個(gè)DNA核苷酸(即一個(gè)堿基)對(duì)應(yīng)一個(gè)比特,,這個(gè)5.27兆比特的二進(jìn)制序列按照順序被分布到多個(gè)96比特長(zhǎng)的核苷酸片段中。核苷酸A和C用0來(lái)編碼,,而核苷酸G和T用1來(lái)編碼,。每個(gè)核苷酸片段也含有一個(gè)19位地址來(lái)編碼這個(gè)段在全部序列中所處的位置。每個(gè)核苷酸片段被合成多個(gè)拷貝以便有助于校正錯(cuò)誤,。
在這本書(shū)和其他信息被編碼到DNA之中后,,DNA液滴被附著到微陣列芯片上以便儲(chǔ)存。這些芯片在 4°C下保持三個(gè)月,,然后它們被溶解和測(cè)序,。每個(gè)核苷酸片段的每個(gè)拷貝被測(cè)序高達(dá)3000次以便達(dá)成共識(shí)。利用這種方式,,他們降低這個(gè)5.27兆比特序列中的位錯(cuò)誤數(shù)降至只有12個(gè),。
這種實(shí)驗(yàn)程序刊登在《科學(xué)》期刊上。盡管它不能被用來(lái)儲(chǔ)存可重寫(xiě)的數(shù)據(jù),,但是能夠被用來(lái)特別長(zhǎng)期地儲(chǔ)存數(shù)據(jù),。利用DNA的一種優(yōu)勢(shì)就是更加密集的信息能夠被儲(chǔ)存,但是另一個(gè)主要優(yōu)勢(shì)在于DNA是一個(gè)生物分子,,而且它總是能夠在生物學(xué)上被讀取同時(shí)也不需要諸如CD或DVD的特殊設(shè)備,。
這種系統(tǒng)的主要劣勢(shì)在于在當(dāng)前,用來(lái)合成和測(cè)序DNA的技術(shù)非常昂貴從而使得它不能成為一種人們能夠日常使用的實(shí)用系統(tǒng),。另一個(gè)問(wèn)題就是盡管科學(xué)家們能夠?qū)χT如上千年歷史的木乃伊之類(lèi)的來(lái)源的DNA進(jìn)行測(cè)序,,但是DNA傾向于形成碎片,因此,,還需要開(kāi)展研究以便改善DNA在幾個(gè)世紀(jì)乃至更長(zhǎng)時(shí)間之后的穩(wěn)定性,。(生物谷Bioon.com)
本文編譯自DNA used to encode a book and other digital information
doi: 10.1126/science.1226355
PMC:
PMID:
Next-Generation Digital Information Storage in DNA
George M. Church1,2, Yuan Gao3, Sriram Kosuri
Digital information is accumulating at an astounding rate, straining our ability to store and archive it. DNA is among the most dense and stable information media known. The development of new technologies in both DNA synthesis and sequencing make DNA an increasingly feasible digital storage medium. Here, we develop a strategy to encode arbitrary digital information in DNA, write a 5.27-megabit book using DNA microchips, and read the book using next-generation DNA sequencing.