导读:现代的归档技术已无法跟上日益增长的信息海啸。但大自然可能早就有了该问题的答案。
DNA如何存储下整个世界的数据 对于英国欣克斯顿欧洲生物信息研究所(EBI)组长Nick Goldman来说,在DNA中编码数据的想法是从一个玩笑开始的。 2011年2月16号星期三,Goldman正在德国汉堡的一家酒店中,与他的一些生物信息学家同事谈论如何将大量现有的基因组序列和其他被世界遗弃的数据储存到DNA中。他记得,当时科学家们对传统计算技术的成本和局限性感到非常沮丧,他们开始用科幻的替代品开玩笑。“我们思考,是什么阻碍了我们使用DNA来存储信息?” 随后玩笑终止了。Goldman回忆道:“这是醍醐灌顶的时刻”。 的确,在硅存储器芯片中读取或写入数据方面,DNA存储与硅存储的微秒级时间尺度相比慢的可怜。人工合成特定模式的DNA字符串需要几个小时来编码数据,还要更多的时间去使用测序机恢复信息。但DNA将整个人类的基因组纳入到了一个肉眼看不见的细胞中。对于信息存储的纯粹密度,DNA可能超越了硅几个数量级—对于长期归档来说趋于完美。 Goldman回忆,当时他们拿着餐巾纸和圆珠笔坐在酒吧里,开始梳理想法:“想要实现该想法,你需要做些什么?”研究员最大的顾虑是往往每100个核苷酸就有一个1个DNA合成和测序错误。这将使大规模的数据存储变得完全不可靠——除非他们可以找到一个有效的错误纠正方案。他们能否以允许它们检测并纠正错误的方式,将信息编码到一个碱基对?在整个夜晚的讨论结束后,Goldman觉得他们找到了方向。 他和他的EBI同事Ewan Birney将该想法带入了实验室,且两年后宣布到他们已经成功的使用DNA编码了五个文档,包括莎士比亚的十四行诗和马丁·路德·金“我有一个梦想”演讲中的一部分。随后,生物学家George Church和他在马萨诸塞州,剑桥,哈佛大学的团队,推出了一个独立的DNA编码演示。但739千字节(KB)是EBI曾制造出的最大DNA档案文件——直到2016年7月,微软和华盛顿大学的研究人员宣称研究飞跃到了200兆字节(MB)。 传统的存储介质并非长远之计 最新的实验表明,使用DNA作为存储介质的兴趣远远出了基因组:整个世界正面临着一个数据压缩挑战。统计所有的天文图片和YouTube视频的期刊文章,到2020年,全球数字档案馆将达到大约44兆千兆字节(GB),相比于2013增长超过了十倍。2040,如果一切的东西都以即时访问的方式存储,如,用于记忆棒中的闪存芯片,存档将会比预期多消耗10 100倍的微芯片级硅。 这也是为什么很少被访问数据的永久档案,目前依赖于老式磁带的原因之一。这个媒介打包的信息可以比硅更密集,但阅读速度要慢得多。然而,在华盛顿DC的美国情报高级研究项目活动(IARPA)的计算神经科学家David Markowitz指出: 这种方法并非长久之计 。他说: '可以想象出磁带驱动器上有一个拥有艾字节(十亿字节)的数据中心会是什么样子。 但这样的一个中心将需要10亿美元资的金,以及10年以上的时间来建设和维护,还需要数百兆瓦的电力。Markowitz说道“分子数据存储有潜力将这些所有的要求减少三个数量级”如果信息可以被密集包装至存入到大肠杆菌的基因中,那么只要约一公斤的DNA就可以满足世界的存储需求。
要实现这种潜力并不简单。在DNA可以成为传统存储技术的竞争对手之前,研究人员将不得不克服许多挑战,从在DNA中可靠的编码信息和只检索用户需要的信息,到使核苷酸字符串足够便宜且迅速。 但是,迎接这些挑战的努力正在加快。半导体研究公司(SRC),在Durham,北卡罗莱纳的一个基金会——由芯片制造企业联盟支持,正重返DNA存储研究工作。Goldman 和Birney有英国政府拨款研究下一代DNA存储方法,并计划成立一个公司来进行他们的研究。在4月份,IARPA和SRC举办了一场针对学术界和产业界研究人员的研讨会,包括来自如IBM公司,和直接研究该领域的研究人员。 SRC主任和首席科学家Victor Zhirnov说道: “十年来,我们一直在寻找超越硅的数据归档。” “这是很难替代的。但是,DNA,是最强的候选人之一,看起来可能会发生。” 长期记忆
第一个详细规划数字数据1和0到四个DNA碱基对的人是艺术家Joe Davis,在1988年与来自哈佛大学的研究人员合作,它们插入到大肠杆菌中的DNA序列仅编码35位。当组成一个5 7矩阵时,1对应于暗像素而0对应亮像素,他们形成了一幅古日耳曼符文代表着生命和女性地球的画面。 如今,Davis隶属于 Church实验室,它在2011开始探索DNA数据存储。哈佛大学的研究小组希望应用程序可以有助于降低合成DNA的成本,因为基因组学降低了测序的成本。Church在2011年11月与Sri Kosuri(现在在加利福尼亚大学,洛杉矶)和基因组学专家Yuan Gao(现在在巴尔的摩马里兰州的约翰霍普金斯大学)进行了概念证明实验。研究小组使用许多短DNA序列编码一个659 kb版本的书(由Church共同撰写)。每个字符串的一部分都是一个地址,该地址指定了测序后碎片应该如何安排,还有其余包含的数据。二进制0可以通过碱基腺嘌呤或胞嘧啶进行编码,而二进制编码1可由鸟嘌呤胸腺嘧啶表示。这种灵活性有助于团队进行序列设计时避免读取问题,它可在含有大量鸟嘌呤和胞嘧啶的区域发生,部分地区重复发生,或连接到另一个使字符串折叠延伸。他们没有严格意义上的错误修正,而是依赖于由每个个体字符串的多个复制品提供的冗余。因此,测序后的字符串中,Kosuri,Church和Gao发现了22个错误——离可靠的数据存储还差很远。 在EBI,与此同时,Goldman,Birney和他们的同事也用了许多DNA字符串编码他们的739 KB数据存储,其中包括一个图像,ASCII文本,音频文件和Watson和Crick PDF版的标志性论文——DNA的双螺旋结构。为了避免重复碱基和其它的误差源,EBI领导的团队使用了一个更复杂的方案。一方面涉及到不像二进制编码数据1和0,而是三个碱基——相当于0,1和2。然后,他们不断旋转,其中的DNA碱基代表每一个数字,以避免在读取过程中可能导致问题的序列。通过重叠。100-碱基-长度字符串由25个碱基逐步转移,EBI科学家也保证会有四个版本——每个有25-碱基的部分,用于错误检查和彼此对照。 但最终的结果是,他们还是失去了25个碱基序列中的2个——凑巧的是,这两个文件正好是Watson和Crick的部分文件。然而,这些结果说服了Goldman,DNA有潜力作为一个便宜的、长期的数据存储库——只需要很少的能量存储。为了衡量什么是长期,他指出了2013公布的马基因组——从一个被困在冻土700000多年的骨头中解码出。他说:“在数据中心,三年后没有人会相信一个硬盘”。“在最多十年后,没有人会相信磁带。你想要一个比这更安全的复杂品 ,一旦我们可以得到那些DNA上写的东西,你就可以把它放在一个洞穴,而且在到你想读它之前都可以不用管它。” 一个新兴的领域
这种可能性已经吸引了计算机科学家Luis Ceze(来自华盛顿大学)和Karin Strauss(在华盛顿,雷德蒙德微软研究院),自从他们在2013参观英国时听到Goldman讨论EBI工作后。Strauss说到:“DNA的密度,稳定性和成熟度使我们很兴奋”在他们返回华盛顿后,Strauss和Ceze与华盛顿大学的合作者Georg Seelig开始了研究。他们的主要关注点之一是另一个主要的缺点——远远超越了DNA对于错误的脆弱性。使用标准的排序方法,在不检索所有的数据情况下,根本没有办法可以检索其中任何一块的数据:每一个DNA链都要被读取。这比传统的计算机内存更加麻烦,传统的计算机内存允许随机存取:有能力只读取一个用户需要的数据。 四月初,团队在佐治亚州亚特兰大召开的会议上概述了其解决方案。研究人员开始从他们的DNA档案中提取微小样本。然后,他们使用聚合酶链反应(PCR),以确定和作出更多的字符串复制品以编码他们想提取的数据。复制品的扩散使得测序比以前的方法更快,更便宜,更准确。该小组还设计了一个替代的纠错方案,组织表示允许数据编码为EBI的两倍重,但但一样可靠。 微软 华盛顿大学研究人员示范存储了151 KB的图像,在一个单一的字符串池中,一些使用EBI的方法编码而一些使用他们的新方法编码。他们采用类似EBI的方法提取了三个东西,—只猫、悉尼歌剧院和卡通猴,得到一个他们需要手动纠正的读取错误。他们也使用了他们的新方法读取悉尼歌剧院的图片,没有发现任何错误。 经济学与化学 在伊利诺伊大学香槟分校的计算机科学家Olgica Milenkovic和她的同事们已经开发了一个随机访问方法,同样确保了他们可以重新写入编码数据。他们的方法将存储数据为长的DNA字符串,在其两端都有地址序列。研究人员用这些地址进行选择、放大并使用PCR或基因编辑技术CRISPR Cas9重写字符串。 地址必须避免妨碍阅读的序列,同时彼此也要有足够的不同,以防止他们在出现错误的时候被混淆,并避免如由于他们的序列包含延伸识别和绑定到对方(采取了加强计算)导致的分子折叠问题。Milenkovic说道“开始时,我们使用计算机搜索,因为真的很难想出拥有所有这些属性的东西” 她的团队现在已经用数学公式取代了这个劳动—密集的过程,使他们能够更快速地设计一种编码方案。 Kosuri说:“DNA数据存储的其他挑战是合成分子的规模和速度”他承认由于这个理由,他对该想法并不乐观。在哈佛大学的早期实验中,他回忆道“我们有700kb。即使是增加1000倍也才700兆,这是一个CD”真正在全球数据归档问题发挥作用意味着至少存储PB级的信息。“这并不是不可能的,”Kosuri说,“但人们必须意识到改进的规模是上百万倍。” Markowitz同意这不是一件容易的事。“占主导地位的生产方法是一个将近30岁的化学过程,添加到每个碱基它需要400秒以上的时间。”如果这是仍然使用的方法,他补充说:“数十亿的不同字符串必须以并行方式编写,速度才足够快。同时生产的电流最大值是数以万计的字符串。” 另一个重要因素是合成DNA的成本。它占了EBI实验费用12660美元的98%,测序只占了2%——由于人类基因组计划在2003年完成,成本降低了二百万倍。尽管这是先例,Kosuri不相信经济也可以同样带动合成DNA的进展。他说道“你可以很容易地想象出安排70亿人的市场,但不可能建立70亿人的基因组”。他承认,成本方面的一些改善可能是由于人类基因组计划(HGP—write在六月由Church和其他人提出的一个项目)造成的。如果有资助的话,该计划将旨于合成一个完整的人类基因组:23个含有32亿个核苷酸的染色体对。但即使HGP—write成功了,Kosuri说,“人类基因组只包含0.75 GB的信息,在面临合成实际数据存储的挑战方面就会显得相形见绌。” Zhirnov说道:“综合成本可以低于如今的水平数量级是件好事”“为什么成本高,这并没有根本的原因。” 今年四月,微软的研究做出了一个早期的举措,它可能有助于创造必要的需求,即从Twist Biosciences(加州,旧金山的一家DNA合成启动公司)订货了1000万字符串。Strauss和她的同事们说,他们一直在使用的字符串推动他们的随机存取存储方法到0.2GB。细节还未公布,但据报道,该档案包括了100多种语言中的人权宣言,100大古滕贝格项目图书和种子数据库。虽然该合成挑战相比于HGP-write所面临要小, 但Strauss 强调了在存储容量跳跃250倍的意义。 她说:“是时候锻炼一下我们处理大量DNA的肌肉,将DNA其推到更大的范围,并看看这个过程会在哪里被打断,”“实际上它在很多个地方都中断了——而我们正在学习一个伟大的想法解决它。” Goldman很有信心,这是一件令人享受的事情。“我们的估计是,我们需要100000倍的改进使这项技术成型,我们认为这是非常可信的,”“虽然过去的表现并不能保证,但每一年或每两年就有新的读取技术将投入生产。在基因组学中六个数量级不是什么大问题。你只是需要稍等一下。” Via:Nature
|