俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪

家用DNA测序:怎么花5万美元安装这样的仪器

大家好,我叫亚历山大•索科洛夫,是一名来自俄罗斯的量子密码学专家。我在此想跟大家讲一下如何在家里制造一台DNA测序仪,解译脱氧核糖核酸(DNA)信息。这样一台机器的市场价差不多是5万美元。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图1:读取DNA信息的核心部件
先简单讲讲“基因”这个东西。在2003年,科学界发布了一则轰动一时的声明:科学家终于解码了人类基因组。这就是众所周知的“人类基因组计划”,这项伟大的国际项目耗费了30亿美元,这个项目让读取DNA信息得以实现。人类的基因组由DNA组成,DNA即是生物体的源代码(或者说是构建基础)。DNA是由4种不同核苷酸组成的双螺旋结构(腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶),这些核苷酸在人类基因组中会重复排列约30亿次。像电脑存储的所有信息都是由二进制数字编译而成一样,生成所有人类蛋白质的指令信息编译在核苷酸中。如果我们知道了核苷酸在DNA序列中是如何排列的,理论上讲,我们收集到所有所需的蛋白质信息,并能得到一个人的物质构成。事实上,科学家并没有解码DNA。他们只是把化学物质序列在电脑上转译成了一组0和1的组合。到目前为止,我们只能理解5%的基因组信息;我们只能尝试猜测剩下的95%的信息。
第一个人类DNA测序的花费约1亿美元。发展到如今,原本的天文数字降低了很多,现在花费差不多是1千美金。客户付费后,他的DNA就会被测序,然后实验室会给他一个装有3GB信息的硬盘,里面存储了个人的以数码形式存储的基因组信息。
目前,市面上有3种主流的测序仪。最为广泛应用的产品是Illumina公司开发的HiSeq,此产品通过荧光法可以提供最为廉价的基因组测序方式。其原理是通过激光束照射DNA,而后荧光标记的核苷酸会产生发光反应。测序过程会持续数日,此过程可以处理多个人的基因组。仪器的购置成本约为1百万美元,因为这项技术过时了差不多3年时间(更新、更低价、更快的测序仪已经问世),所以这样一台机器每天要花1千美元才能物有所值。
市面上受欢迎程度次之的仪器是在几年前问世的。这个仪器是由Oxford Nanopore Technologies开发的Nanopore(纳米孔测序),其技术原理是通过纳米孔来测定DNA。DNA的信息通过蛋白质和电讯号来实现读取。Nanopore是目前市面上最廉价的仪器,其定位是一次性家用测序仪,其花费约为1000美元。
第三台仪器叫做个人基因组测序仪(PGM)的半导体测序仪,其花费约5万美元。基因组测序的过程仅需几个小时。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图2:个人基因组测序仪(PGM)
PGM测序仪是我比较后的选择结果,我需要这样一台仪器用作我的个人实验室。但因为我没有5万美元的预算,所以我决定自己来做这样一台测序仪。
在讲我的想法之前,我先简要解释一下半导体测序仪是如何工作的。一条DNA链条可以拆分为若干300-400个核苷酸构成的片段。这些片段我们称之为序列,这些序列片段会与亚克力微球连接,并会多次复制。基因序列的复制是必要的,这样可以增大每个特定序列的信号强度。如此一来,我们就得到了一份“连接在”小球上的特定的DNA片段。一整套这样的小球集合可以称之为DNA文库。
PGM基因测序仪的核心是一种抛弃式芯片,即感应原件。这个感应原件与相机的感光元件相似,不同之处在于,感光元件的像素点对光会产生反应,而它通过晶体管对PH值的变化起反应。上文所述的DNA文库会被加载在含有上千万个反应池的芯片上,每个反应池的底部有一个PH感应晶体管。一个DNA小球对应一个孔位,也对应一种基因序列(即一个特定的核苷酸排序)。芯片上会加入适当的试剂,以便DNA可以以线性方式复制。新产生的DNA单链上的核苷酸会按照原始DNA链条上的顺序排列。如此下来,单链的DNA会在芯片上产生,而随之在反应池中发生的PH值的变化会被逐一记录下来。这一过程表示核苷酸在聚合进来。不同的核苷酸进入芯片的时候,这种状况会再次发生,反应池中的PH值变化也会被记录下来。所以,通过向芯片添加4种核苷酸的方式,可以获取每个DNA序列的核苷酸排列信息。通过运算处理,短链的DNA序列可以在电脑中组合为一条完整的DNA链条。为提高准确率,每个序列的检测次数约为100次。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图3:半导体测序
如上文所述,这样一台仪器包括了一个芯片,试剂补给系统,以及主板(检测系统)。测序流程由芯片完成,仪器其余的部件负责传输特定信号、补给试剂、读取来自芯片的模拟信号,将其数字化并将其产生的信息流传递给电脑,数据将在电脑中被存储和处理。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图4:测序仪
芯片是抛弃式的,一次使用后就会作废。这样的芯片可以在有PGM测序仪运转的地方不限量地免费获取。为什么我们需要这些芯片?事实上,我已经多次拿到并且使用了这样的芯片。实际上,这样的芯片是可以循环使用的。这样的芯片可以通过清洗,并清除反应池中带DNA序列的小球,你就可以循环往复地使用这些芯片。如果清洗得当,多次使用的芯片处理出的结果和新芯片的结果并无差异。我的方案是,制造这样一台仪器,并使用这样的“免费芯片”。
因为无法获得芯片内部回路设计的文件,制造商也不会公布他们的商业机密,所以我只能逆向研发这个芯片。最开始,我采用了最普通最简单方法——使用万用表来检测接触点。通过这个方法,我搞清楚了数字信号及模拟信号是如何输入输出的,电源及其他元件在芯片上是如何排布的。有些信息可以从芯片的专利文件上获取,但是所有这些信息显然无法支撑制作一个完美的芯片。我把芯片研究了几遍,再检查了我输出的结果,然后用信号又做了一些实验。因为芯片是多层结构的,所以很难追踪触点的路径,所以我的研究很难进一步推进。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图5:使用万用表分析芯片
偶然机会,我看到了一篇由知名博主(@BarsMonster)撰写的关于逆向研发芯片的文章。我很受启发,给他写了邮件,也给那些跟文章有互动的对图像化处理芯片的狂热分子写了邮件。我咨询他们是否可以给我的芯片来分层拍照。他们的回复是否定的,因为他们没办法“打磨”芯片(微米级地一层层处理芯片)。他们只能对芯片的表面层来拍照。
我又见了一个美国工程师,他也对逆向开发芯片颇有研究。我把我的芯片寄给他,得到的同样是否定的回复:除了给芯片的表面层拍照,没办法得到进一步的信息。
后来,我在网上偶然读到一篇文章,文章讲到有一帮人可以拆解索尼电视游戏机PS的芯片。我给他们写了邮件问我的问题,然后很快发现我认识他们中的一个人。他介绍了一个“对基因研究也很着迷的业余爱好者”朋友。我们通过Skype通了电话,我了解到这个新朋友对逆向研发芯片有很强的实操能力,而且有意提供支持。但是他没有合适的显微镜。这样,我碰到了又一个阶段性困难。
几个月后,我在附近的一家实验室找到了能够满足分辨率需求的显微镜,但是内置摄像头的图片质量很不理想。我临时用手机的照相机通过显微镜的镜头拍了一张照片,拍照效果如下:

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图6:显微镜下的芯片
最后,我所工作的地方(量子中心)来了一台合适的显微镜。我终于可以获取高质量的图片,但是我还需要学习如何打磨芯片。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图7:我的工作显微镜
打磨芯片的难处在于,要在1厘米的作业范围内打磨掉厚度为1微米的金属层。这种精细程度可以比作是在测量1km的过程中需要避免10cm的误差。我的工作成果可以在图8中看到。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图8:光学显微镜下的逆向研发
硅片的最底层,晶体管层,第一层,第二层,第三层,第四层在显微镜下都看得很清楚。
芯片由很多(相同结构的)重复区构成,例如,移位寄存器。这样的话,分析图片就很方便了,如此一来,芯片的每个层面在发挥什么作用也变得清晰起来。我逆向分析出了“填满了”逻辑单元(交叉路径,晶体管,跨层过孔)的大部分结构,这些结构有很多的重复设计。最困难的部分是跟踪芯片上的路径,理解外部的触点如何与我已经逆向分析出的结构来连通的,什么样的信号需要使用在哪个面板。另外一个朋友用附近大学的电子显微镜帮我对芯片做了逐层的拍照。在1平方厘米的芯片上拍照,得到了50GB的黑白照片。
所有的照片需要整合进一张图片。我编写了一个Python程序,用图片生成了一个HTML文件。然后用Opera浏览器打开文件后,我就得到了想要的结果。顺便提一下,用老版的10代Opera浏览器也可以完成这个指令。我又用JavaScript编写了另外一个程序,用来比较图层,在不同的图层中导航,排列图层,选择比例,以及执行必要的指令。现在我已经有了解决主要任务(包括追踪穿刺芯片的路径,存储芯片的完整结构及晶体管)的所有工具。
在同一个研究所,我用X光机对芯片也进行了拍照(见图09):

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图9:电子显微镜下的芯片照片
反应池,也就是载有基因序列的小球会附着的地方,变得清晰可见。在反应池下,有三层金属,金属层下有一层晶体管。
下一个任务是为芯片打造主板。我已经设计好,并已经交付生产。在等待主板的过程中,我使用了一个叫做Marsohod-2(FPGA设计)的主板。FPGA是一种由1万个通用逻辑单元组成的门列阵。使用FPGA编程,我们可以得到任何逻辑方案,从而轻松地处理千兆位的信息。我给FPGA编写了固件,也为系统编写了动态管理软件。这便完成了FPGA的配置构建。
而后我的工作中断了半年,因为我需要准备一些公开的活动(论坛以及技术展),然后出差参加一个关于发光及激光物理学的国际学术会议,并做了一个有关量子密码学的报告。最后终于万事俱备,我拿到了主板,系统也组装好了。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图10:开发硬件
我把所有必要的信号都传导给芯片,再把信号从芯片传给示波器。这台示波器是花了100美元采购的最简单的示波器,固件另外花费了10美元,没想到的是,仪器可以识别信号绘制图像。通过示波器,我在屏幕上可以看到芯片传来的图像。图片可以清晰地展示斑点——某种试剂的红色液滴(见图11)。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图11:示波器读取芯片信号
现在我需要理清如何把图片进行数字化并传输到电脑。为此,我组装了如下的装置。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图12:仪器的电路

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图13:完成组装
一台电脑用于向FPGA主板提供控制数据。主板产生数字信号,并将信号传输给芯片。芯片传出信号到放大器,然后传输到主板上的模数转换器(ADC)。数字化的信息会通过COM端口传输到电脑。整体而言,COM端口的通量很小 (约11前比特每秒)。而一个芯片就会有1百万到1千万个“感应点”,最高的传输速率是115,200波特。因此,图片显示在电脑上需要1.5分钟,从照片(图14)中可以清楚地看到,当DNA文库加入到芯片后,芯片不能被同步均匀地填充,至少芯片的边缘部分是不能实现的。颜色的不同是由不同的PH传感器上的不同电压造成的。这样,我们可以清楚地分辨哪些小孔是干净的。在后面,这个步骤可以帮助我们来控制芯片的清洗。
这个步骤与完成后,我们需要清洗芯片。这个步骤非常必要,以便旧芯片可以像新芯片一样使用。刚好,我有另一枚新的芯片作为参照物(图14)。我用不同PH值的介质进行了实验,得到了满意的结果。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图14:冲洗芯片
图片14A中,我们可以看到新芯片的活跃区差不多是同种颜色;垂直的重复色带是系统噪音。图14B中,这是一个清洗不佳的使用过的芯片,这个颜色比较混乱。图14C是一个使用过的未清洗过的芯片,在芯片的边缘,蓝色区域完全没有DNA填充,是可见的。图14D,芯片是使用过的,但是清洗处理得比较好。可以看到渐变和边缘都消失了。虽然如此,但是这也可以证明这样的芯片可以像新的芯片一样使用。
鉴于DNA文库在酸性环境下(低PH值)易附着于芯片 钽涂层,在碱性环境下(高PH 值)易于分离,芯片的清洗是通过半自动的移液器用不同的PH值的洗液清洗的(图14)。通过这一处理,我对芯片的清理可达到83%的清洁度。
你可能会问,“你完全明白芯片的结构,为什么你更愿意大费周章地清洗用过的芯片?为什么不自己制造芯片?”原因是,开发完整的芯片需要耗费很多资金,甚至高达数百万美元。很多资金会用于调试产品,调整、修改晶体管的所有参数,等等。简单的复制他们的逻辑设计是远远不够的。所有我要使用共享的软件,使用现成的设计,生产,以及调试,这样可以节省很多资金,削减这个项目的支出。
我的下一个任务是组装一个设备,用来高效地给电脑传输信息,而同时不需要大量的独立的印刷电路板(PCBs)。

俄罗斯技术宅教你如何花5万美元制作家用DNA测序仪
图15:开发下一个版本的仪器

我用了一个新的FPGA主板,同样的芯片,并配备2个Linux系统的ARM处理器,一个千兆位以太网,还有一些其他酷炫性能。和上一个版本实验不同的是,这次没有模数转换器(ADC)。随后,我设计了另外一个带有高速模数转换器以及其他必要元件的主板。我给FPGA编写了固件,给Linux编写了驱动,以此来实现与FPGA的通信。然后我又给Linux编写了一套程序,用于处理数据并将数据通过以太网传输给电脑。通过测试,这套设备运行状态很成功。
下一个任务是设计试剂补给系统。我有一台DNA合成器,所以事实上这个系统是要给合成器供给试剂。所以我的设想是把测序仪和DNA合成器组合为一台仪器。
下一步是倒入芯片试剂,校准仪器。试剂的价格非常昂贵,所以我找了志愿者来为我的仪器来合成核苷酸,以及合成DNA所需的保护基团,以提高测序的准确性。半导体测序仪最主要的弊端是,在碱基重复区域的准确性较低。举例来说,它很难分辨32个A(碱基)和33个A(碱基),因为信号的差异仅有3%。如果我们在一个核苷酸加入终止物,在一轮测序中一次只能聚合一个核苷酸。如果要加入另外下一个,即使是同种核苷酸,也需要用特殊的洗剂来冲洗芯片清除残留物质。这样会降低处理进度,但是会提高准确率。因此,同样一台机器可以使用两种模式:(1)测序模式;(2)合成模式。在测序模式下,机器可以运行(a)快速模式;(b)精确模式。
半导体测序的另一个弊端是其复杂的样本制备过程。我们需要把样本制作成乳剂,每一滴样本液只有一个DNA小球,只含有一个DNA片段。这样的一台分离器的售价约为数万美元。我们决定使用微流体芯片(芯片上有可以让液体通过的卡槽)来处理样本。目前,我们也是用这样的方式来做实验的。

在我的研究期间,我也意识到这样的测序仪有一点过时了;它的下一代产品是S5(赛默飞产品)。但是芯片已经完成了图片化处理,亟待逆向研发。还有很多数字化的处理工作,逆向研发需要花费一些时间。
还有一个备选的研究方向是Nanopore纳米孔测序。我希望可以组成一个生物物理学家团队,把这项技术进行更新,并降低测序的成本。

讲了这么多,我要说的是什么?我讲的是生物技术的未来,通过生物技术,可以对DNA进行测序和编辑并创造有某些特征的转基因生物,实现对克隆过程的校准,理解衰老的机理并在不远的将来实现长生不老。
很高兴跟各位志同道合的人分享这些信息,如果你有意以任何形式参与到这个项目中来,欢迎给我写邮件([email protected])。
感谢你的关注。