测序数据离奇污染?看贝瑞基因抽丝剥茧,UDI“保真”建库一招制敌

一场呕心沥血的奋战

终于成就了集颜值与内涵于一体的DNA样本

于是承载着数日的心血与美好的愿景

被妥妥地送往测序公司

尽情施展它的ATCG

一切都似顺利

期盼结果如意

谁知偏偏

遭遇了外来物种

内心一阵阵呐喊

为何我堂堂水稻样本

却blast出了人、小鼠、山羊、细菌…

为了揪出入侵者的隐匿之处

我和测序公司强强联合

开展了一系列无死角侦查工作

提取:样本准备实验室无“外来物种”

建库:测序公司同一批样本中无“外来物种”

上机:测序公司同一条lane中竟存在人、小鼠、山羊、细菌文库

作为测序公司,对此该作何解释?!

 

1  究竟发生了什么?一个被忽视的“陷阱”

作为NovaSeq 6000早期的践行者,贝瑞基因自设备运行之初便严密关注数据污染问题,较早启动了相关研发测试工作。在测试过程中我们发现,以HiSeq3000/4000、HiSeq X Ten和NovaSeq为代表的测序平台在运行单index文库时均存在一定程度的样本间数据污染问题。尽管造成污染的可能原因有多种,如接头制备时的交叉污染、样品间的交叉污染、建库实验的交叉污染,以及捕获实验多杂一等,但真正让数据污染问题变得普遍到让人闻风丧胆的“罪魁祸首”,却是一个叫做标签跳跃(Index Hopping)的“新手”。众所周知,为提高测序产出通量,上述测序平台均采用了规则流动槽(Patterned Flow Cell Technology, PFCT)芯片和排他性扩增(Exclusive Amplification, ExAmp)成簇两种新技术,然而利剑有双刃,也正是这两个新技术使得pooling在一起的文库更容易发生标签跳跃,导致标签错配(Index Misassignment),进而造成样品间数据污染。该现象及其原理早在Illumina于2017年4月发布的官方白皮书中就有过详细介绍,但时至今日,这一问题似乎并未引起足够的重视。

图1  来自Illumina官方白皮书(详见以下链接)

https://www.illumina.com/science/education/minimizing-index-hopping.html

每个文库通过其独有的index实现数据拆分,传统的Illumina文库往往只引入一个index(通常是i7),那么对于单index文库,一旦发生标签跳跃,测序数据就会被错误分配。正如下图所示,“Normal Multiplexing and Alignment”中样本间index未发生交叉污染,同一批样本的数据就可以被拆分到一起。而“Index Hopping and Misalignment”中发生了标签跳跃,导致了在数据拆分过程中混入了“外来物种”。

图2  建库测序流程图

 

2  真相只有一个——看贝瑞如何“抽丝剥茧

标签跳跃如何发生?

为什么与规则流动槽、排他性扩增有关?

簇生成(clustering)是Illumina测序反应前必经的步骤,在HiSeq2500之前,簇生成采用我们熟知的桥式扩增方法,即是在flowcell表面以P5和P7 oligo为引物进行的PCR扩增过程。自HiSeq3000/4000和HiSeq X Ten系统开始,到最新的NovaSeq 6000,簇生成均采用了单分子在patterned flowcell nanowell当中进行的排他性扩增技术,由于这一扩增过程采用等温扩增原理,事实上扩增反应在pooling文库变性为单链而尚未loading进入nanowell时已经开始。

尽管传统文库出库前都有纯化步骤,但事实上其中总会有少量接头或接头二聚体残留,当文库被pooling在一起并经变性之后,残存的接头便可成为引物对文库进行等温扩增。如下图所示,由于不同单index文库的接头只在i7端位置不同,而临近DNA insert的read2 SP序列(对引物配对很关键的3’端)相同,这就使得sample 2文库残存的含index 2的接头作为引物可能错搭在sample 1文库分子上,由此扩增产生携带index 2的sample 1序列,由于单index拆分时无法区分这类序列和正确的sample 2测序序列,sample 2就此被sample 1数据串扰。事实上,同样的串扰事件在pooling在一起的文库之间大量交叉发生,其与文库类型和物种来源并无直接关系,可谓“六亲不认”,因此当一条lane pooling几十上百个文库时,这中间的串扰案情将无比复杂。

图3  使用常规index(左图)和UDI(右图)对测序数据的影响(图片来自IDT)

通过添加先进的双端序列标签(Unique Dual Index, UDI)构建文库,可以在数据拆分层面有效剔除串扰数据,即仅当i7和i5同时正确时(UDI设计当中,任何两个UDI不会共用相同的i7和i5)数据才被拆分,否则将被剔除到unknown data当中,最大限度规避数据串扰风险。

自2018年5月,贝瑞基因已经完成全线主流测序业务的UDI替换,包括WGS、WES、WGBS、RNA-Seq、lncRNA-Seq等凡是会在NovaSeq 6000系统上测序的文库,均已获得贝瑞精心设计的一套UDI的“贴身防护”,由此保障我们每一位客户的每一份样本“清清白白”。

 

3  有图有真相——见证贝瑞的“神级”表现

既然明白了文库中残留的接头是造成标签跳跃的元凶,我们就不难想象,什么样的文库更容易受到数据串扰影响。传统的文库构建流程往往包含PCR扩增步骤,并以PCR产物的纯化回收结尾,这类文库由于经过了PCR的指数级放大和最后一步纯化,即使再有接头残留,也已显得微不足道。相比之下,一直以来因无扩增偏好、覆盖更均一而备受推崇的PCR-free文库就没有这么好运,由于连接头后没有PCR扩增步骤,而是直接纯化出库,这就导致PCR-free文库当中的接头残留量相对远高于PCR文库,Illumina官方白皮书中也明确指出PCR-free文库更易受到数据串扰的影响(见图4)。

图4  PCR文库和PCR-free文库在不同测序系统上的标签跳跃情况

为了验证这一理论,我们将一例贝瑞UDI(编号308308,即i7和i5编号均为308)PCR-free WGS文库pooling在一条包含近50个文库的lane中,NovaSeq 6000上机测序,数据经双index流程拆分,仅当i7和i5序列均为308编号对应序列时,数据才会被归属到该样品下。我们特意去关注unknown当中的数据,发现存在大量i7为308、而i5为其他编号index的数据,而这些双index组合在建库时是完全不存在的,这表明这例PCR-free文库中残留的含308 index的接头大范围地串扰到了其他文库,要不是所有文库都有UDI“金刚护体”,恐怕又会惹出不少冤假错案。但即便如此,因串扰导致拆分率下降、有效数据损失过多仍然值得注意。从这个案例可以看到,index串扰现象,特别是在特殊类型文库(如PCR-free文库)当中,可谓触目惊心,必须引起广大科研工作者的高度警惕,并及时做出积极调整。

表  1例UDI PCR-free WGS文库的index串扰测试

注:表中只列出串扰占比前14位

 

4  授人以鱼不如授人以渔——作客户最贴心的伙伴

如果您也曾因数据被莫名污染而百思不得其解,因找不到真实原因而黯然伤神,因项目被延误而痛心疾首,如果您是第一次听说有index串扰这个问题,抑或是早有耳闻但未曾重视,相信读过此文,您至少可以站在一个新的视角,去重新审视过去数据遭遇的问题,尝试找到期盼已久的答案,享有来之不易的成果。

目前,如果您将样品交给贝瑞基因建库测序,您将直接享有贝瑞已稳定运行两个多月的UDI“保真”建库测序服务。

如果您希望在自己的实验室内完成UDI接头替换,并希望获取相关技术支持,我们同样为您准备了完整的解决方案,包括提供UDI Truseq接头替换试用装(前50位申请者将免费获得一组经过贝瑞内部测试可放心使用的UDI,详询当地销售),以及后续提供确有必要的一对一咨询服务和技术支持。

贝瑞基因旨在为每一位科研工作者的每一份样本提供“保真”建库测序服务,助力科研追求最真、最美。

因为专业,值得信赖。下一期,我们将为大家分享更加详实的贝瑞UDI测试结果,敬请期待。

0 回复

发表评论

想要加入讨论?
欢迎自由加入!

发表评论

电子邮件地址不会被公开。 必填项已用*标注