技术简介

基因组组装的难易程度是由基因组本身的结构决定的,主要包括基因组重复序列的长度及数量、基因组杂合程度、基因组大小、基因组 GC含量等因素。目前主流的二代测序平台产生的数据以及组装软件,还不能很好的处理复杂基因组的组装,而采用第二代与第三代测序技术相结合的基因组De novo测序策略,可以有效解决这一问题。将第三代单分子测序技术应用于动植物基因组de novo测序服务能有效解决二代测序方法所面临的高GC区域无法准确测定、高重复序列无法跨越、海量短序列组装困难等几大困扰。直接读取到的超长序列不仅给GC含量异常和高重复序列基因组组装提供了很好的帮助,而且能够大幅提高已有参考序列基因组的组装指标。基因组De novo测序结果再配合转录组测序数据对基因组进行注释,可得到更为精确的动植物基因组图谱。这不但令许多复杂基因组物种获得更精确的基因组参考序列,也为近缘物种的基因组差异分析提供了更好的解决方案。

基于PacBio单分子实时测序技术(SMRT)的三代测序,拥有超长测序读长、无PCR扩增偏好性、无GC偏好性等独特优势,组装结果中Contig N50/Scaffold N50/Assembly长度明显要长于二代测序短reads平台的组装结果。因此,三代测序已成为开展基因组De novo测序及基因组研究的重要趋势。

技术路线

幻灯片4

三代技术流程

幻灯片5

二代+三代技术路线图

产品优势

最高的N50组装指标

最少的contig数量

极大提高复杂基因组的组装质量

可以获得超高精度的基因组图谱

生物信息分析

基本分析

1、 数据质控:二代测序数据质控、三代测序数据质控;

2、 基因组 survey:利用二代测序数据进行 K-mer 分析以及基因组大小评估、基因组

杂合模拟分析、GC-Depth分析;

3、基因组组装:二代测序数据组装、三代测序数据组装、三代结合二代混合组装;

4、基因组特征统计:GC含量分析、测序深度分析、染色体区域覆盖度评估、基因区

覆盖度评估;

5、基因组组分分析:repeat 注释分析、基因预测、ncRNA注释分析;

6、基因功能注释分析:KOG 功能注释、GO功能注释、KEGG 功能注释、Swiss_prot

功能注释、Interpro注释、Nr/Nt 注释;

7、全长转录组分析 (需有全长转录组测序数据) :全长转录本检测、全长转录本聚类、

全长转录本比对数据库注释(Nr、Nt、Swissprot、KEGG、GO、KOG  和 Interpro) 、

编码蛋白框(CDS)预测。

高级分析

1、进化分析:基因家族鉴定、基因家族收缩&扩张分析、特有/共有基因分析、物种系统进化树构建、正向选择基因分析、物种分化时间计算(可选) 、直系同源基因鉴定、基因组共线性分析(需提供近缘物种基因组序列) 、全基因组复制分析;

2、全长转录组整合分析。

幻灯片1

案例分析

VanBuren R, Bryant D, et al., Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature.(2015),527(7579):508-11.

研究背景

Oropetium,属于禾本科,鼠尾草亚科、极其耐干旱,是目前已知最小基因组的草类,基因组大小为245M,基因组虽小却变化多端,具有28,466个编码蛋白基因和43%的重复序列,还有30%以上更紧凑的常染色体区域。使用常规NGS测序数据进行拼接,简直就是不可能的任务。

材料和方法

材料:耐旱草DNA

方法

三代测序

文库:20Kb SMRT bell文库

测序平台:PacBio  RS II,P6-C4试剂

测序深度:32个SMRT Cells,72X

二代测序

文库:570bp,1kb,3kb

测序平台:Illumina HiSeq

测序深度:300X

结果

1、采用PacBio三代测序数据对复活草基因组进行了近完成图的组装,基因组大小约 245Mb, PacBio RS II组装获得244Mb,即获得>99.6%的基因组序列信息;

2、 contigs数量仅265个, contig N50达到2.4Mb

3、对着丝粒及端粒附近基因的表达分析,复活草存在选择压力,充分证明了“基因组平衡假说”

4、该基因组组装策略也可应用于组装大型和多倍体植物以及其他真核生物基因组

幻灯片7

样品要求

幻灯片2