基因组de novo测序即从头测序,指不需要任何参考基因序列信息即可对某个物种进行测序。PacBio第三代单分子实时测序(SMRT)技术,基于长读长、无GC偏向和无PCR扩增等优势,有效解决了传统二代测序技术的组装难题,大幅度提升了基因组组装的各项指标。
能够跨越GC含量异常和高重复序列,实现reads覆盖的完整性和均一性;
大幅度提升Contig N50、Scaffold N50指标,填补复杂区域缺口;
实现更精确的基因组组装,为近缘物种的基因组差异分析提供了更好的解决方案。
基因组复杂程度 | 组装策略 | 测序策略 | 组装指标 |
简单基因组:
基因组大小<2Gb; 重复序列比例<50%; 杂合度<0.5%; 单倍体或二倍体。 |
二+三 | HiSeq PE250:450bp文库 ≥50X
HiSeq PE150:2、5Kb文库 ≥10X PacBio Sequel:20Kb文库 ≥40X |
Contig N50≥100Kb
Scaffold N50≥1Mb |
全三代 | 20Kb文库≥70X | Contig N50≥1Mb | |
复杂基因组:
基因组大小>2Gb; 重复序列比例>50%; 杂合度>0.5%; 多倍体。 |
二+三 | HiSeq PE250:450bp文库 ≥50X
HiSeq PE150:2、5、8Kb文库≥30X PacBio Sequel:20Kb文库 ≥50X |
由于基因组复杂程度不同,组装指标需根据样本的具体情况而定 |
全三代 | 20Kb文库100X-150X | ||
简单/复杂基因组 | BioNano
(可选) |
≥150X,最好达到200X | 提升scaffold组装指标 |
gDNA
450bp文库:总量≥2μg,浓度≥20 ng/μl
2、5kb文库:总量≥5μg,浓度≥30 ng/μl
20kb文库:总量≥30μg,浓度≥100 ng/μl
Illumina:450bp文库
2、5Kb文库
2、5、8Kb文库
PacBio:20Kb文库
PacBio完成耐旱植物复活草基因组测序
复活草极其耐旱,它具有通过脱水变成完全干燥、同时保持在有水时再复活的能力。研究人员采用三代测序(PacBio RS Ⅱ平台,P6-C4试剂盒,15-20Kb文库,32个SMRT cells,72X测序深度)测序数据为基础,二测测序(Illumina HiSeq平台,570bp、1Kb、3Kb文库,200X测序深度)评估三代组装子的错误率以及基因组的杂合度,并结合BioNano构建基因组图谱,对contigs进行anchoring和scaffolding的策略。研究人员组装获得了接近完成级的序列图谱,包括gene space都无gap,在基因组草图中很难获得的端粒、着丝粒、转座子元件级rRNA cluster都无gap。研究获得的复活草这一高度耐旱物种的基因组草图,可有效推动作物改良,为植物比较基因组学研究团队提供有价值的资源。
PacBio跨越复活草复杂区域
组装完成的复活草基因组结构
VanBuren R, Bryant D, Micheal TP, Mockler TC. Singe-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015 Nov 11. doi: 10.1038/nature15714.