技术简介

全基因组从头测序(de novo sequencing),不依赖已知的参考基因序列,便可对某物种的全基因组序列进行测定,然后借助生物信息学的方法,对所得序列进行拼接、组装,从而获得该物种的全基因组序列图谱。
随着高通量测序技术的发展,测序成本和时间的大幅度降低,全基因组从头测序已成为快速了解物种的一个重要途径。尤其与人类生存息息相关的一些物种,如水稻、玉米、家蚕、马铃薯等基因组图谱绘制的完成,标志着可以从基因组水平对这些物种的生长、发育、进化、起源等重大问题进行研究,从而对基础生物学、分子育种、遗传基因改良等方面的研究起到巨大的推动作用。

技术路线

利用illumina测序技术,构建插入片段大小为180bp、300bp、500bp、2Kb、5Kb、10Kb、20Kb等大小不同的测序文库,进行100bp/150bp/250bp的双末端测序。其中插入片段长度180bp、300bp和500bp为小片段测序文库,插入片段长度2kb、5kb、10kb、20kb为Mate-pair文库,长片段文库的构建便于基因组组装过程中重复序列的定位。当测序的总体深度达到100X以上时,即可保证基因组拼接所需数据及序列中单碱基的准确性。

生物信息学分析

1 基因组调查:评估基因组的GC含量、重复度、杂合度,并估计基因组大小。
2 基因组拼接统计:拼接统计包括原始数据统计、测序深度、Contig N50、Scaffold N50、基因组GC含量等。
3 基因组注释及基因功能分类:包括基因预测、功能注释、ncRNA注释、重复序列分析以及GO分类、KEGG通路分析。
4 比较基因组及进化分析:核苷酸水平共线性分析,氨基酸水平共线性分析,基因簇分析以及进化关系。
5 数据库的建立:将测序数据转换成符合国际标准的基因组数据格式,实现数据的共享和查询。

组装评估技术指标

基因组框架图 基因组精细图
基因组覆盖率>90% 基因组覆盖率>95%
基因区覆盖率>95% 基因区覆盖率>98%
Contig N50>5kb Contig N50>20kb
Scaffold N50>20kb Scaffold N50>300kb
单碱基错误率<0.01% 单碱基错误率<0.01%

相关案例分析

1、Locke DP, Hillier LW, et al., Comparative and demographic analysis of orang-utan genomes. Nature,(2011),469 (7331):529-33.
英国桑格研究所等机构的研究人员完成了对大猩猩基因组的测序,分析显示它与人类基因组的相似程度为98%,在进化树上两者分离的时间在约1000万年前。这一成果标志着科学界完成了对生物分类学上“人科”中包括人类在内所有四个属的基因组测序。
样本选择:大猩猩
测序策略:de novo测序
分析结果:
1.与人类分家最早的是红毛猩猩,它在约1400万年前分离,其基因组与人类相似度约97%;
2.随后大猩猩在约1000万年前分离,基因组与人类相似度约98%;
3.最晚分离的是黑猩猩,时间在约600万年前,它的基因组与人类最为相似,相似度高达99%。

样品要求

1、样品总量:小片段文库样本制备需要总量大于3μg的样品;Mate-pair文库(2Kb、3Kb、5Kb)样本制备需要总量8μg;保证实验质量及延续性,请一次性提供至少2次样本制备总量。

2、样品浓度和纯度:De novo文库样品浓度>200ng/μl;Mate pair文库样品浓度>50ng/μl ;OD值260/280应在1.8 – 2.0之间,无蛋白质、RNA或肉眼可见杂质污染。

3、样品质量:基因组完整、无降解,电泳结果基因组DNA主带应在入-Hind III digest最大条带23 Kb以上且主带清晰,无弥散。

4、样品保存:请保存于干粉、酒精、TE buffer或超纯水中,并请在样品信息单中注明。

点击添加文字