技术简介

外显子组是指全部外显子区域的集合,该区域对疾病及表型性状起着关键的作用。外显子组测序(Exome)是选择优先关注编码区的信息,运用目标序列捕获技术将全基因组中的全部外显子序列捕获并进行高通量测序的一种基因组分析技术。与全基因组重测序相比,外显子组测序只需针对外显子区域的基因序列测序即可,覆盖度更深、数据准确性更高,更加简便、经济、高效。

目标区域测序是指利用特制的探针对客户感兴趣的蛋白编码区域DNA或某段特定序列进行捕获,富集后进行高通量测序的基因组分析方法。该方法能够获得指定目标区域的遗传信息,极大地提高了基因组中特定目标区域的研究效率,显著降低了研究成本。通过目标区域测序,可以对候选位点或候选基因进行验证,也可以进一步找到候选区域或候选基因内的易感位点,适用于候选基因关联分析等研究。

技术路线

exon1

贝瑞和康公司提供外显子或目标区域从200k-70M的捕获芯片,可以满足不同客户的需求。对于全外显子测序来讲,比较适合基于家系(单基因遗传病)或散样(癌组织及其癌旁组织)的研究;在GWAS的后期研究经常需要对具有极显著的疾病或性状关联的区域进一步进行深度测序验证,以便筛选出与疾病密切关联的SNP位点以及其影响的基因。

将基因组DNA随机打断,选择180-250bp片段进行回收,采用液相杂交的方法对外显子或目标区域进行捕获,构建小片段测序文库,采用100PE的模式测序,经过base calling后,对测序数据进行数据产量统计以及SNP、InDel检测及注释。

信息流程

测序产生的数据经过质量控制,进入到信息分析阶段,信息分析流程图如下:

外显子组测序及目标区域捕获测序

信息分析

1,去除接头和低质量数据

2,数据与参考基因组的比对

3,进行数据产量统计分析、测序深度分析、覆盖度均一性分析

测序覆盖度分布是衡量测序均一性的重要指标,因此我们统计了测序覆盖度分布情况,并可视化的展示出来,如下图:

BJ0717_histPlot

横坐标表示捕获区域内的单碱基测序深度,纵坐标表示特定深度的碱基数占比,捕获区域内的单碱基深度符合正态分布。

BJ0717_cumuPlot

横坐标表示单碱基累积测序深度(即大于等于),纵坐标表示特定累积深度的碱基占总数的百分比。

4突变检测及注释

对外显子组等区域重测序是目前为止较为有效的检测符合孟德尔遗传的单基因遗传病的方法。我们基于测序产生序列与基因组参考序列的比对结果,采用samtools、GATK等软件Call snp和indel,然后运用ANNOVAR软件对snp,indel位点进行注释,确定 variant 位点对应的基因信息、同义非同义突变、对氨基酸的影响等信息。最后对注释到 variant 位点的基因进行GO和KEGG富集注释分析。

4.1SNP检测及注释

基于测序产生的序列与基因组参考序列比对的结果,我们采用samtools、GATK等软件检测SNP,然后过滤并筛选出可靠的SNP位点,用ANNOVAR软件对SNP位点进行注释,注释结果格式见下表:

2

4.2 indel检测及注释

基于测序产生的序列与基因组参考序列比对的结果,我们用samtools、GATK等软件检测indel,然后过滤并筛选出可靠的indel位点,用ANNOVAR软件对indel位点进行注释,注释结果格式同snp注释结果格式。

BJ0717_InDel_Distribution

indel长度分布图:横坐标表示indel长度,纵坐标表示对应长度indel的个数

4.3 GO注释分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。

BJ0717_indel_GO_Term

4.4KEGG富集分析

在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway 显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的 Pathway。我们使用KOBAS(2.0)软件对目标基因进行KEGG注释和Pathway富集分析,富集结果格式如下:

1

案例分析

Gao J, Xue J,et al., Whole exome sequencing identifies a novel DFNA9 mutation, C162Y: the first reported DFNA9 mutation in the intervening domain of COCH. Clin Genet. doi: 10.1111/cge.12006(2012)

目前发现的大部分罕见病和孟德尔遗传病致病基因处于外显子区域。因此,发现罕见病和孟德尔遗传病的致病原因,外显子组测序是一种非常有效的方法。本文研究者对一位迟发型耳聋患者的外显子进行测序,发现了DFNA9新的致病位点。

样品选择:一位迟发型耳聋患者的外显子

测序策略:外显子组测序,50Mb区域,每个样本8G数据量

分析过程:

  • 对1位迟发型耳聋患者样品的外显子组测序
  • 找到340个非同义突变
  • 结合已知信息,定位1个潜在致病位点(C162Y)
  • 对患者家庭里的19位成员、49例散发患者及152例普通人群样本进行测序,验证此位点位致病位点。

3

图为:中国家庭大肠癌和急性髓细胞性白细胞家谱

样品要求

  1. DNA样品总量:请一次性提供至少1μg高质量的基因组DNA。
  2. 样品浓度和纯度:样品浓度>20ng/μl;OD260/280介于1.8-2.0,无肉眼可见污染。
  3. 样品质量:基因组完整、无降解,电泳中DNA主带应大于23kb。
  4. 样品选择:对于植物样品建议选取黑暗培养的黄化苗或嫩苗;动物样品应选择肌肉、血等脂肪含量较少的组织进行取样。
  5. 样品保存:请选择干粉、酒精、TE或超纯水中进行保存。