技术简介

全基因组重测序是对已知参考基因组序列的物种进行不同个体间的基因组测序,并在此基础上对个体或群体进行差异性分析。通过全基因组重测序,研究人员可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、结构变异(Structure Variation,SV)等变异信息,应用范围涉及临床医药研究、群体遗传学研究、关联分析、进化分析等众多领域。

随着测序成本的大幅度降低以及测序效率的数量级提升,全基因组重测序已经成为研究人类疾病及动植物分子育种最为快速有效的方法之一。以人类疾病为例,目前人类已知的疾病中,有4000多种疾病与人类的基因有关。利用全基因组重测序的方法,可以在全基因组水平上检测与疾病相关的突变位点、结构变异等信息,进而找寻攻克这些疾病的治疗手段,研发有效地治疗药物。

技术路线

全基因组重测序

利用物理方法将基因组DNA进行随机打断后,根据建库所需片段大小进行回收,利用标准的Illumina建库流程构建小片段测序文库,采用100PE的模式进行测序,总体的测序深度在30X,但根据不同的实验测序要求测序深度可以进行调整。

重测序技术相对于其他技术相比具有以下优势:

(一)除了可以获得基因表达区的信息,还能获得内含子、基因间区域的信息;

(二)能够分析样品基因组中大片段的结构变异。

信息分析流程

resequencing

信息分析内容

1.数据质控及统计

测序得到的raw reads,并不都是有效的,里面含有带接头的,重复的,测序质量低的reads,这些reads会影响比对和后续分析,对下机的reads必须进行过滤,得到干净有效的reads。

2. Clean reads和参考基因组比对与统计
2.1数据比对统计

由于有效数据量及数据比对情况对分析准确性有很大影响,所以在突变检测分析前,需要进行数据产出量统计、比对结果统计、以及对数据进行适当筛选,以有利于后续分析及结果的可靠性。

2 .2测序覆盖度分布

test1_histPlot

横坐标表示单碱基测序深度,纵坐标表示特定深度的碱基数占比,单碱基深度符合正态分布。

test1_cumuPlot

横坐标表示单碱基累积测序深度(即大于等于),纵坐标表示特定累积深度的碱基占总数的百分比。

3.突变检测及注释

基于测序产生序列与基因组参考序列的比对结果,采用samtools、GATK等软件Call SNP和indel;采用CNVnator软件call CNV;采用CREST软件call SV,然后运用SnpEff软件对SNP,indel位点进行注释,确定 variant 位点对应的基因信息、同义非同义突变、对氨基酸的影响等信息。最后对注释到 variant 位点的基因进行GO和KEGG富集注释分析。

3.1 SNP检测及注释

基于测序产生的序列与基因组参考序列比对的结果,我们采用samtools、GATK等软件检测SNP,然后过滤并筛选出可靠的SNP位点,用SnpEff软件对SNP位点进行注释,注释结果格式见下表:

4

3.2 indel检测及注释

基于测序产生的序列与基因组参考序列比对的结果,我们用samtools、GATK等软件检测indel,然后过滤并筛选出可靠的indel位点,用SnpEff软件对indel位点进行注释,注释结果格式同SNP注释结果格式。

3.3 GO注释分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(MF: molecular function)、所处的细胞位置(CC: cellular component)、参与的生物过程(BP: biological process)。

H8_Novel_GO_Term

横坐标为GO三个大类的下一层级的GO term,纵坐标为注释到该term下(包括该term的子term)的基因个数,3种不同颜色的柱状图表示Go term的三种基本分类。

topGO有向无环图(见下图)能直观展示差异基因富集的GO term及其层级关系。有向无环图为差异基因GO富集分析的结果图形化展示方式,分支代表包含关系,从上至下所 定义的功能范围越来越具体。对GO三大分类(CC细胞成分,MF 分子功能,BP生物学过程)的每一类都取富集程度最高的前5位作为有向无环图的主节点,用方框表示,并通过包含关系将相关联的GO Term一起展示,颜色的深浅代表富集程度,颜色越深代表富集程度越高。

test1_indel_BP_SigOfNodes

3.4KEGG富集分析

在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway 显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的 Pathway。我们使用KOBAS(2.0)软件对目标基因进行KEGG注释和Pathway富集分析,富集结果格式如下:

5

在富集结果中,我们给出了目标基因富集通路图的链接,用浏览器打开此链接后就能看见基因富集通路图,图中红色标记代表基因所在,小方框代表蛋白,红色的小方框代表目标基因对应的蛋白,鼠标悬停于该节点,会弹出相应的基因id。点击各个节点,可以连接到KEGG官方数据库中各个KO的具体信息页。

富集完成后,挑选前20个显著富集的term,统计富集上的基因数,可视化展示如下:

test2_snp_kegg

4高级信息分析
4.1 SV检测与注释

在真核生物的体内,染色体是遗传物质DNA的载体。当染色体的数目发生改变时(缺少,增多)或者染色体的结构发生改变时,遗传信息就随之改变,带来的就是生物体的后代性状的改变,这就是染色体变异。根据产生变异的原因,它可以分为结构变异和数量变异两大类。

CREST(Clipping REveals STructure) [1]是一种基于Split Reads的思想检测序列结构变异软件,它主要利用比对过程中的发现的Soft-clipping标识和位点深度信息进行检测,能够用来检测多种结构变异类型,并能比较准确的判断序列变异发生位点,在结构变异分析中具有很好的准确性和敏感性。

CREST主要检测的结构类型定义以及对应的图解参见下图:

6

CREST可检测结构变异的类型: A)染色体间易位( Interchromosomal translocation, CTX),不同染色体(红蓝两色各自表示一条染色体)之间发生的平衡易位产生两条交叉的染色体,不平衡的易位将只会保留一种交叉染色体;B,C,D是三种非染色体间的结构变异,其中上边的表示参考基因组( Reference Genome),下边的表示变异基因组(Altered genome);B)转置(Inversion, INV);C)染色体内易位( Intra-chromosome translocation, ITX);D)缺失(Deletion, DEL);E)插入( Insertion, INS)

CREST分析结果提供了一个信息明细的表格,每一行是一个结构变异,每一个变异都提供详细的注释信息,比如了结构变异类型(SV type),共有序列(Consensus sequences),变异位点信息和覆盖度信息,结果一共含有24列;每列说明见下表:

7

4.2 CNV检测与注释

CNV (Copy Number Variation) 是一种常见的基因组结构变异,这种变异大约可以覆盖12%的人类基因组区域。目前已发现不少可直接导致人类疾病或与疾病相关联的CNV,但也有很多CNV是作为一种多态存在于正常个体的基因组中的。所以研究生物个体的CNV既有助于发现新的遗传致病因子,亦有助于了解这种生物基因组的多态性水平与进化历程。

CNVnator是一种采取RD策略的工具,它可以检测到精确的拷贝数量,也可以检测到较大的插入片段以及位于复杂基因组区域的CNV。我们采用CNVnator检测CNV,得到CNV结果后,根据CNV变异在参考基因组上的位置信息,对比参考基因组的基因、CDS位置等信息(一般在gff文件中),对CNV进行注释,结果表格说明如下:

8

案例分析

Chen H, He H, et al., Development and application of a set of breeder-friendly SNP markers for genetic analyses and molecular breeding of rice (Oryza sativaL.).Theor Appl Genet. 123(6):869-879(2011)

SNP是植物基因组中存在最广泛的DNA标记。

样本选择:明恢63和珍汕97间的54,465 SNPs,以及明恢63和日本晴间的20,705 SNPs

测序策略:全基因组重测序

分析结果:

  • 找到了1,633个分布较好的SNPs。
  • 在这些SNPs中,对来源于全球22个水稻国家的300个代表性水稻自交系做了进一步分析,筛选到了372个SNPs。
  • 利用这一组SNPs,揭示出熟知的籼稻-粳稻亚种特异性差异以及籼粳稻的地域差异。
  • SNP结果揭示了籼粳稻品种中不同水稻染色体的单体型多样性中的一些共同和差异模式,该研究结果提示在水稻驯化和进化过程中,不同进化力可能在水稻基因组的特定区域起作用。
  • 结果证实这些SNPs在涉及籼-粳和粳-粳的水稻分子育种研究中可以作为大范围基因分型中用来锚定SNPs。9

图为:300个代表性水稻自交系筛选到372个SNPs

样品要求

  1. DNA样品总量:每次建库需要准备样品1.5μg,请提供2次制备的量。
  2. 样品浓度和纯度:样品浓度>20ng/μl;OD260/280介于1.8-2.0,无肉眼可见污染;基因组完整、无降解,电泳中DNA主带应大于23kb。
  3. 样品选择:对于植物样品建议选取黑暗培养的黄化苗或嫩苗;动物样品应选择肌肉、血等脂肪含量较少的组织进行取样。
  4. 样品保存:请选择干粉、酒精、TE或超纯水的保存方式。