技术简介

转录组学(Transcriptomics)是一门在整体水平上研究细胞中基因转录情况及转录调控规律的学科。转录组(Transcriptome)广义上指某一生理条件下细胞内所有转录产物的集合,狭义上指所有mRNA的集合。转录组是连接基因组遗传信息与生物功能的必然纽带,转录组研究已经成为揭示生物生长发育调控和逆境胁迫适应机制、生物进化规律、疾病发生发展的重要机制以及发现致病基因调控的关键靶点等方面的最佳研究手段。

与传统芯片杂交平台相比,高通量测序平台无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的定量信息,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。

转录组测序(Transcriptome sequencing)可全面快速地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列,可以用于研究基因结构和基因功能、可变剪接和新转录本预测等。

技术路线

实验流程

RNA-seq_library_construction

提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA。加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H 和DNA polymerase I合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,使用建好的文库上机测序。

信息流程

rna_flow1

根据物种的参考基因组和基因信息,将RNA-seq测序所产生的数据mapping到参考基因组上,获得基因组上的各个基因的表达信息,然后对其进行基因注释,并进行更深入的Gene Ontology和KEGG pathway分析。根据客户要求,我们还可以进行高级的定制分析,对所测样本进行新基因的预测以及转录本可变剪切的分析、SNP分析、蛋白互作分析、基因融合分析等等更深入的分析。

信息分析

1、测序数据质量评估

1.1测序错误率分布检查

1.2 A/T/G/C含量分布检查

1.3 测序数据过滤

某些原始序列带有adaptor序列,或含有少量低质量序列。经过一系列数据处理去除杂质数据,得到Clean reads。

2、单样品分析

2.1 基本分析统计

原始产出的高质量数据,即clean reads,根据物种的参考基因组和参考基因信息进行mapping,并获得一个样本的基本统计信息。

2.2 Reads在基因组上的分布

统计Mapped Reads在基因组的CDS(Exon)、Intron、Intergenic等区域的分布,用于检测测序序列在基因组上的来源,正常情况下,Exon(外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron(内含子)区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能为基因组注释不完全以及背景噪音。

T.Region_Pie_Chart

统计各样本Reads在基因组上的密度分布,以及该样本表达的基因在基因组上的密度分布,用于检测染色体上测序序列分布的异常情况。

W.depth_Chr1_

2.3 基因饱和度分析

检测文库的基因饱和度,即对样本所有基因而言,随着测序数据量的增加,表达的基因数的变化情况。随机抽取10%、20%、30%…100%的测序数据,分别统计表达的基因数。该分析反映了基因表达水平定量对数据量的要求,表达量高的基因,就越容易被准确定量,反之,表达量低的基因,需要较大的测序数据量才能被准确定量。转录组测序根据不同物种转录组的大小,测序数据量从4Gb到8Gb不等。

T_saturation_covered_genes

T_saturation_RPKM

2.4 测序均一度分析

分析Reads在基因5’~ 3’区域分布情况,根据转录组建库实验的特点,转录本其产生的测序序列(reads)实际覆盖度的分布是距离转录本的5’端和3’端越近,平均测序深度越低,但总体的均一化程度比较高。因此利用总体均一度来评估文库质量,均一度越高文库质量越好,反之,越差。

T.randCheck_mRNA

2.5 基因表达及注释

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则基因表达水平越高。

T_RPKM_range

2.6 重复样本相关性检测

重复样品间基因表达相关性是检验实验可靠性和样本选择是合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。通常生物学重复要求R2> 0.8。

T_case_RPKM_W_ctrl_RPKM_reads_linear

2.7 基因结构的优化
2.7.1 5’端和3’端的延长

比对获得reads在参考基因组上的分布,将位置连续且重叠的read连接形成一个TAR(Transcript Active Region,如图黄色区域),每个位点的unique read覆盖度需大于或等于某个阈值(通常是2),再通过paired-end reads(图中黄色线条)将不同的TAR连在一起形成一个潜在的gene model,把gene model与已知的注释基因(图中紫色区域)比较,就可以延长基因的5’端或3’端(本图只延伸基因3’端)。

gene_model_end

2.7.2 novel exon的发现

比对获得reads在参考基因组上的分布,将位置连续重叠的reads连在一起形成一个TAR,再通过paired-end reads将不同的TAR连在一起形成潜在的gene model。我们通过比较gene model与现有的注释基因的差别,找到新的exon区域。

gene_model_exon

2.8 新基因预测

分析软件:tophat、cufflinks

现有数据库中对转录本的注释可能还不全面,通过高通量测序我们能检测到可能的新转录本,并利用NT,NR,SWISSPROT等数据库来对新的转录本进行注释,从而发现新基因。当然还需要实验进一步验证。

2.9 可变剪切分析

分析软件: spliceGrapper

可变剪切是指mRNA前体以多种方式将exon连接在一起的过程。由于可变剪切使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白。因此,通过可变剪切一个基因可能产生多个蛋白,极大地增加了蛋白多样性和生物调控方式的多样性。虽然已知可变剪切在真核生物中普遍存在,但我们可能仍低估了可变剪切的比例,而可变剪切分析即利用RNA-seq获得的转录本数据对样本可变剪切的方式与位置进行分析,可获得大量可变剪切信息。

目前,可变剪切主要分为四种:exon skipping(ES)、intron retention(IR)、Alternative 3′ splice site(A3)、Alternative 5′ splice site(A5)。其他几种如mutual exclusive exon(互斥外显子)占可变剪切的比例很小,而且检测准确性不高,因此不予考虑。

altersplice

T_altsplice_bar

2.10 SNP分析

分析软件: Bwa、samtools、annovar

单核苷酸多态性(single nucleotide polymorphism,SNP),指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。SNP分为转换和颠换两种,二者之比为1:2。SNP在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP是指变异频率大于1%的单核苷酸变异。InDel(insertion-deletion)是指相对于参考基因组,样本中发生的小片段的插入缺失,该插入缺失可能含一个或多个碱基。通常SNP分析包括SNP和InDel两种,SNP位点具体描述请参考

http://www.hgvs.org/mutnomen/examplesRNA.html

T_Genome_Region_Info

3、多样品差异分析
3.1 表达差异分析

分析软件:tophat、cuffdiff

差异表达分析找出在不同样本间存在差异表达的基因,并对差异表达基因做GO功能分析和KEGG Pathway分析。对于差异表达的筛选方法请参照(Audic S. et al, 1997)。

T_case_W_ctrl_DEG

3.2 表达差异基因GO分析

分析软件:topGO

GO(Gene Ontoloy)是基因本体论联合会建立的数据库,适用于各物种,对基因和蛋白功能进行限定和描述。根据GO数据库可以将基因按照它们参与的生物学过程,构成细胞的组分,实现的分子功能等进行分类。

3.2.1 差异表达基因的GO功能分析

差异基因的GO功能分析包括:一、GO注释,利用GO数据库中已知的基因和GO term对应关系,获得每个基因的GO信息;二、GO富集分析,利用GO term注释的差异基因,计算每个term的基因列表和基因数目,然后应用超几何检验,找出与整个基因组背景相比,差异表达基因中显著富集的GO条目,从而找出差异表达基因与哪些生物学功能显著相关。

T_case_vs_W_ctrl_Up_GO_Term

3.2.2 GO有向无环图分析能直观展示差异基因富集的GO term及其层级关系。

该图为差异基因GO富集分析的结果图形化展示方式,分支代表包含关系,从上之下所定义的功能范围越来越小,一般选取GO富集分析结果中显著性水平最高的前5个GO Term作为有向无环图的主节点,并通过包含关系,将相关的GO Term一起展示,颜色深浅代表富集程度,越深富集水平越高,反之,则越低。

T_case_vs_W_ctrl_Up_BP_SigOfNodes

3.3 表达差异基因Pathway分析

分析软件:kobas

在生物体内,不同基因相互协调行使其生物学功能,利用Pathway的分析可以更进一步了解基因的参与代谢通路及具体的生物学功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。该分析的计算公式2(GO功能显著性富集分析)一样,在这里N为所有基因中具有Pathway注释的基因数目;n为N中差异表达基因的数目;M为所有基因中注释为某特定Pathway的基因数目;m为注释为某特定 Pathway 的差异表达基因数目。FDR<0.05的Pathway定义为在差异表达基因中显著富集的Pathway。每个注释到KEGGPathway的基因都会有相应的通路图,并用红色标记好了基因所在的位置,然后利用注释结果进行聚类分析。 pathway_enrichment

富集的KEGG pathway Terms。横轴表示富集的前20个pathway Term(若少于20则表示所有富集的pathway Terms),纵轴表示基因数目。

3.4 差异表达基因热图

分析软件:R、heatmap.2

差异基因热图分析,又称差异基因聚类分析,用于判断不同实验条件下调控模式的聚类模式,比较不同实验组合之间RPKM的差异。以不同的实验条件之间的差异基因的RPKM作为输入,用层次聚类(hierarchicalclustering)或者K均值(K-means)等方法对不同表达调控模式进行分类,不同的颜色的区域代表不同的聚类分组信息,同组内的基因表达调控模式类似,可能参与到相同的生物学过程中。由于通常情况下,差异表达基因较多,导致画出热图无法标出基因名字,因此建议用客户感兴趣差异基因进行热图分析。

T_case_W_ctrl_1958_Significant_heatmap

上图为整体层次聚类图,以log10RPKM值进行聚类,红色表示高表达基因,绿色表示低表达基因。x轴表示不同样本,y轴表示基因名字。左上角的color key,将log10RPKM标准化到(-2,2)范围内。

3.5 基因互作网络分析(可选分析)

分析软件:cytoscape

生物体内,不同蛋白常通过复杂的相互作用形成蛋白复合体,从而发挥其生物学功能。蛋白相互作用网络分析整合 BIND 、 Interactome 等多个著名的相互作用网络数据库,构建差异表达基因编码蛋白所参与的相互作用网络,将其导入cytoscape软件实现蛋白互作网络的可视化。结果如图所示,节点表示基因(或蛋白),节点之间的连线表示节点间的相互作用,节点的大小表示p-value值(可以自己设定),p-value越小,节点越大,反之,越小;节点颜色表示基因表达量,分为正值(上调基因)和负值(下调基因),分别对应两种不同的颜色,颜色越深表示表达量的绝对值越高,反之,则越浅。由于基因太多导致互作网络图过于密集,因此建议挑选少量的差异基因进行互作网络分析。

Protein_Intereaction

案例分析

1、Zhang M, Zhao H, et al., Extensive, clustered parental imprinting of protein-coding and noncoding RNAs in developing maize endosperm. Proc Natl Acad Sci U S A. 2011; 108(50):20042-7.

样本选择:玉米系B73,Mo17,Mo17 × B73, B73 × Mo17

测序策略:转录组测序

分析结果:

1、在胚乳中发现了179个印记基因,其中68个是母本偏好性表达,111个为父本偏好性表达。

2、发现了38个长非编码RNA为印记表达。

3、印记基因在玉米基因组上表现出明显的聚类模式,大量的印记基因彼此相邻。

4、所有发现的DMRs其相应位点的印记方向,均表现为母本等位基因的去甲基化和父本等位基因的超甲基化。

5、本文研究表明在玉米胚乳中存在着极为广泛和复杂的遗传印记调控机制,这种机制在胚乳中基因剂量平衡中存在潜在功能。

24

样品要求

1、转录组样品:一次制备需要5μg的总RNA,为保证实验的延续性,一次性提供至少2次样本制备量。

2、样品浓度和纯度: 样品浓度>100ng/μl;OD260/280介于1.8-2.0,无肉眼可见污染。

3、样品质量:使用Agilent Bioanalyzer仪器检测,则获得的总RNA应 28S:18S≥1,RIN≥7.5。

4、样品保存:请选择乙醇、DEPC水保存样品,并在样品信息单中注明。

5、样品运输:样品请置于1.5ml管中,并使用封口膜封好后干冰运输。请勿反复冻融。