技术简介

原核转录组测序是基于HiSeq平台,构建普通RNA文库或链特异性文库研究原核生物在某个时期或者在某种环境条件下转录出来的所有mRNA。由于原核生物mRNA没有polyA尾结构,需要去除rRNA的特点,贝瑞和康采用ribo zero (Epicentre)试剂盒去除rRNA,模式生物rRNA残余比例可低至1%以内,其他物种以实际去除效率为准。

技术路线

原核转录组测序 - New Page

信息分析   

1、测序数据质量评估
1.1测序错误率分布检查

per_base_quality

1.2 A/T/G/C含量分布检查

per_base_sequence_content

1.3 测序数据过滤

某些原始序列带有adaptor序列,或含有少量低质量序列。经过一系列数据处理去除杂质数据,得到Clean reads。

2、单样品分析
2.1 基本分析统计

原始产出的高质量数据,即clean reads,根据物种的参考基因组和参考基因信息进行mapping,并获得一个样本的基本统计信息。

2.2 Reads在基因组上的分布

统计各样本Reads在基因组上的密度分布,以及该样本表达的基因在基因组上的密度分布,用于检测染色体上测序序列分布的异常情况。

W.depth_Chr1_

2.3 基因饱和度分析

检测文库的基因饱和度,即对样本所有基因而言,随着测序数据量的增加,表达的基因数的变化情况。随机抽取10%、20%、30%…100%的测序数据,分别统计表达的基因数。该分析反映了基因表达水平定量对数据量的要求,表达量高的基因,就越容易被准确定量,反之,表达量低的基因,需要较大的测序数据量才能被准确定量。

T_saturation_covered_genes

T_saturation_RPKM

2.4 测序均一度分析

分析Reads在基因5’~ 3’区域分布情况,根据转录组建库实验的特点,转录本其产生的测序序列(reads)实际覆盖度的分布是距离转录本的5’端和3’端越近,平均测序深度越低,但总体的均一化程度比较高。因此利用总体均一度来评估文库质量,均一度越高文库质量越好,反之,越差。

T.randCheck_mRNA

2.5 基因表达及注释

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则基因表达水平越高。

T_RPKM_range

2.6 重复样本相关性检测

重复样品间基因表达相关性是检验实验可靠性和样本选择是合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。通常生物学重复要求R2> 0.8。

T_case_RPKM_W_ctrl_RPKM_reads_linear

2.7 基因结构的优化
2.7.1 5’端和3’端的延长

比对获得reads在参考基因组上的分布,将位置连续且重叠的read连接形成一个TAR(Transcript Active Region,如图黄色区域),每个位点的unique read覆盖度需大于或等于某个阈值(通常是2),再通过paired-end reads(图中黄色线条)将不同的TAR连在一起形成一个潜在的gene model,把gene model与已知的注释基因(图中紫色区域)比较,就可以延长基因的5’端或3’端(本图只延伸基因3’端)。

gene_model_end

2.8 新基因预测

分析软件:tophat、cufflinks

现有数据库中对转录本的注释可能还不全面,通过高通量测序我们能检测到可能的新转录本,并利用NT,NR,SWISSPROT等数据库来对新的转录本进行注释,从而发现新基因。当然还需要实验进一步验证。

27

GeneID: 基因ID,cufflinks组装出来的并统一命名;

TranscriptID: 转录本ID,cufflinks组装出来的并统一命名;

RPKM: 该转录本的RPKM值;Chr: 参考序列;

Strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;

Start: 该基因或转录本在参考序列上的起始位置;

End: 该基因或转录本在参考序列上的终止位置。

2.10 SNP分析(*)

分析软件: Bwa、samtools、annovar

单核苷酸多态性(single nucleotide polymorphism,SNP),指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。SNP分为转换和颠换两种,二者之比为1:2。SNP在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP是指变异频率大于1%的单核苷酸变异。InDel(insertion-deletion)是指相对于参考基因组,样本中发生的小片段的插入缺失,该插入缺失可能含一个或多个碱基。通常SNP分析包括SNP和InDel两种,SNP位点具体描述请参考http://www.hgvs.org/mutnomen/examplesRNA.html

3、多样品差异分析
3.1 表达差异分析

分析软件:tophat、cuffdiff

差异表达分析找出在不同样本间存在差异表达的基因,并对差异表达基因做GO功能分析和KEGG Pathway分析。对于差异表达的筛选方法请参照(Audic S. et al, 1997)。

T_case_W_ctrl_DEG

3.2 表达差异基因GO分析

分析软件:topGO

GO(Gene Ontoloy)是基因本体论联合会建立的数据库,适用于各物种,对基因和蛋白功能进行限定和描述。根据GO数据库可以将基因按照它们参与的生物学过程,构成细胞的组分,实现的分子功能等进行分类。

3.2.1 差异表达基因的GO功能分析

差异基因的GO功能分析包括:一、GO注释,利用GO数据库中已知的基因和GO term对应关系,获得每个基因的GO信息;二、GO富集分析,利用GO term注释的差异基因,计算每个term的基因列表和基因数目,然后应用超几何检验,找出与整个基因组背景相比,差异表达基因中显著富集的GO条目,从而找出差异表达基因与哪些生物学功能显著相关。

T_case_vs_W_ctrl_Up_GO_Term

3.2.2 GO有向无环图分析能直观展示差异基因富集的GO term及其层级关系

该图为差异基因GO富集分析的结果图形化展示方式,分支代表包含关系,从上之下所定义的功能范围越来越小,一般选取GO富集分析结果中显著性水平最高的前5个GO Term作为有向无环图的主节点,并通过包含关系,将相关的GO Term一起展示,颜色深浅代表富集程度,越深富集水平越高,反之,则越低。

T_case_vs_W_ctrl_Up_BP_SigOfNodes

3.3 表达差异基因Pathway分析

分析软件:kobas

在生物体内,不同基因相互协调行使其生物学功能,利用Pathway的分析可以更进一步了解基因的参与代谢通路及具体的生物学功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。

pathway_enrichment

3.4 差异表达基因热图(*)

分析软件:R、heatmap.2

差异基因热图分析,又称差异基因聚类分析,用于判断不同实验条件下调控模式的聚类模式,比较不同实验组合之间RPKM的差异。以不同的实验条件之间的差异基因的RPKM作为输入,用层次聚类(hierarchicalclustering)或者K均值(K-means)等方法对不同表达调控模式进行分类,不同的颜色的区域代表不同的聚类分组信息,同组内的基因表达调控模式类似,可能参与到相同的生物学过程中。

T_case_W_ctrl_1958_Significant_heatmap

上图为整体层次聚类图,以log10RPKM值进行聚类,红色表示高表达基因,绿色表示低表达基因。x轴表示不同样本,y轴表示基因名字。左上角的color key,将log10RPKM标准化到(-2,2)范围内。

3.5 基因互作网络分析(可选分析)

分析软件:cytoscape

生物体内,不同蛋白常通过复杂的相互作用形成蛋白复合体,从而发挥其生物学功能。蛋白相互作用网络分析整合 BIND 、 Interactome 等多个著名的相互作用网络数据库,构建差异表达基因编码蛋白所参与的相互作用网络,将其导入cytoscape软件实现蛋白互作网络的可视化。结果如图所示,节点表示基因(或蛋白),节点之间的连线表示节点间的相互作用,节点的大小表示p-value值(可以自己设定),p-value越小,节点越大,反之,越小;节点颜色表示基因表达量,分为正值(上调基因)和负值(下调基因),分别对应两种不同的颜色,颜色越深表示表达量的绝对值越高,反之,则越浅。由于基因太多导致互作网络图过于密集,因此建议挑选少量的差异基因进行互作网络分析。

Protein_Intereaction

案例分析

Dugar G, Herbig A, High-resolution transcriptome maps reveal strain-specific regulatory features of multiple Campylobacter jejuni isolates. PLoS Genet. 2013 ;9(5):e1003495.

样本选择:空肠弯曲菌株

测序策略:dRNA–seq

分析结果:

1、对4株jejuni菌进行初始转录组比较分析,从而得到该病原菌的全局TSS图谱。

2、本研究的dRNA-seq数据比较分析表明大多数TSS位点具有保守性,但是在启动子区域存在SNP差 异,继而导致菌株特异的转录组信息。

28

图为: dRNA-seq分析得到的转录组起始位点

样本要求

1、样品要求:无论动物植物,请一次性提供5μg的高质量总RNA;为保证实验的延续性,一次性提供至少2次样本制备量。

2、样品浓度和纯度: 样品浓度>100ng/μl;OD260/280介于1.8-2.0,无肉眼可见污染。

3、样品质量:使用Agilent Bioanalyzer仪器检测,则获得的总RNA应 28S:18S≥1,RIN≥7.5。

4、样品保存:请选择乙醇、DEPC水保存样品,并在样品信息单中注明。

5、样品运输:样品请置于1.5ml管中,并使用封口膜封好后干冰运输。请勿反复冻融。