技术简介

Small RNA(小RNA)是一类长度在18-30nt的RNA分子,主要包括miRNA、siRNA和piRNA。Small RNA能够调控基因的表达,在细胞的生长、发育、代谢等基础生物学过程中扮演着重要的角色。甚至在癌症等相关疾病形成过程中起着关键的作用。所以,Small RNA被认为影响着生物发育,并与多种人类疾病的发生密切相关。通过高通量测序,可以发掘、鉴定和定量出任何物种全基因组水平的小RNA图谱、挖掘新的miRNA分子、预测靶基因、鉴定样品间差异表达分析。

技术路线

Small RNA测序 - New Page

信息分析流程

microRNA

信息分析

1 、数据过滤

测序得到的raw data,里面含有带接头的、低质量的reads,为了保证信息分析的质量,必须对raw reads进行处理,得到clean reads。

2、 基本分析
2.1 Clean Reads长度分布统计

统计18-31nt长度的clean reads数目及各自占总reads的百分比,并绘制reads长度分布图。一般来说,小RNA的长度区间为18~30nt,长度分布的峰能帮助我们判断小RNA的种类,如miRNA集中在21或22nt,siRNA集中在24nt,piRNA集中在30nt。

H8.Length_Distribution

2.2 Rfam比对

将Clean Reads与Rfam数据库进行比对,尽可能地除去rRNA、scRNA、snRNA、snoRNA及tRNA,并统计它们的数目及占总reads的比例,并绘制饼状图。然后用去除掉rRNA、snRNA、snoRNA及tRNA四种ncRNA 的clean reads进行比对基因组,寻找已知miRNA 并预测新miRNA。

H8.RNA_type_distribution

2.3 碱基偏好性分析

对去除掉rRNA、scRNA、snRNA、snoRNA及tRNA五种ncRNA后的clean reads, 计算A/T/G/C四种碱基在clean reads的每个位置上和第一位上的比例。

H8.filter.fa.nucleotide_bias

a) miRNA Nucleotide Bias和b) miRNA First Nucleotide Bias分别展示了clean reads碱基位置分布和第一位碱基的偏好性。如图黄、蓝、绿、红四种颜色分别代表了T、C、G、A四种碱基。a) 横坐标为碱基所在的位置,纵坐标为四种碱基分别在这个位置上所占的比例(用相应颜色的柱状图长度表示);b) 横坐标为reads长度,纵坐标为该长度的reads第一位上四种碱基出现的比例(同样,柱状图长度代表比例大小)。

2.4 比对参考基因组

去掉rRNA、tRNA等ncRNA后的Reads,与相对应的基因组作比对,统计比对到基因组的reads(Total Matched Reads)。

3、 比对miRbase
3.1 注释已知miRNA和表达量统计

miRbase中有该物种数据记录:

比对miRbase中的前体数据库(若miRBase中无该物种miRNA前体序列则用成熟miRNA的序列)。匹配上miRbase中前体的reads(pre-miRNA)用于发现已知成熟的miRNA,并统计其表达量和TPM值。而未匹配上前体的reads(Unmatched)用来预测Novel miRNA。

3.2 预测新的miRNA

不能匹配到已知pre-miRNA的小RNA序列,我们对其进行novel miRNA的预测,依据miRNA的结构特征获得novel miRNA的序列信息及其对应的前体序列在基因组上的位置。

4 、预测miRNA的靶基因

根据miRNA比对到基因组的位置信息预测到miRNA作用的靶位点,并通过靶位点的位置来对其进行注释。得到的相关信息包括预测到的靶位点、作用其位置上的miRNA及靶位点的注释信息(有些位点尚没有公开的注释信息)。

4.1 Known miRNA 靶基因预测

已知mature miRNA靶基因的预测,含有miRNA对应的靶基因的GeneID,基因名简称以及该靶基因的具体描述。

4.2 Novel miRNA 靶基因预测
5 、miRNA 碱基编辑

成熟 miRNA 序列的第 2-8 个碱基被称作“种子”序列,保守性很高。若在这一区域发生碱基突变,则可能改变 miRNA 的靶基因作用位点。通过将未注释上ncRNA的miRNA 序列与 miRBase中已知miRNA前体以及成熟 miRNA 序列进行比对(只允许一个位点的错配)找出发生碱基突变的 miRNA。

mirna_edit

5、综合分析
5.1 样本间mature miRNA分析
6、可选分析
6.1 样本间mature miRNA差异表达分析

根据每个样本的mature miRNA表达情况,计算P-value来分析不同样本中相同mature miRNA表达差异是否显著。使用卡方检验统计样本间表达量差异的显著性,样本进行两两比对计算P-value。

6.2 样本间共有和特有miRNA分析

利用韦恩图的方法直观展示多个样本已知miRNA及预测到的新miRNA在数目上的差异。韦恩图的展示样本数目为2或3个,所以需要客户指定样本。

T1_H8_miRNA_venn.novel

6.3 差异miRNA和转录组关联分析

miRNA是一类在生物体内起到重要调控作用的的小片段非编码RNA。一般认为 miRNA通过和 mRNA 的结合,可以抑制 mRNA 的表达,从而影响到 Gene 的表达。通过靶基因预测,可以得到miRNA靶向调控Gene的关系。

6.4 预测靶基因的GO与Pathway注释

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。选出靶基因后,我们用topGO软件完成靶基因GO注释。

注释完成后,统计被显著富集的各个GOterm中的基因数,以柱状图的形式展示,如图下图所示:

T_case_vs_W_ctrl_Up_GO_Term

横坐标为GO三个大类的下一层级的GO term,纵坐标为注释到该term下(包括该term的子term)的候选靶基因个数,3种不同颜色的柱状图表示Go term的三种基本分类。

有向无环图(Directed Acyclic GraphDAG)为候选靶基因GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取GO富集分析的结果前10位作为有向无环图的主节点,并通过包含关系,将相关联的GO Term一起展示,颜色的深浅代表富集程度。我们的项目中分别绘制生物过程(BP)、分子功能(MF)和细胞组分(CC)的候选靶基因DAG图。

T_case_vs_W_ctrl_Up_BP_SigOfNodes

每个方框或圆圈代表一个GO term,放大之后其中内容从上到下,代表的含义依次为:GOterm的id、GO的描述、GO富集的Pvalue、该GO下候选靶基因的数目/该GO下背景基因的数目。方框代表的是富集程度为TOP10的GO,颜色的深浅代表富集程度,颜色越深就表示富集程度越高。

靶基因的KEGG注释,在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定候选靶基因参与的最主要生化代谢途径和信号转导途径,助于更进一步了解基因的生物学功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa et al., 2008)。Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在候选靶基因中显著性富集的Pathway。

挑选前20个显著富集的term,画出柱状图如下:

H8.Target.Novel.kegg

6.5 miRNA coding region variants

miRNA在细胞生长和发育过程中起多种调节作用,如果miRNA发生变异,将直接影响细胞的生长和发育。我们用去除了ncRNA的clean reads 和参考基因组比对,然后用GATK、picard、samtools等软件call variants ,最后根据miRNA的gff3信息挑出编码区域的variants结果。

案例分析

Wei L, Gu L, et al., Dicer-like 3 produces transposable element-associated 24-nt siRNAs that control agricultural traits in rice. Proc Natl Acad Sci U S A. 2014; 111(10):3877-82. doi: 10.1073/pnas.1318131111.

样本选择:水稻

测序策略:小RNA测序

分析结果:

1、揭示了依赖OsDCL3a酶的24-nt小分子RNA主要通过调控转座子旁临基因的表达进而对水稻重要农艺性状精细调控。

2、研究人员发现,水稻OsDCL3a RNAi株系表现出株高降低、叶夹角变大以及穗长变短的多效发育表型。

3、依赖OsDCL3a的24-nt小分子RNA主要来源于水稻基因组上的重复序列,特别是MITE类转座子位点。

4、这些24-nt小分子RNA通过介导H3K9me2等异染色质修饰调控旁邻基因的表达,其中包括多个调节赤霉素和油菜素内酯平衡的关键基因。这些基因在水稻株高和叶夹角等重要农艺形状的形态建成中发挥重要作用。

5、MITE类转座子在动、植物中广泛存在,该机制很可能不仅在水稻、玉米等农作物中是保守的,还可能为肿瘤发生等研究提供重要线索。

29

图为:3a-3 和3a-1不同基因表达,蓝色是上调,绿色是下调,灰色不变

样品要求

1、请一次性提供至少10 µg高质量的总RNA。

2、样品浓度>100ng/µl,OD260/280介于1.8-2.0,无肉眼可见污染;

4、使用Agilent Bioanalyzer仪器检测,则获得生物总RNA应28S:18S≥1,RIN ≥7.5;

5、请选择Trizol、DEPC水保存样品,并在样品信息单中注明;

6、样品请置于1.5ml管中,并使用封口膜封好后干冰运输,请勿反复冻融。