转录组常见问题简答

转录组测序需要多少测序量?

转录组测序所需的测序量随物种转录组大小的不同而有所差异。而转录组的大小受基因数目和丰度双重影响,不同物种间变化很大。因此,在测序之前,需要对转录组的大小进行评估。

1)针对有参考基因组的物种,可通过分析基因组信息,统计编码基因个数及其碱基数来评估转录组的大小,同时也可参考相近或相关物种转录组研究的文章;

2)针对无参考基因组的物种,只能参考相近物种的转录组大小。

研究转录组的方法有哪些?

目前研究转录组主要有三种方法,包括基于Sanger测序法的SAGE(serial ananlysis of gene expression),基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于高通量测序技术的转录组测序。

转录组测序结果的影响因素有哪些?

主要有下面几个方面:

1、RN A的降解会严重影响测序的质量:

  • 若RNA的3’端发生降解,则无法通过3’端的polyA捕获mRNA,反转录后进行测序也无法得到全部的cDNA;
  • 若RNA的5’端发生降解,通过3’端的polyA捕获得到mRNA,测序结果将出现明显的3’和5’偏向。

2、RNA起始量不足影响测序的质量:RNA起始量不足时,需要增加PCR扩增循环数才能获得足够的量用于后续测序,这会产生大量的冗余数据。

3、若采用454测序,文库中polyA多聚物的存在会对测序信号产生干扰,影响测序结果的准确性。

4、由于转录组中基因的丰度不一致,高丰度的表达基因会掩盖低丰度的表达基因,导致寻找新基因失败或产生大量冗余数据。

如何分离小RNA?

目前,RNA纯化方法主要包括有机溶剂抽提+乙醇沉淀、硅胶膜离心柱等。由于硅胶模离心柱只能富集200nt以上的RNA分子,所以并不适用于Small RNA的分离纯化。有机溶剂抽提虽然能够较好的保留Small RNA,但是后期沉淀步骤非常繁琐。对于Small RNA测序,主要采用PAGE胶电泳对Small RNA进行分离。

为什么不同的样品测序得到的reads数量相差较大?为什么这种差别不影响分析准确性?

Small RNA在不同物种,以及同一物种不同组织或不同发育阶段表达情况都有差异,而通常用作total RNA提取材料的细胞数差异很大(通常为10-100万个细胞),所以取材的空间及细胞总数的多少决定了样品中表达的Small RNA的总量不可能完全一致。Reads数与样品上机浓度、样品GC含量、样品自身特性相关,不同样品间存在的差异是正常的。Reads数只会影响到数据量,数据量足够分析就可以,不影响准确性,同时,我们分析时采用标准化后的数据,这样即使reads数量相差较大,也不影响分析的准确性。

进行小RNA测序时,除了样品以外还需要提供哪些相关信息?

需要提供相应物种的基因组和相关的exon、intron、repeat信息等;如果没有本物种的基因组,需要提供近缘物种的相关信息。

为什么实验结果中会存在降解的mRNA序列?

由于total RNA常发生轻微的降解,而生物体内也有自然的降解过程,因此数据中就会含有小部分mRNA降解片段。但通常这个比例很低,并且取决于样品total RNA的质量。

如何对差异表达基因进行功能分析?

差异表达基因可以进行以下4中功能分析:表达模式聚类分析,即将具有相似表达模式的差异基因聚到一起,从而筛选出感兴趣的基因;GO分析,该分析能确定差异基因行使的主要生物学功能分类,发掘与基因差异表达现象关联的多个特征功能类型;pathway分析,确定差异表达基因参与的最主要的生化代谢途径和信号转导途径;蛋白-蛋白相互作用网络分析,即找出跟差异表达基因编码蛋白发生直接相互作用的蛋白。

基于转录组测序数据,如何估算基因表达水平?

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。在分析中,我们可以通过定位到基因组区域或基因外显子区的reads计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度、测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们提出了RPM和RPMK的概念。RPM(Reads Per Million reads)是每百万条reads中来自于某一基因的reads数目,考虑了测序深度对reads计数的影响。RPMK(Reads Per  Kilobases per Million reads)是每百万reads中来自某一基因每千碱基长度的reads数目。RPMK同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法。