技术简介

基于PacBio单分子实时测序技术,拥有超长读长,无需对转录本进行打断即可获得高质量的单个全长转录本信息,无需拼装即可完成长转录本的精确分析。平均10-15Kb读长的数据可以轻松跨越从5’末端到3’-Poly A tail的完整转录本,从而准确鉴定异构体,并对可变剪接、融合基因、同源基因、超家族基因或等位基因表达等进行精确分析,即使是已经研究十分深入的物种(如人类)也能够发现新功能基因或新的异构体。

综合所述,Isoform-Seq 是多倍体物种、超大基因组物种和非模式物种等的功能基因研究的一种利器。

技术路线

幻灯片1

技术优势

1、直接测序即可获得全长转录组序列信息,one read=one full lengh transcript

2、有效地绘制复杂基因组的转录图谱,作为基因功能研究的参考序列

3、无需拼接即可获得转录本序列

4、获得全面的可变剪切、融合基因以及Isoform信息

生物信息分析

有参考基因组全长转录组分析

基本分析

1.原始数据处理

2.测序数据质控:测序数据质量评估、插入片段质控、饱和度曲线

3.转录本分析:转录本的聚类、校正、全长评估、结构优化

4.新基因预测

5.可变剪切分析:根据获得的所有转录本信息,检测发生可变剪切的位点

6.融合基因分析:通过比对到基因组上和参考基因上,获得同时比对到两个基因上的转录本片段

7.基因功能注释:KOG 功能注释、GO 功能注释、KEGG 功能注释、Swiss_prot 功能注释、NR/NT 注释;

高级分析

1.基因家族鉴定(需相应的基因家族数据库)

2.样本间可变剪切差异比较(需结合二代测序,因三代只能做定性分析)

3.样本间融合基因差异比较(需结合二代测序,因三代只能做定性分析,另外,由于融合基因事件发生很少,目前很少做融合基因差异分析)

4.等位基因分析(可选项,需结合二代测序)

5.样本间等位基因差异比较(可选项,需结合二代测序)

6.基因表达量分析(结合二代测序)

7.基因差异表达分析及 GO/KEGG富集(结合二代测序)

注:差异比较分析需两个或两个以上样本。

无参考基因组全长转录组分析

基本分析

1.原始数据处理

2.测序数据质控:测序数据质量评估、插入片段质控、饱和度曲线

3.转录本聚类:确定相应的 unigene

4 .编码蛋白框预测

5.基因功能注释分析: KOG 功能注释、 GO 功能注释、 KEGG 功能注释、 Swiss_prot功能注释、NR/NT 注释

高级分析

1.基因表达量分析(需结合二代测序)

2.差异表达基因分析(需结合二代测序,至少 2个样本)

3.差异表达基因 GO/KEGG 富集分析(需结合二代测序)

案例分析

Wei Zhang , Paul Ciclitira ,et al., PacBio sequencing of gene families — A case study with wheat gluten genes. Gene. (2014);533(2):541-6.

研究背景

在小麦(Triticum aestivum)种子中,氨基酸贮藏蛋白主要以麦醇溶蛋白和麦谷蛋白的形式积累。醇溶蛋白含有α/β,γ和ω类型,而麦谷蛋白含有HMW和 LMW两种类型。已知的麦谷蛋白和醇溶蛋白的序列大多数是通过毛细管电泳测序和克隆得到的。这种研究品种间各同源基因拷贝的变化过程太耗时。PacBio测序平台单分子实时测序技术的通量和读长可以对连续的非嵌合体RNA进行测序,对10株不同品系的424个小麦贮藏蛋白基因进行转录本序列分析。并专门针对一个品系中国春小麦品种的蛋白基因与已知的NCBI序列进行比较,吻合度极高,证明了实时测序高效的高通量和低成本,该方法可用于物种和品种间的基因扩增和拷贝数变异研究。

材料和方法

材料:10株不同品系的小麦

测序平台:PacBio  RS Ⅱ

测序深度:1个SMRT Cell,75X

结果

1、研究人员从全球搜集了 10 株不同品系的小麦,专门针对424 个小麦蛋白基因设计了Barcode PCR引物,在一个SMRT Cell完成了比较转录本测序,平均读长 3050 bp,共 33000 条一致性高精度Reads进入后续分析

2、研究人员专门挑选了其中一个品系中国春,与NCBI 数据库中已有的同品系进行比较,发现吻合度极高,证明这个方法真实有效;同时长读长高覆盖度的数据能很好地回避不同品系间拼接时错误的嵌合现象,这在短读长测序是不可实现的

3、研究者认为,基于PacBio长读长无需拼接的技术,比较转录本方法高效、高精度、低成本地解决了不同品系间的基因表达分析和筛选工作,特别适用于那些还未经测序或者仅有Draft的物种

4、经筛选获得有价值的信息,可进一步对感兴趣的品系进行彻底的基因组分析

isoform-seq pic

图:10株不同品系小麦LMW-glutenins系统进化树

样品要求

yangpin1