20090928_af442f8b7bc54bb67e9cqXwQYmdCcqKN                                                                              berry_assemble_pipeline.tar

下载解压berry_assemble_pipeline.tar.gz后,berry_assemble.pl是主流程,assemble.ini、library.tab是跑流程所需的配置文件。配置好后直接运行berry_assemble.pl即可。

文档说明如下:

1.基因组组装

1.1.组装流程

denovo

首先选取随机性比较好的小片段文库进行K-mer分析,估算基因组大小、重复序列比例、杂合率。然后加入大片段文库(如2k)进行初步组装。再将各文库的reads与初步组装的scaffold进行比对,根据比对结果,评估文库的随机性、插入片段分布,根据组装及评估结果,加测数据。最后用所有合格文库的数据进行组装。

1.2.K-mer分析

K-mer是基因组或reads中一段长度为K的连续的核酸序列。由一条长度为L的reads可以得到(L-K+1)条长度为K的k-mer序列。一个给定的k-mer序列在所有reads中出现的频数,就是这个k-mer的深度。由k-mer深度分布,可以纠正部分测序错误,并对基因组大小、基因组重复序列比例、杂合率进行估算。

选取小片段文库数据进行K-mer分析。使用的K-mer统计及纠错软件是ALLPATHS-LG,K-mer长度为25(或Jellyfish 2.1.4及Quake 0.3.5,K-mer长度为20)

纠错前的K-mer频率分布示意图:

K_mer_frequency1

纠错后的K-mer频率分布示意图:

K_mer_frequency2

根据纠错后的K-mer频率分布,估算基因组大小、重复序列比例和杂合率,结果表格示例如下:

样品 文库 K-mer长度 基因组大小估计 重复序列比例 杂合率估计
样品1 DNA文库A 25 30% < 0.5%

1.3.基因组组装

组装使用的软件是ALLPATHS-LG。先用小片段文库(如180bp)和大片段文库(如2k)进行初步组装;再用比对软件BWA将各文库的reads与初步组装的scaffold进行比对,根据比对结果,评估文库的随机性,确定文库插入片段范围;对合格的文库增加测序;最后用所有合格文库的数据进行组装。

组装结果统计示例如下:

样品 Contig数量 Contig

总长度(bp)

Contig

GC含量(%)

Scaffold

数量

Scaffol

d总长(bp)

Gap数量 Gap

总长度(bp)

样品1 12,345 345,678,900 34.56 2,345 312,222,222 7,777 8,666,666

contig及scaffold的N10-90长度示例如下:

Contig (bp) Scaffold (bp)
Max 566,866 7,666,766
N10 222,222 7,000,000
N20 155,000 5,000,000
N30 122,000 4,000,000
N40 99,000 3,000,000
N50 79,000 3,000,000
N60 62,000 2,000,000
N70 47,000 1,900,000
N80 33,000 1,200,000
N90 18,000 700,000
Min 190 1000

将scaffold连续分割成长度为1k的窗口,统计各窗口的GC含量分布,示例如下图:

scaffold_GC

1.4.组装结果验证及一般性分析

1.4.1.DNA文库比对

用比对软件BWA将各样品文库的Clean reads比对到scaffold上,根据比对结果,统计各文库的比对率、冗余度、插入片段长度分布、测序深度分布。

小片段文库比对结果统计示例如下:

样品 文库 比对率(%) PE比对率(%) 冗余率(%) Insert size (bp) Insert size SD
样品1 小片段文库A 78.11 72.71 23.11 170 -12/+10
样品1 小片段文库B 75.11 65.71 8.13 500 -86/+37

大片段文库比对结果统计示例如下:

样品 文库 比对率(%) PE比对率(%) 冗余率(%) Insert size (bp) Insert size SD
样品1 大片段文库C 69.11 43.11 7.11 1800 -150/+210
样品1 大片段文库D 70.11 45.11 32.11 4900 -830/+390

说明:Insert-size为插入片段分布峰值,Insert size SD包含一正一负两个值,为峰值左部、右部的标准差。

小片段文库插入片段长度分布示例:

distribution_small_insert_size

大片段文库插入片段长度分布示例:

distribution_big_insert_size.png

根据小片段文库与scaffold比对的结果,计算单碱基测序深度和覆盖度示例:

scaffold_depth_coverage

根据小片段文库与scaffold比对的结果,统计scaffold上各窗口的GC含量与测序深度,窗口长度为1k,画出小片段文库测序深度与GC含量散点图示例如下:

scaffold_depth_coverage_part

说明:下图是上图的局部放大图

1.4.2.转录组数据验证

对几个不同组织的样品构建转录组文库并测序,用Tophat软件将转录组RNA-Seq数据比对到组装结果scaffold上,得到各样品的比对率示例如下:

样品 文库 Reads %Mapped %concordant pair Aligned
样品A 转录组文库A 27,555,333 79.1 75.1
样品B 转录组文库B 23,555,111 81.2 78.2
样品C 转录组文库C 23,222,111 84.3 80.3
样品D 转录组文库D 23,444,555 84.4 79.4