第5章

章节实例：第5章小片段序列组装

第一部分：基因组测序数据的组装

这里我们下载经Solexa/Illumina测序平台对Staphylococcus aureus strain MW2的基因组进行测序的数据（下载地址：http://www.genomic.ch/edena/mw2Reads.seq.gz），选用代表不同组装算法的三种组装软件——SSAKE、Edena、SOAPdenovo分别对上述小序列片段数据进行组装。具体操作步骤如下：

序列数据的解压缩：

1、Linux操作系统下终端输入以下命令：

# gunzip ./ mw2Reads.seq.gz

2、数据格式显示，命令如下：

# more ./mw2Reads.seq

1）SSAKE组装过程

1、软件下载：http://www.bcgsc.ca/bioinfo/software/ssake

2、软件解压缩，命令如下：

# tar -xvf ./ssake_v3-7-tar.gz

3、进入文件目录，命令如下：

# cd ./ ssake_v3-7

4、查看软件使用帮助，命令如下：

# ./SSAKE –help

5、建立组装工程目录，命令如下：

# mkdir ./new-assembly

通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装命令：这里待组装数据为单末端测序片段，序列长度为35bp，命令如下：

# ./SSAKE -f ./new-assembly/mw2Reads.seq -m 25 -o 8 -r 0.7

其它参数选择默认值。

7、组装完成。组装工程目录中得到四个文件：

a. contigs文件：组装最终结果重叠群序列的fasta格式文件；

b. log文件：组装过程记录日志文件；

c. short文件：用于存储待组装序列中长度小于m的部分，这些序列无法用于后续的组装过程；

d. singlets文件：用于存储进入组装过程但没有用于序列延伸的序列。

2）Edena组装过程

1、软件下载：http://www.genomic.ch/edena/edena2.1.1_linux64.tar.gz

2、软件解压缩，命令如下：

# tar -xvf ./edena2.1.1_linux64.tar.gz

3、进入文件目录，命令如下：

# cd edena2.1.1_linux64

4、查看软件使用帮助，命令如下：

# ./edena

# mkdir ./new-assembly

通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装命令。Edena的组装分两个过程：重叠模式和组装模式。重叠模式建立重叠图，而组装模式是对图进行修剪并输出最终组装结果。

7、重叠模式，命令如下：

# ./edena -r ./new-assembly/mw2Reads.seq -M 20 -p out_20 –t 1

产生中间过程文件out_20.ovl，用于后续组装模式。

8、组装模式，命令如下：

# ./edena –e ./ out_20.ovl -p strict_20 -c 100 -s 1

其它参数选择默认值。

9、组装完成。组装结果所得三个文件：

a. info文件：组装过程记录日志文件；

b. fasta文件：用于存储符合设定条件并被输出的重叠群序列；

c. cov文件：用于存储组装结果重叠群序列的每个碱基位置的覆盖度信息。

3）SOAPdenovo组装过程

1、软件下载：http://soap.genomics.org.cn/soapdenovo.html

2、软件解压缩，命令如下：

# tar -xvf ./ SOAPdenovo-v1.04.tgz

3、进入文件目录，命令如下：

# cd SOAPdenovo_Release1.04

4、查看软件使用帮助，命令如下：

# ./SOAPdenovo

5、建立组装工程目录，当前目录下输入以下命令：

# mkdir ./new-assembly

然后通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装过程。configFile文件配置：我们选择“–all”组装模式，故需配置configFile。以下为configFile文件内容：

# maximal read length

max_rd_len = 35

asm_flags = 1

f = ./mw2Reads.seq

7、组装命令：

# ./SOAPdenovo all –s ./configFile –K 25 –o graph_prefix -p 8

其它参数选择默认值。

8、组装完成。组装结果有一系列的文件，其中，.contig文件为组装重叠群的存储文件。

第二部分：转录组测序数据的组装

我们选用的待组装数据为大肠杆菌（E.coli）的转录组经过Roche 454测序仪测序后数据（下载地址：http://www.
clcbio.com/index.php?id=1290），组装软件选择Oases（基于Velvet的转录组版本）。具体组装步骤如下：

序列数据的解压缩：

1、Linux系统下通过gunzip命令对解压缩数据包得到三个文件：

a. Ecoli.FLX.fna序列数据存储文件；

b. Ecoli.FLX.qual测序序列质量评分文件；

c. NC_010473.gbk大肠杆菌的基因组数据。

2、序列片段格式显示：

# more ./Ecoli.FLX.fna

Oases组装过程：

1、软件下载：

Velvet：http://www.ebi.ac.uk/~zerbino/velvet/velvet_1.0.18.tgz

Oases：http://www.ebi.ac.uk/~zerbino/oases/oases_latest.tgz

2、软件解压缩：

# tar -xvf ./velvet_1.0.18.tgz

# tar -xvf ./oases_latest.tgz

3、Velvet的编译：

进入Velvet目录，命令如下：

# cd velvet_1.0.18/

编译可执行文件，命令如下：

# make

Oases的编译：

进入Oases目录，命令如下：

# cd oases_0.1.18/

编译可执行文件，命令如下：

# make ‘VELVET_DIR= ./velvet_1.0.18’

4、运行Velvet软件：

进入Velvet目录，命令如下：

# cd velvet_1.0.18/

创建新的工作目录，命令如下：

# mkdir ./new_directory

执行Velveh，命令如下：

# ./velveth new_directory 50 –fasta -short ./Ecoli.FLX.fna

执行Velvet，命令如下：

# ./velvetg new_directory -read_trkg yes

运行Oases软件，命令如下：

进入Oase目录，命令如下：

# cd Oases_1.0.18/

查看帮助文档，命令如下：

# ./oases –help

运行软件，命令如下：

# ./oases ./ new_directory -scaffolding yes

5、组装完成。new_directory中产生一系列结果文件，其中，transcripts.fa文件为目的组装结果文件。

logos

关于我们

苏州大学系统生物学研究中心

苏州大学