第5章

章节实例:第5章 小片段序列组装



第一部分:基因组测序数据的组装

这里我们下载经Solexa/Illumina测序平台对Staphylococcus aureus strain MW2的基因组进行测序的数据(下载地址:http://www.genomic.ch/edena/mw2Reads.seq.gz),选用代表不同组装算法的三种组装软件——SSAKE、Edena、SOAPdenovo分别对上述小序列片段数据进行组装。具体操作步骤如下:

序列数据的解压缩:

1、Linux操作系统下终端输入以下命令:

# gunzip ./ mw2Reads.seq.gz

2、数据格式显示,命令如下:

# more ./mw2Reads.seq

1)SSAKE组装过程

1、软件下载:http://www.bcgsc.ca/bioinfo/software/ssake

2、软件解压缩,命令如下:

# tar -xvf ./ssake_v3-7-tar.gz

3、进入文件目录,命令如下:

# cd ./ ssake_v3-7

4、查看软件使用帮助,命令如下:

# ./SSAKE –help

5、建立组装工程目录,命令如下:

# mkdir ./new-assembly

通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装命令:这里待组装数据为单末端测序片段,序列长度为35bp,命令如下:

# ./SSAKE -f ./new-assembly/mw2Reads.seq -m 25 -o 8 -r 0.7

其它参数选择默认值。

7、组装完成。组装工程目录中得到四个文件:

a. contigs文件:组装最终结果重叠群序列的fasta格式文件;

b. log文件:组装过程记录日志文件;

c. short文件:用于存储待组装序列中长度小于m的部分,这些序列无法用于后续的组装过程;

d. singlets文件:用于存储进入组装过程但没有用于序列延伸的序列。

2)Edena组装过程

1、软件下载:http://www.genomic.ch/edena/edena2.1.1_linux64.tar.gz

2、软件解压缩,命令如下:

# tar -xvf ./edena2.1.1_linux64.tar.gz

3、进入文件目录,命令如下:

# cd edena2.1.1_linux64

4、查看软件使用帮助,命令如下:

# ./edena

5、建立组装工程目录,当前目录下输入:

# mkdir ./new-assembly

通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装命令。Edena的组装分两个过程:重叠模式和组装模式。重叠模式建立重叠图,而组装模式是对图进行修剪并输出最终组装结果。

7、重叠模式,命令如下:

# ./edena -r ./new-assembly/mw2Reads.seq -M 20 -p out_20 –t 1

产生中间过程文件out_20.ovl,用于后续组装模式。

8、组装模式,命令如下:

# ./edena –e ./ out_20.ovl -p strict_20 -c 100 -s 1

其它参数选择默认值。

9、组装完成。组装结果所得三个文件:

a. info文件:组装过程记录日志文件;

b. fasta文件:用于存储符合设定条件并被输出的重叠群序列;

c. cov文件:用于存储组装结果重叠群序列的每个碱基位置的覆盖度信息。

3)SOAPdenovo组装过程

1、软件下载:http://soap.genomics.org.cn/soapdenovo.html

2、软件解压缩,命令如下:

# tar -xvf ./ SOAPdenovo-v1.04.tgz

3、进入文件目录,命令如下:

# cd SOAPdenovo_Release1.04

4、查看软件使用帮助,命令如下:

# ./SOAPdenovo

5、建立组装工程目录,当前目录下输入以下命令:

# mkdir ./new-assembly

然后通过mv命令将解压后的待组装数据文件转移到所建目录中。

6、组装过程。configFile文件配置:我们选择“–all”组装模式,故需配置configFile。以下为configFile文件内容:

# maximal read length

max_rd_len = 35

asm_flags = 1

f = ./mw2Reads.seq

7、组装命令:

# ./SOAPdenovo all –s ./configFile –K 25 –o graph_prefix -p 8

其它参数选择默认值。

8、组装完成。组装结果有一系列的文件,其中,.contig文件为组装重叠群的存储文件。


第二部分:转录组测序数据的组装

我们选用的待组装数据为大肠杆菌(E.coli)的转录组经过Roche 454测序仪测序后数据(下载地址:http://www.
clcbio.com/index.php?id=1290
), 组装软件选择Oases(基于Velvet的转录组版本)。具体组装步骤如下:

序列数据的解压缩:

1、Linux系统下通过gunzip命令对解压缩数据包得到三个文件:

a. Ecoli.FLX.fna序列数据存储文件;

b. Ecoli.FLX.qual测序序列质量评分文件;

c. NC_010473.gbk大肠杆菌的基因组数据。

2、序列片段格式显示:

# more ./Ecoli.FLX.fna

Oases组装过程:

1、软件下载:

Velvet:http://www.ebi.ac.uk/~zerbino/velvet/velvet_1.0.18.tgz

Oases:http://www.ebi.ac.uk/~zerbino/oases/oases_latest.tgz

2、软件解压缩:

# tar -xvf ./velvet_1.0.18.tgz

# tar -xvf ./oases_latest.tgz

3、Velvet的编译:

进入Velvet目录,命令如下:

# cd velvet_1.0.18/

编译可执行文件,命令如下:

# make

Oases的编译:

进入Oases目录,命令如下:

# cd oases_0.1.18/

编译可执行文件,命令如下:

# make ‘VELVET_DIR= ./velvet_1.0.18’

4、运行Velvet软件:

进入Velvet目录,命令如下:

# cd velvet_1.0.18/

创建新的工作目录,命令如下:

# mkdir ./new_directory

执行Velveh,命令如下:

# ./velveth new_directory 50 –fasta -short ./Ecoli.FLX.fna

执行Velvet,命令如下:

# ./velvetg new_directory -read_trkg yes

运行Oases软件,命令如下:

进入Oase目录,命令如下:

# cd Oases_1.0.18/

查看帮助文档,命令如下:

# ./oases –help

运行软件,命令如下:

# ./oases ./ new_directory -scaffolding yes

5、组装完成。new_directory中产生一系列结果文件,其中,transcripts.fa文件为目的组装结果文件。