章节实例:第5章 小片段序列组装
第一部分:基因组测序数据的组装
这里我们下载经Solexa/Illumina测序平台对Staphylococcus aureus strain MW2的基因组进行测序的数据(下载地址:http://www.genomic.ch/edena/mw2Reads.seq.gz),选用代表不同组装算法的三种组装软件——SSAKE、Edena、SOAPdenovo分别对上述小序列片段数据进行组装。具体操作步骤如下:
序列数据的解压缩:
1、Linux操作系统下终端输入以下命令:
# gunzip ./ mw2Reads.seq.gz
2、数据格式显示,命令如下:
# more ./mw2Reads.seq
1)SSAKE组装过程
1、软件下载:http://www.bcgsc.ca/bioinfo/software/ssake
2、软件解压缩,命令如下:
# tar -xvf ./ssake_v3-7-tar.gz
3、进入文件目录,命令如下:
# cd ./ ssake_v3-7
4、查看软件使用帮助,命令如下:
# ./SSAKE –help
5、建立组装工程目录,命令如下:
# mkdir ./new-assembly
通过mv命令将解压后的待组装数据文件转移到所建目录中。
6、组装命令:这里待组装数据为单末端测序片段,序列长度为35bp,命令如下:
# ./SSAKE -f ./new-assembly/mw2Reads.seq -m 25 -o 8 -r 0.7
其它参数选择默认值。
7、组装完成。组装工程目录中得到四个文件:
a. contigs文件:组装最终结果重叠群序列的fasta格式文件;
b. log文件:组装过程记录日志文件;
c. short文件:用于存储待组装序列中长度小于m的部分,这些序列无法用于后续的组装过程;
d. singlets文件:用于存储进入组装过程但没有用于序列延伸的序列。
2)Edena组装过程
1、软件下载:http://www.genomic.ch/edena/edena2.1.1_linux64.tar.gz
2、软件解压缩,命令如下:
# tar -xvf ./edena2.1.1_linux64.tar.gz
3、进入文件目录,命令如下:
# cd edena2.1.1_linux64
4、查看软件使用帮助,命令如下:
# ./edena
5、建立组装工程目录,当前目录下输入:
# mkdir ./new-assembly
通过mv命令将解压后的待组装数据文件转移到所建目录中。
6、组装命令。Edena的组装分两个过程:重叠模式和组装模式。重叠模式建立重叠图,而组装模式是对图进行修剪并输出最终组装结果。
7、重叠模式,命令如下:
# ./edena -r ./new-assembly/mw2Reads.seq -M 20 -p out_20 –t 1
产生中间过程文件out_20.ovl,用于后续组装模式。
8、组装模式,命令如下:
# ./edena –e ./ out_20.ovl -p strict_20 -c 100 -s 1
其它参数选择默认值。
9、组装完成。组装结果所得三个文件:
a. info文件:组装过程记录日志文件;
b. fasta文件:用于存储符合设定条件并被输出的重叠群序列;
c. cov文件:用于存储组装结果重叠群序列的每个碱基位置的覆盖度信息。
3)SOAPdenovo组装过程
1、软件下载:http://soap.genomics.org.cn/soapdenovo.html
2、软件解压缩,命令如下:
# tar -xvf ./ SOAPdenovo-v1.04.tgz
3、进入文件目录,命令如下:
# cd SOAPdenovo_Release1.04
4、查看软件使用帮助,命令如下:
# ./SOAPdenovo
5、建立组装工程目录,当前目录下输入以下命令:
# mkdir ./new-assembly
然后通过mv命令将解压后的待组装数据文件转移到所建目录中。
6、组装过程。configFile文件配置:我们选择“–all”组装模式,故需配置configFile。以下为configFile文件内容:
# maximal read length
max_rd_len = 35
asm_flags = 1
f = ./mw2Reads.seq
7、组装命令:
# ./SOAPdenovo all –s ./configFile –K 25 –o graph_prefix -p 8
其它参数选择默认值。
8、组装完成。组装结果有一系列的文件,其中,.contig文件为组装重叠群的存储文件。
第二部分:转录组测序数据的组装
我们选用的待组装数据为大肠杆菌(E.coli)的转录组经过Roche 454测序仪测序后数据(下载地址:http://www.
clcbio.com/index.php?id=1290),
组装软件选择Oases(基于Velvet的转录组版本)。具体组装步骤如下:
序列数据的解压缩:
1、Linux系统下通过gunzip命令对解压缩数据包得到三个文件:
a. Ecoli.FLX.fna序列数据存储文件;
b. Ecoli.FLX.qual测序序列质量评分文件;
c. NC_010473.gbk大肠杆菌的基因组数据。
2、序列片段格式显示:
# more ./Ecoli.FLX.fna
Oases组装过程:
1、软件下载:
Velvet:http://www.ebi.ac.uk/~zerbino/velvet/velvet_1.0.18.tgz
Oases:http://www.ebi.ac.uk/~zerbino/oases/oases_latest.tgz
2、软件解压缩:
# tar -xvf ./velvet_1.0.18.tgz
# tar -xvf ./oases_latest.tgz
3、Velvet的编译:
进入Velvet目录,命令如下:
# cd velvet_1.0.18/
编译可执行文件,命令如下:
# make
Oases的编译:
进入Oases目录,命令如下:
# cd oases_0.1.18/
编译可执行文件,命令如下:
# make ‘VELVET_DIR= ./velvet_1.0.18’
4、运行Velvet软件:
进入Velvet目录,命令如下:
# cd velvet_1.0.18/
创建新的工作目录,命令如下:
# mkdir ./new_directory
执行Velveh,命令如下:
# ./velveth new_directory 50 –fasta -short ./Ecoli.FLX.fna
执行Velvet,命令如下:
# ./velvetg new_directory -read_trkg yes
运行Oases软件,命令如下:
进入Oase目录,命令如下:
# cd Oases_1.0.18/
查看帮助文档,命令如下:
# ./oases –help
运行软件,命令如下:
# ./oases ./ new_directory -scaffolding yes
5、组装完成。new_directory中产生一系列结果文件,其中,transcripts.fa文件为目的组装结果文件。