第8章

章节实例:第8章 MicroRNA-Seq数据分析



第一部分:本地分析软件

(一) mireap

mireap下载地址为:https://sourceforge.net/projects/mireap/,运行环境为支持Perl语言的Linux或Windows操作系统。软件输入文件为FASTA格式,输出有三个文件,分别以*.gff、*.aln和*.log后缀结尾。

软件安装步骤如下:

1)安装ViennaRNA package 2.0,下载地址为:http://www.tbi.univie.ac.at/RNA/。请务必确保计算机可以正常运行Perl脚本程序;

2)将下载完成的mireap_0.2.tar.gz文件拷贝至目录/foo/bar,使用如下命令解压缩该文件;

tar –zxvf

3)运行mireap之前,需要增加一个可以运行Perl脚本程序的路径。其中,csh/tcsh用户使用如下命令添加:

setenv PERL5LIB /foo/bar/mireap_0.2/lib

如果是sh/ksh/bash用户,请使用下面这条命令添加:

export PERL5LIB=/foo/bar/mireap_0.2/lib

软件的输入文件包括三个部分,分别是:

1)smrna.fa:miRNA文库文件。将非FASTA格式的miRNA文库文件转换成FASTA格式,并且给每个序列增加一个标号(ID),条目如下:

>t0000035 3234

GAATGGATAAGGATTAGCGATGATACA

>t0000072 1909

TTGCAGTATGTAGGAAATCAAAACGTTC

…(下略)

以第一行为例,t0000035表示序列读段(read)的read_ID,3234表示相应的测序频数(sequencing frequence)。

2)map.txt:miRNA在染色体上的映射(mapping)关系文件,格式如下:

t0000035 nscaf1690 4798998 4799024 +

t0000035 nscaf1690 4805385 4805411 +

t0000035 nscaf1690 7588502 7588528 +

t0000072 nscaf1690 2923961 2923988 -

…(下略)

该文件每一行的相邻元素用Tab键分隔。其中,第一列表示序列读段的read_ID,第二列表示染色体ID,第三列和第四列分别表示读段在染色体上的起始位置和终止位置,第五列的正负号用于区分读段在染色体上的正义链和负义链。

3)ref.fa:参考(reference)序列文件,FASTA格式,内容如下:

>nscaf1690 /length=7983491 /lengthwogaps=7414637

AAAAAAAAAGGACAGTATAAATAGAATAGTAACAAAGGTGAAATTAATTGTTAGTTCGGTTTGTTATGGAAGTATTTTTTTTT
GTTTATAAGCAAATTTGTTTGTTTTTAAA

…(下略)

基于上述三个文件,就可以安装运行软件了。命令如下:

mireap.pl -i <smrna.fa> -m <map.txt> -r <reference.fa> -o <outdir>

其中,相关参数的含义如下:

-i:miRNA文库,FASTA格式

-m:miRNA在染色体上的映射(mapping)关系

-r:参考序列,FASTA格式

-o:结果输出路径(默认:当前文件夹)

软件运行完成后,将输出三个结果文件,分别是:

1)*.gff文件:该文件包含mireap发现的miRNA基因,数据格式为gff3。其中,“Count”表示测序频数;

2)*.aln文件:该文件包含序列、miRNA前体结构和miRNA比对至前体序列的信息;

3)*.log文件:该文件为日志文件,包含相关参数、软件运行的开始和结束时间等附加信息。

(二) miRDeep

miRDeep下载地址:https://www.mdc-berlin.de/8551903/en/research/research_teams/systems_biology_of_
gene_regulatory_elements/projects/miRDeep
。网站中提供了软件运行的脚本文件miRDeep.tgz以及测试数据demo_limited.tgz、demo_full.tgz。除此之外,软件运行还需要以下必要文件:

1)NCBI包,下载地址:http://www.ncbi.nlm.nih.gov/Ftp/,其中包含了所有可执行软件和相关文件;

2)Vienna包,下载地址:http://www.tbi.univie.ac.at/RNA/,其中包含了详细的UNIX和Windows用户的安装信息。如果是UNIX用户,软件下载后输入以下编译命令:

./configure

make

sudo make install

下面以深度测序结果454_total.fa和线虫基因组为例,演示软件的使用方法(数据文件详见demo_limited.tgz):

formatdb -i genome_cel.fa -p F -o T

megablast -d genome_cel.fa -i 454_total.fa -o blastout -W 12 -D 2 -p 100

blastoutparse.pl blastout > blastparsed

filter_alignments.pl blastparsed -c 5 > blastparsed_excision

overlap.pl blastparsed_excision ucsc_ncRNA -b > ids_overlap_ucsc_ncRNA

cat ids_overlap_* | sort -u > ids_overlap_total

blastparselect.pl blastparsed_excision -g ids_overlap_total > blastparsed_excision_filtered

filter_alignments.pl blastparsed_excision_filtered -b 454_total.fa > 454_aligned.fa

excise_candidate.pl genome_cel.fa blastparsed_excision_filtered > precursors.fa

cat precursors.fa | RNAfold -noPS > structures

auto_blast.pl 454_aligned.fa precursors.fa -b > signatures

miRDeep.pl signatures structures -s mature_metazoan_no_cel_v10.fa -y > predictions

软件的输出文件名为Predictions,输出数据中包括预测分值、miRNA成熟体/前体/初级体的序列、结构等信息。

(三) miRExpress

miRExpress下载地址:http://mirexpress.mbc.nctu.edu.tw/。该软件编译环境为32或64位的Linux操作系统,并且处理器要求支持SSE3,安装命令如下:

./configure

make

sudo make install

miRExpress适用于FASTQ格式的miRNA深度测序数据处理,序列的碱基数要求小于64。该软件已知的miRNA信息来源于miRBase。原始数据处理以及miRNA表达谱构建的命令流程概括如下:

Raw_data_parse -> Trim_adaptor -> alignmentSIMD -> analysis

具体操作步骤为:

1)使用“Raw_data_parse”命令处理FASTQ格式的原始数据,相应的输出结果是单一的(unique)读段序列以及它们的数量,Tab键分隔,命令格式如下:

Raw_data_parse [-i raw_data] [-o output file name, optional]

其中,相关参数的含义如下:

-i:原始测序数据,FASTQ格式

-o:输出文件名(默认:输入文件名+“.merge”)

2)使用“Trim_adapter”命令处理包含接头(adaptor)的读段序列,输入数据中序列数目和序列之间使用Tab键分隔,格式如下:

命令格式如下:

Trim_adapter [-i input file] [-t 3' adaptor sequence file] [-h 5' adaptor sequence file, optional] [-o output file name, optional]

其中,相关参数的含义如下:

-i:输入的序列文件

-t:3’端接头序列文件

-h:5‘端接头序列文件

-o:输出文件名(默认:输入文件名+“.trim”)

3)使用“alignmentSIMD”命令比对查询序列和参考序列。用法如下:

alignmentSIMD [-r precursor miRNA file] [-i input sequence file] [-o output directory] [-t alignment identity, optional] [-n Rank nohit file] [-u Number of CPU for calculation]

其中,相关参数的含义如下:

-r:miRNA前体

-i:输入文件

-o:输出目录

-t:查询序列和参考序列间的比对增幅(默认值:1)

-n:结果排序文件,按读段序列的数量排序

-u:希望创建的线程数,取决于计算机CPU数量(默认值:1)

4)使用“analysis”命令分析比对结果并且构建miRNA表达谱。用法如下:

analysis [-r precursor miRNA file] [-d alignment result directory] [-o output file name (expression)] [-t output file for comparing result,optional]

其中,相关参数的含义如下:

-r:miRNA前体(与“alignmentSIMD”中使用的文件一致)

-d:比对结果目录(与“alignmentSIMD”中定义的目录一致)

-o:输出文件:比对结果

-t:输出文件:表达谱构建结果

此外,软件提供了相关的测试数据,由于篇幅所限,详细的操作说明请参阅软件的“Example”和“README”文件。

(四) miRTRAP

miRTRAP下载地址:http://flybuzz.berkeley.edu/miRTRAP.html。使用如下命令进行安装:

gunzip miRTRAP.tar.gz

tar xvf miRTRAP.tar

cd miRTRAP

perl makefile.pl

make

make test

make install

软件的输入文件主要有两个:1)配置文件:config.txt;2)读段信息文件:reads.txt。

可以使用如下命令运行软件:

./miRTRAP.pl config.txt

此外,软件也可以分步运行。由于篇幅所限,详细的步骤方法请参阅相关的测试数据文件。

(五) MIReNA

MIReNA下载地址:http://www.ihes.fr/˜carbone/data8/,以深度测序数据处理为例,软件安装运行命令如下:

1)软件安装:

cd <repository where this README is>

./configure

make

2)软件运行:

../MIReNA.sh -D -b cel_deep_sequencing/megablastparsed_filtered -f cel_deep_sequencing/454_total.fa -j cel_deep_sequencing/genome_cel.fa -k cel_deep_sequencing/mature_metazoan_no_cel_v14.fa

这里,454_total.fa是深度测序得到的结果文件,FASTA格式;genome_cel.fa是参考基因组信息,FASTA格式。由于篇幅所限,详细内容请参阅相关的测试数据文件。

(六) miRNAkey

miRkey下载地址:http://ibis.tau.ac.il/miRNAkey/,网站中提供了软件的可执行文件、测试数据以及相应的操作说明。软件的运行环境为64位架构的Linux/Unix 或Mac系统,除此之外,需要手动安装Java运行环境(JRE,6.0版本及以上)、Burrows-Wheeler Alignment工具、Fastx-Toolkit以及以下Perl模块:

Math::CDF

Spreadsheet::WriteExcel

Getopt::Long

GD::Graph::bars

以上工具可以点击http://ibis.tau.ac.il/miRNAkey/req.html选择下载,Perl模块可以通过如下命令安装:

$>cpan Math::CDF Spreadsheet::WriteExcel Getopt::Long GD::Graph::bars

下载完成后,可以通过双击miRNAkey.jar文件运行软件,以网站提供的测试数据“Small sample-data & output”为例,软件操作如图8-1所示。

图8-1 miRNAkey软件操作示意图

软件的输出文件包括比对结果、剪切结果、比对上和未比对上的读段序列、SEQEM分析结果、差异表达分析结果、总结报告等。详细信息请参阅测试数据 “sample_output_data”文件夹中的相关内容。


第二部分:在线分析软件

(一) miRanalyzer

miRanalyser的网址为:http://web.bioinformatics.cicbiogune.es/microRNA/。该软件允许的输入数据格式有两种:

1)包含读段序列和实验中该读段出现次数的文本文件,其中,读段序列和次数之间使用Tab键分隔,格式如下:

GAGGTAGTAGGTTGTA 49862

ACCCGTAGAACCGACC 15490

…(下略)

2)FASTA格式,参考如下:

>ID 49862

GAGGTAGTAGGTTGTA

>ID 15490

ACCCGTAGAACCGACC

…(下略)

其中,“49862”表示实验中读段“GAGGTAGTAGGTTGTA”出现的次数。详细信息请参阅:http://web.bioinformatics.
cicbiogune.es/microRNA/manual.html

文件上传后需要设置必要的运行参数,如图8-2所示。

图8-2 miRanalyzer运行参数设置示意图

软件的运行结果主要包括:1)输入数据的总结报告;2)输入数据中包含已知miRNA的统计结果;3)与其它转录组序列比对的统计结果;4)预测到的新miRNA的统计结果;5)未匹配的读段信息等。

(二) DSAP

DSAP的网址为:http://dsap.cgu.edu.tw,输入数据的格式如下:

260135 TGGAATGTAAAGAAGTATGTATTCGTATGCCGT

213816 TGAGGTAGTAGGTTGTATAGTTTCGTATGCCGT

…(下略)

其中,第一列表示读段序列的拷贝数,第二列表示读段序列,使用Tab键分隔。如果文件为FASTQ格式,可以从网站http://maasha.github.io/biopieces/下载工具read_fastq将格式转换成要求的输入形式,命令如下:

read_fastq -i INPUT.fastq | uniq_seq -c | sort_records -r -k SEQ_COUNTn | write_tab -k SEQ_COUNT,SEQ -xo OUTPUT.tag

上传完成后,设置必要的运行参数,例如,是否考虑接头序列、是否考虑多聚A/T/C/G/N核苷酸、选择物种等。软件运行结果通过图表等形式直观呈现,如图8-3所示。

图8-3 DSAP运行结果汇总

(三) mirTools

mirTools的网址为:http://centre.bioinformatics.zj.cn/mirtools/,软件输入为原始测序数据经过预处理后的FASTA文件,格式如下:

>UniTag-009_x80

CATTTATTATTTATCTTATTCCTTCTTCTTTTTTA

…(下略)

这里,“UniTag-009”表示读段序列的唯一ID,由用户定义;“x80”表示“UniTag-009”标记的读段序列在测序样本中出现了80次,它们之间使用下划线“_”相连。网站http://centre.bioinformatics.zj.cn/mirtools/adaptortrim.php提供了Perl脚本程序Adapter_trim,用于从原始测序数据中去除低质量的读段序列以及3’/5’接头序列。使用命令如下:

perl Adapter_trim.pl [options] >outputfile

其中,相关参数的含义如下:

-i:FASTQ格式的短序列文件

-n:样本名称(默认:sample)

-x:5’端接头序列(默认:GTTCAGAGTTCTACAGTCCGACGATC)

-y:3’端接头序列(默认:TCGTATGCCGTCTTCTGCTTG)

-f:FASTQ文件格式,1:Sanger格式;2:Solexa/Illumina 1.0格式;3:Illumina 1.3+格式。(默认值:2)

软件运行输出包括已知miRNA比对识别、新的miRNA预测、miRNA差异表达分析等结果,如图8-4所示。相关内容会通过电子邮件反馈给用户。

图8-4 mirTools运行结果汇总