Trimmomatic怎么使用

这篇文章主要讲解了“Trimmomatic怎么使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Trimmomatic怎么使用”吧!

二代测序数据的指控一般包含以下步骤:

  1. 切除尾端碱基质量小于指定值(一般为20)的碱基。可以简单的单碱基修剪,也即从末端开始进行删除,直到读取碱基质量高于20;也可以进行滑窗修剪,也即从末端开始以指定碱基数目的滑窗开始修剪,直到滑窗内碱基平均质量高于20。

  2. 去除末端修剪后长度小于指定值的reads。不同项目指定值不同,一般宏基因组去掉小于50bp的reads(50bp已不够产生k-mer),而扩增子测序则根据raw reads长度和PCR插入片段的长度来确定,例如V4区大概260bp,那么可以去掉双末端reads之和小于280bp的(否则不足以拼接)。

  3. 其他一些要求,例如去除含有N(也即无法读取位点)过多的reads、去除完全重复的reads等。

通常质控需要我们自己写脚本来完成。Trimmomatic是一个便捷好用的Illumina测序数据质控工具,可以帮我们省掉很多代码任务,自发表以来引用量已过万,安装可以使用conda:
conda install -c trimmomatic
Trimmomatic基本使用方法及默认参数如下:  
java -jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36参数解释如下:PE/SE    设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。-threads    设置多线程运行数,也即核数-phred33  设置碱基的质量格式,可选pred64ILLUMINACLIP:TruSeq3-PE.fa:2:30:10    切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。LEADING:3  切除首端碱基质量小于3的碱基TRAILING:3  切除尾端碱基质量小于3的碱基SLIDINGWINDOW:4:15  滑窗修剪,一个Windows的size是4个碱基,其平均碱基质量小于15,则切除。MINLEN:50    最小的reads长度CROP:<length>    保留reads到指定的长度HEADCROP:<length>  在reads的首端切除指定的长度TOPHRED33      将碱基质量转换为pred33格式TOPHRED64      将碱基质量转换为pred64格式
下面通过一些实例为大家介绍该软件的使用方法:  
切除尾端碱基质量小于20的碱基(也即从末端开始进行删除,直到读取碱基质量高于20),并去掉剪切后长度小于150的小序列片段:java -jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq TRAILING:20 MINLEN:150使用末端滑窗修剪,同时去掉质控后长度过短(小于50bp)的小片段,如下所示:java -jar trimmomatic-0.33.jar PE -threads 20 -phred33 rm_dup_N_trim_1.fq rm_dup_N_trim_2.fq clean_1.fq unp_clean_1.fq clean_2.fq unp_clean_2.fq SLIDINGWINDOW:4:20 MINLEN:50
质控后,我们由raw reads获得clean reads,也可以再次使用FastQC进行质量可视化来查看质控效果:

Trimmomatic怎么使用

Trimmomatic怎么使用

感谢各位的阅读,以上就是“Trimmomatic怎么使用”的内容了,经过本文的学习后,相信大家对Trimmomatic怎么使用这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!