作者miecho (殊途同归)
看板BioMedInfo
标题[程式] Illumina sequence adapter QC_clipper
时间Wed Jul 15 00:08:43 2015
各位先知先进大大好
小弟我目前正在努力研究 NGS data 做 metatranscriptomic 上
在处理 data alignment 前利用fastx-toolkit 做QC的动作时候
data中在经由FastQC 工具发现序列中有大量 adapter 存在
似乎影响QC结果
於是想利用fastx-clipper做'切除'的动作 但未果!!
以下用test seq 来表示:
test.fastq
----
@test1
CCTTAAGGAAAAAAAAAAGGGGGGGGGG
+test1
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test2
CCTTAAGGAAAAAAAAAGGGGGGGGGGG
+test2
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test3
AGAGAGAGAGAGAGAGAGAGAGAGAGAG
+test3
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test4
CCTTAAGGTTGACGTGATCGACACCTGG
+test4
[[[[[[[[[[[[[[[[[[[[[[[[[[[[
----
我所用的command line:
fastx_clipper -v -a CCTTAAGG -i test.fastq -o test
Clipping Adapter: CCTTAAGG
Min. Length: 5
Input: 4 reads.
Output: 1 reads.
discarded 0 too-short reads.
discarded 3 adapter-only reads.
discarded 0 N reads.
test
----
@test3
AGAGAGAGAGAGAGAGAGAGAGAGAGAG
+test3
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
----
另外不管是用
fastx_clipper -k -a CCTTAAGG -i test.fastq -o test 或
fastx_clipper -n -a CCTTAAGG -i test.fastq -o test
得到的结果都只是滤掉 而不是做切除
@test1
[CCTTAAGG]AAAAAAAAAAGGGGGGGGGG
+test1
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test2
[CCTTAAGG]AAAAAAAAAGGGGGGGGGGG
+test2
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test4
[CCTTAAGG]TTGACGTGATCGACACCTGG
+test4
[[[[[[[[[[[[[[[[[[[[[[[[[[[[
请问这个工具就是只会做过滤的工作 没办法做到切除adapter吗?
如果没办法,我是不是要把过滤出来的sequence 档案拿出来做另外处理(取代)即可
或是有另外工具可以处理掉呢?
另外 结果 report 中
Clipping Adapter: CCTTAAGG
Min. Length: 5
Input: 4 reads.
Output: 1 reads.
discarded 0 too-short reads.
discarded 3 adapter-only reads.
discarded 0 N reads. << 这一行在我的data中也会有一些seq被过滤
这一行的过滤动作是什麽意思?
问题有点多,也没有查到需求的资料
上来问问先进先知
先谢谢各位的帮助了!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.248.28.32
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/BioMedInfo/M.1436890128.A.94A.html
1F:推 liuse: try cutadapt 07/17 06:05
2F:→ miecho: 谢谢楼上大大,我会再试试看这个工具!!! 07/17 21:40