作者Zing119 (Mr.ㄡ)
看板BioMedInfo
標題[工具] 如何知道 BLAST output 所屬的species
時間Thu Jun 7 02:41:10 2012
請問BLAST的小問題
我現在想要知道我用blast之後 (against nr database)
所output出來的每條sequence 各是屬於哪個species
我知道如果用default的output format
他會秀出 >gb|AAT93342.1| YPR002C-A [Saccharomyces cerevisiae]
裡面就會包含species的資訊
但是如果我想要用-m 8這種 tabular 的output format
就只會得到
sp|Q06127|YL334_YEAST gi|74644934|sp|Q06127.1|YL334_YEAST 100.00 126 0 0 1 126 1 126 8e-48 193
sp|Q06127|YL334_YEAST gi|74644557|sp|Q96VH1.1|YC018_YEAST 73.44 64 15 1 14 75 21 84 2e-06 55.8
sp|Q06127|YL334_YEAST gi|158564315|sp|Q6B0V7.2|YPR02_YEAST 68.75 64 18 1 14 75 2 65 2e-04 49.7
sp|Q06127|YL334_YEAST gi|51014097|gb|AAT93342.1| 70.31 64 17 1 14 75 2 65 2e-04 49.7
第二欄這樣的id
雖然有些可以從id直接看出species
但仍有許多無法直接辨識
我想請問是否有人知道如何讓blast output出簡潔的資料 但又要包含species的資訊
又或者
gi|74644934
這個GenBank Identifier該要如何轉換呢?
是否有tool或是對應表?
感謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.109.22.146
※ 編輯: Zing119 來自: 140.109.22.146 (06/07 03:03)
1F:→ windincloud:我用很笨的方法是自己先paser subject的fasta 抓對應 06/07 14:33
2F:→ Zing119:但我是比對NR database 並不是自己的database.. 06/07 14:43
3F:→ windincloud:昨天我有幫你看過~ 不管新舊BLAST都沒這功能 tool我記 06/08 10:14
4F:→ windincloud:得好像有 要找看看...... 06/08 10:15
5F:推 daniel0523:還是用python,perl寫parser把default format裡的資料 06/11 01:18
6F:→ daniel0523:一個個抓出來呢?,比對gid找species應該也是要寫parser 06/11 01:20
7F:→ daniel0523:把需要的資料撈出來,感覺怎麼作還是得寫parser.. 06/11 01:21
8F:推 uper:用bioperl parse你要的資料 會很有效率的 06/12 18:42
9F:→ phycomp:-outfmt '6 sseqid'看是否可以帶出來 10/04 07:46