作者aattsat (DungDung)
看板Perl
标题Re: [请益] 字串部分比对筛选
时间Fri Dec 7 15:57:25 2012
※ 引述《killerjackal (比利养了一只狗叫比利)》之铭言:
: 现在手边有两个档案
: 档案的格式都差不多长一样
: >xxxxxxx(title)xxxxxxxxx
: stringstringstringstring......
: A档案格式如下:
: >UniqueRead1_count1
: CTCGCCGTCGCAAACCCAAGCTGTCT
: >UniqueRead2_count1
: CTCGCCTGGCTGTGGTTCTTCTAACA
: >UniqueRead3_count1
: CTCGCCTGCTAAGCGTTGAGATCATC
: B档案如下:
: >UniqueRead1_count1
: CTCGCCCCCCCAAAAAAAACAAAAACGCCTCATACGAGATTATCAATTAGCTAAGTTGGTAATGTG
: >UniqueRead2_count1
: CTCGCCGCCAGTAACATTCATTTACGTTTTATCATATATTTGATTTCTTGCTTTTATTCCATTTAT
: >UniqueRead3_count1
: CTCGCCTCCTATTCTTCCCGCCACTTCTTGCTTGACCAACAACCTCAGCTCTCATCACTCACCTGG
: 目的是要看A档案出现的内容是否也在B档案中出现过
: 意思就是说如果A档案的第一笔资料(资料内容)
: >UniqueRead1_count1(此为资料名称)
: CTCGCCGTCGCAAACCCAAGCTGTCT (此为资料内容)
各位高手
我遇到类似问题,不过是要去除相同资料
主要问题爲
检查title 只要相同,连同strings不保留
也就是
以A为主的资料 要检查出里面是否包含B资料中含title的资料
而C存取A不包含B的剩余资料
有想过是使用 sort 与 杂凑
请问该如何着手撰写程式
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 113.61.134.176
1F:推 qulqul:如果是序列档案的话可以用Bioperl模组处理 12/07 17:29
2F:推 abliou:如果要移除重复序列 还是用降identity的软体比较保险喔 12/08 09:08
3F:→ qulqul:原PO消失了!? 12/10 17:52
看过Bioperl 稍微复杂了 後来还是用BLAST去除相似序列...
谢谢两位提供意见^^
※ 编辑: aattsat 来自: 113.61.134.176 (12/22 11:24)