作者masamonster (..)
看板BioMedInfo
标题Re: [问题] 请问有无方便的程式或方法可帮我解决难 …
时间Tue Jul 29 22:40:44 2008
※ 引述《enisx (东方有比目鱼,不比不行)》之铭言:
: 请教各位高手,
: 我手上有外送回来定序的DNA序列文字档(.txt)
: 里头大约有约700-1000条,档案已经转成FASTA格式了,
: 但是,我想从每条DNA序列中"撷取"出我想要的部份,
: 举例如下:
: -------------------------------------------------------------
: >123456
: ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC
: TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT
: 我想要得到如下形式
: >123456
: TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT
: -------------------------------------------------------------
: 这些我想要撷取的序列都是呈现 TACXXXXXXXXXTTT 的格式,
: 因为我一直找不到好方法来做,
: 所以目前是以Emeditor打开原始的文字档,以正规表示法标示出我想要的位置
: ,然後....一条一条地将不要的部份删除,再将之复制贴上到另外的文字档上 ,
: 这样土法炼钢还蛮笨的也花了我很多时间在这些重复性工作~~
: 想请教各位高手,是否有快一点的方法,请教教我吧!! 谢谢
蛮久没有文章了,回文灌一下水~
既然你会写正规表示法,其实你可以用perl, python等等写个小程式,
先记录 >/d+,然後读入DNA序列後用你的Regular Expression去抓出目标序列
Regular Expression的grouping功能就可以协助你把目标序列记录起来
(
http://www.regular-expressions.info/brackets.html)
接下来分别印出既可~
希望对你有帮助喔~ :)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.216.179.188
1F:推 enisx:感谢你..我试试看!! 07/29 23:30
2F:→ enisx:哈哈不过我只会用最简单的..能力还不到能写程式 07/29 23:30