作者xpertslayers (slayers)
看板BioMedInfo
标题Re: [问题] 请问有无方便的程式或方法可帮我解决难 …
时间Sun Aug 3 14:40:34 2008
Assume the fasta file format is stored in a file named: test.fasta
under linux env
type:
gawk 'BEGIN{reg = "TAC[ATCG]*TTT"}
{if(match($0,reg)) print substr($0,RSTART,RLENGTH);}' test.fasta
in one line...
※ 引述《enisx (东方有比目鱼,不比不行)》之铭言:
: 请教各位高手,
: 我手上有外送回来定序的DNA序列文字档(.txt)
: 里头大约有约700-1000条,档案已经转成FASTA格式了,
: 但是,我想从每条DNA序列中"撷取"出我想要的部份,
: 举例如下:
: -------------------------------------------------------------
: >123456
: ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC
: TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT
: 我想要得到如下形式
: >123456
: TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT
: -------------------------------------------------------------
: 这些我想要撷取的序列都是呈现 TACXXXXXXXXXTTT 的格式,
: 因为我一直找不到好方法来做,
: 所以目前是以Emeditor打开原始的文字档,以正规表示法标示出我想要的位置
: ,然後....一条一条地将不要的部份删除,再将之复制贴上到另外的文字档上 ,
: 这样土法炼钢还蛮笨的也花了我很多时间在这些重复性工作~~
: 想请教各位高手,是否有快一点的方法,请教教我吧!! 谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.104.214.51
※ 编辑: xpertslayers 来自: 59.104.214.51 (08/03 14:41)
1F:→ enisx:感谢您的方法! 我会好好研究一下 08/03 18:22