作者lingon (林果)
看板BioMedInfo
标题Re: [问题] 请问有无方便的程式或方法可帮我解决难题..
时间Wed Jul 30 00:05:43 2008
let filename = foo.txt
open terminal and change to the directory where the file is
and type
# make a backup file
$ cp foo.txt foo.txt.bk
#clean file format
$ perl -pi -e 's/(>.*)/$1,/g' foo.txt
$ perl -pi -e 's/\s//g' foo.txt
$ perl -pi -e 's/(>.*),/\n$1\n/g' foo.txt
# extract pattern and store in foo.txt
$ perl -pi -e 's/.*(TAC.*TTT).*/$1/g' foo.txt
IMPORTANT: every sequence in foo.txt will be over write by extracted
sequence pattern.
※ 引述《enisx (东方有比目鱼,不比不行)》之铭言:
: 请教各位高手,
: 我手上有外送回来定序的DNA序列文字档(.txt)
: 里头大约有约700-1000条,档案已经转成FASTA格式了,
: 但是,我想从每条DNA序列中"撷取"出我想要的部份,
: 举例如下:
: -------------------------------------------------------------
: >123456
: ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC
: TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT
: 我想要得到如下形式
: >123456
: TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT
: -------------------------------------------------------------
: 这些我想要撷取的序列都是呈现 TACXXXXXXXXXTTT 的格式,
: 因为我一直找不到好方法来做,
: 所以目前是以Emeditor打开原始的文字档,以正规表示法标示出我想要的位置
: ,然後....一条一条地将不要的部份删除,再将之复制贴上到另外的文字档上 ,
: 这样土法炼钢还蛮笨的也花了我很多时间在这些重复性工作~~
: 想请教各位高手,是否有快一点的方法,请教教我吧!! 谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 132.183.24.60
1F:推 alpe:grep -P '/TAC.*TTT/' target.txt 有linux的话? 07/30 01:12
2F:推 body:学长诚好人也~ ( ′▽`)-o□ 07/30 07:10
3F:推 enisx:谢谢你 07/30 08:23
4F:→ hgsfhevil:linux指令是好东西 07/30 22:39
5F:推 vixen:一楼的办法遇到Unix/Win换行符号之差可能会有闪失 07/31 01:15