[问题] 资料撷取

时间Mon Jun 11 10:25:04 2012

各位大大好最近在撰写一个程式是在一笔资料中(为.dat档)要撷取部分资料成为fasta档范例为其中一笔序列资料如下 ID 104K_THEPA STANDARD; PRT; 924 AA. AC P15711; DT 01-APR-1990 (Rel. 14, Created) DE 104 kDa microneme-rhoptry antigen. OS Theileria parva. OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae; OC Theileria. OX NCBI_TaxID=5875; RN [1] RP SEQUENCE FROM N.A. RC STRAIN=Muguga; RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9; RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K., RA Musoke A.J.; RT "Characterisation of the gene encoding a 104-kilodalton microneme- RT rhoptry protein of Theileria parva."; RL Mol. Biochem. Parasitol. 39:47-60(1990). CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes. CC -------------------------------------------------------------------------- CC This SWISS-PROT entry is copyright. CC -------------------------------------------------------------------------- DR EMBL; M29954; AAA18217.1; -. DR PIR; A44945; A44945. DR TIGRFAMs; TIGR01870; cas_TM1810; 1. KW Antigen; Repeat; Sporozoite. FT DOMAIN 1 19 Hydrophobic. FT DOMAIN 905 924 Hydrophobic. SQ SEQUENCE 924 AA; 103625 MW; 289B4B554A61870E CRC64; MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL // 每笔序列都是从ID开始 //结束而我要撷取的资料模式为 P15711|104K_THEPA|Antigen; Repeat; Sporozoite MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL (撷取名称) AC|ID|KW| SQ 请问我要如何下正规化的指令呢? 谢谢!! --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 113.61.134.176

1^F：→ iFEELing:每行开头两个字是空白的? 06/11 22:15

2^F：→ iFEELing:啊没看到底下还有 06/11 22:16

3^F：→ OneGuilty:一般正规化做得到这麽复杂吗@@?不考虑用split等之类的处 06/13 17:06

4^F：→ OneGuilty:理?? 06/13 17:06

因为连字串该怎麽处里都有点不清楚... 所以应该要先split 再来撷取吗? 请问split部分该如何撰写目前试着写出AC、ID、KW撷取的字串处理 $AC=~ /AC\s+(\S+);.*/ $ID=~ /ID\s+(\S+)\s.*/ $KW=~ /KW\s+(\S+);.*/ 请问我的正规化指令有写对吗? 谢谢! ※ 编辑: aattsat 来自: 113.61.134.176 (06/13 22:59)

5^F：→ piglon:何不一行一行处理 06/15 22:01

6^F：→ s4553711:序列都在最後面，所以读到SQ之後跳下一行，之後全读，再 06/16 17:35

7^F：→ s4553711:把空白拿掉，应该就可以了吧 06/16 17:36

因为卡在没有split 前面程式跑出来都不正确加入split後程式已顺利执行也把空白都置换掉了~ 谢谢各位的建议~ ※ 编辑: aattsat 来自: 113.61.134.176 (06/20 17:45)

8^F：→ windincloud:NCBI应该没那摸麻烦吧~直接选fasta就可以下载seq不是? 06/21 11:31

因为个人研究是要使用旧版的资料，只剩dat档才会需要此步骤 ※ 编辑: aattsat 来自: 113.61.134.176 (06/21 12:54)

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Perl 板

[问题] 资料撷取

热门看板

赞助商连结