作者godspeedlee (你,我可以)
看板RegExp
标题Re: [问题] 长度固定的写法..(perl/php皆可)
时间Mon Oct 3 23:19:34 2011
※ 引述《godspeedlee (你,我可以)》之铭言:
※ 引述《squalll (追求梦想~)》之铭言:
: 没想到还会回来回这一篇....
: 最近才发现这样写有些资料有问题
: 因为资料栏位中不一定会有资料,
: 最後一个栏位如果是空白的话这样输出就会错误
: 12345a345cd2187ankjdkj219zxnmzxn2109890
: 123 j12345mc1235987ccccc aaaaxxxxxxx
: 12344123222 123ascv
: 这样到第三笔输出的时候会变得很奇怪
: 预期应该会变成
: 12345,a345cd,2187ankjdkj219,zxnmzxn,2109890
: 123 ,j12345,mc1235987ccccc, aaaa,xxxxxxx
: 12344,123222,,123ascv,
: 但是实际上第三笔资料会变成
: 12344123222,123ascv之类的..
: 我的REGEXP目前是这样写
: foreach $thing (@list){
: $thing =~ s/(.{5})(.{6})(.{7})(.{8})(.{9})/$1,$2,$3,$4,$5/;
: ....
: }
: 主要应该是因为s/match一串非空白字元,并以找到的字串为结尾
: 所以当我最後一栏资料为空白的时候就会发生错误了
: 不知道有没有人遇过类似的问题? 该如何解决呢
: 我的资料是连续的..该怎麽写才可以取出度定长度的值(包含空白)
: 谢谢m(_ _)m
你上一篇说资料是以空白作为分隔,那你可以把它当成 csv,然後每读进
一行就套用下面这个 pattern:
(\s 指的是空白字元, \S 是非空白字元)
\G(?:^|\s+)(\S+)
个人觉得这样还比较简单些,不过这次您贴出来的资料范本有些空白又消失不见了?
还请您对您的资料变化规律多描述一些,大夥才帮得上忙
--
http://godspeedlee.myweb.hinet.net/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.124.96.249
1F:推 squalll:本来资料是有空白为分隔,後来发现没有,资料是黏再一起的 10/03 07:48
2F:→ squalll:但是长度是固定的,但是有的栏位资料是空白的 10/03 07:48
有的资料栏位是空白的?有一种情况是最简单的,也有机会用 regex
处理掉,就是会消失的栏位是尾部,那就可以用下面这招
# free spacing mode, and remove all space from input line
^((.{5})(.{6})(.{7})(.{8})(.{9})|
(.{5})(.{6})(.{7})(.{8})|
(.{5})(.{6})(.{7})|
(.{5})(.{6})|
(.{5}))$
假如会消失的栏位是5,6,7,8,9中任一个且不定数量,那就非常难解了,
举例来说只剩
6,7
或
5,8
两者相加的长度都是13,那请问我是要用 (.{6})(.{7}) 还是
(.{5})(.{8}) 去比对才是对的?更何况求出所有排列组合的
regex pattern 应该长到吓死人,还不如不用
不过假如每个栏位的资料具备某些特色(不光是长度),那就可能还有解,
不知道您方不方便公开部份的资料内容,让大家帮您想一想解法?
(12345a345cd2187ankjdkj219zxnmzxn2109890 这看起来是随手乱打的,
应该不是您真正的资料内容吧?)
--
http://godspeedlee.myweb.hinet.net/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.124.97.6
3F:推 squalll:没想到还可以用|来当OR使用,他中间如果没资料也回存空白 10/04 07:46
4F:→ squalll:但是最後一笔如果没资料,他就直接结束了,导致我的regex错 10/04 07:47
5F:→ squalll:误,利用|应该就可以解决了(因为我现在是用if else判断长度 10/04 07:48
6F:→ squalll:来决定要用哪一个regex...真是有点蠢XD 谢谢让我多学一招 10/04 07:49
7F:→ squalll:因为原始资料太长..Orz 不然我很愿意贴上来看是不是有更好 10/04 07:50
8F:→ squalll:的写法...:p 10/04 07:51
9F:→ godspeedlee:嗯,我大概懂你的意思了,那些「消失的栏位」,假如是夹 10/04 13:52
10F:→ godspeedlee:在{5}...{9}之间,并且「空白字元的长度」与没有空白 10/04 13:52
11F:→ godspeedlee:时一样,那我给你的解法就是答案了(不知道有无猜错?) 10/04 13:53
12F:→ godspeedlee:假如是如此,那移除尾部的空白字元就好了 10/04 14:07