作者liyih ()
看板Perl
标题Re: [问题] 如何只去掉头尾全型空白
时间Tue Sep 28 16:30:21 2010
※ 引述《kkk5566 (你不够资深喔!)》之铭言:
: s= s.replace(/(:?^ +| +$)/, '');
: 试出来了 在 javascript 当中这样就可以搞定
: 用 | 可以切成两部分
: ^ +
: 应该是把头的全型空白去掉
: +$
: 应该是把尾的全型空白去掉
: 最後还有一事不明
: 请问那个 () 跟 :? 是作啥用的啊?
: ※ 引述《liyih ()》之铭言:
: : my $FW_SPACE = qr/\Q \E/;
: : my $s = " 我是字 我是字, ";
: : $s =~ s/(:?^$FW_SPACE+|$FW_SPACE+$)//g;
: : print "[$s]\n";
: : 或是用
: : use utf8;
: : $s =~ s/(:?^\p{Z}+|\p{Z}+$)//g;
: : 参考看看:
: : * Regex Tutorial - Unicode Characters and Properties
: : http://www.regular-expressions.info/unicode.html
() => capturing group
:? => non-capturing
其实也可以用 s/\s//g; 来处理空白,\s 还包含 Unicode 当中的空白,
并非只有 ASCII 的 0x20,其中也有全形空白等等。
可以参考
http://en.wikipedia.org/wiki/Space_%28punctuation%29
此外,在 JavaScript 中使用 regexp 的 \s 不同浏览器也会有些差异,
可以尝试把所有的 Unicode 空白做个取代比较看看。
以下,在 Perl 5.10 测试所有空白分属在 \s 与 \S 的哪一群当中。
use Data::Dump;
sub show_code { my $c = shift; return Data::Dump->dump($c); }
my $s = '';
$s .= "\x{0020}"; # 一般的空白
$s .= "\x{00a0}";
$s .= "\x{1680}";
$s .= "\x{180e}";
$s .= "\x{2000}";
$s .= "\x{2001}";
$s .= "\x{2002}";
$s .= "\x{2003}";
$s .= "\x{2004}";
$s .= "\x{2005}";
$s .= "\x{2006}";
$s .= "\x{2007}";
$s .= "\x{2008}";
$s .= "\x{2009}";
$s .= "\x{200a}";
$s .= "\x{200b}";
$s .= "\x{200c}";
$s .= "\x{200d}";
$s .= "\x{202f}";
$s .= "\x{205f}";
$s .= "\x{2060}";
$s .= "\x{3000}"; # CJK 全形空白
$s .= "\x{feff}";
$s =~ s/\s//g;
$s =~ s/(\S)/show_code($1)/eg;
print "[$s]";
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.114.64.133
1F:推 kkk5566:capturing 指的是用 \1, \2 去 reference? 09/28 16:36
2F:→ kkk5566:所以在此例当中 单用 () 也可 只是既然没要 reference 09/28 16:36
3F:→ kkk5566:多加 ?: 会较快速 是这样吗? 09/28 16:36