Re: [问题] 中英文区分

时间Thu Nov 8 23:38:34 2007

※ 引述《hunterfish (可爱的阿宏)》之铭言： : 没想到PTT也有地方可以讨论RegExp耶 : 以後又多一个常逛的版了^^ : 前一阵子写RegExp : 一直试不出来要如何写才能让中文和英文区隔出来 : 比如说: : 我叫hunterfish我现在在RegExp版 : 要变成 : 我叫 hunterfish 我现在在 RegExp 版 : 我原本想法是想碰到英文字为首和结尾就自动塞入一个空隔 : 不知道这种写法要怎样去实作 : 还有其他更好的写法吗? : 先谢谢这边的大大们了!! 以 perl 为例，配合 zero-width look-(ahead|behind)： ===== # $w 和 $n 只是方便阅读後面的 regex，如果不喜欢的话直接代换在里面也是可以 # 「英文字」的定义 $w = "-A-Za-z0-9_"; # $w 加上空白 $n = "$w "; # input: $str # 把「英文字」的前面加上空白，如果有空白或是行首就不加 $str =~ s/(?<=[^$n])([$w]+)/ $1/g; # 把「英文字」後面加上空白，如果已有空白或是行尾/换行符号就不加 $str =~ s/([$w]+)(?=[^$n])/$1 /g; ===== 有些小细节像 $w, $n 里的 "-" 为什麽要放最前面，想一下它代换进什麽地方应该就懂了 :p 另外，因为 Big5 的第二个字元(low-byte)范围包含了 $w 定义的字元，会导致上面的 [$w]+ 会把 Big5 的 low-byte 也包进来，而导致空白加在不对的地方，所以要另外处理。UTF-8 则是没这个问题。 -- 芸曰：「今世不能，期以来世。」余曰：「来世卿当作男，我为女子相从。」芸曰：「必得不昧今生，方觉有情趣。」余笑曰：「幼时一粥犹谈不了；若来世不昧今世，合卺之夕，细谈隔世，更无合眼时矣。」 -- 沈复《浮生六记》 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 140.112.30.55

赞助商连结

您可能会有兴趣的文章

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称，例如：BuyTogether 或站内搜寻

TOP

WEB批踢踢(PTT)

RegExp 板

Re: [问题] 中英文区分

热门看板

赞助商连结