作者atrisk (atrisk)
看板RegExp
标题[问题] 请教删除中文字之间的空白
时间Mon Aug 6 05:37:30 2018
大家好:
搜寻 ([一-龥,。:“”、‘’;\[\]])(\s+)([一-龥,。:“”、‘’;\[\]])
替代 \1\3
上面的方法是我在网路上找到用来删除中文字和中文字之间(包含些标点符号)
的多余空白,因为使用OCR软体辨识中文时一定会出现这现象。
一直没办法让OCR软体事先避免产生空格(OCR软体好笨?!),所以只能事後做补救。
有些好奇项目1(和项目3)为何加\[\],不知有无特别的意义?是作者考虑不够周详吗?
因为既然已经将[和]放入搜寻条件内了,为何不将类似的<和>等等也放进来?
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.228.235.168
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/RegExp/M.1533505053.A.856.html
1F:推 LPH66: 正规表示式的 [ ] 是字元集, 表示 [ ] 之间的任一字元 08/06 21:54
2F:→ LPH66: 例 [ABC] 表示 A 或 B 或 C, 但不含 [ ] 两个字 08/06 21:55
3F:→ LPH66: 不过我不太清楚为何目标是全型字元的这条正规式会想加入 08/06 21:57
4F:→ LPH66: 半型的 [ ] 就是了 08/06 21:57