作者herculus6502 (金麟岂是池中物)
看板Perl
标题[问题] 一个奇怪的汉字编码问题(Unihan?)
时间Wed Aug 5 21:22:40 2015
在考选部公布的考毕试题 pdf 档案中,如果出现"流行"这个词
在 grep 的时候都会找不到
仔细检查後发现,在 linux 上这两个字比起用输入法打出来的字"略小",字码亦不同
但在 windows 上似乎刻意地都显示为较大的"流行"二字
实际上的例子我找到这个网页
http://cs.sungshin.ac.kr/~shim/demo/ksc5601-c.htm
里面的"流","行",各有两个编码存在
找到 wiki 上有关 unihan 的条目,觉得可能是这个问题
不知各位网友在实务上有无遇到过类似的问题? 或是该如何解决?
目前我是用 regex 去取代,但是怕还有其它未爆弹,不知有无现成的对应表?
perl -CSAD -ne 'print $1 if /([\x{f900}-\x{fa2d}])/g' *.txt
目前我只能先用这行找出有问题的字来转换
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.127.173.173
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Perl/M.1438780964.A.E25.html
※ 编辑: herculus6502 (59.127.173.173), 08/05/2015 23:05:12
1F:→ buganini: 过一次NFC或NFD就好了 (unicode里面的东西) 09/27 22:49