作者worldxxi (风)
看板RegExp
标题[问题] 请问 unicode or utf-8 区分繁简中文
时间Fri Apr 16 11:52:01 2010
我查了一下中文字的范围(\u4e00-\u9a05),
如果要区分出日文(\u0800-\u4e00)比较容易,因为范围有错开,
但是要分出繁体中文还是简体中文就没办法,我用word的符号表看,
是交错在一起的,最後我用的方法是:把要检查的字串转成big-5,转不出来的
就含有不是繁体中文的字,然後再去处理,可是感觉很鸟,有人知道比较
好一点作法吗? 弄不出来我感觉自己好弱 Q_Q
---------------------------------------------------------------------------
另外有个小疑问,我在网路上找到一个正规表示式的网站,如下:
http://www.rubular.com/
为什麽我用[\u4e00-\u9a05]去跑,反而是英文会通过,中文被滤掉了
[\u4e00-\u9a05]的意思不是说 如果有在这个字码范围的字出现就会match吗?
一直google不到,有人知道吗。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.96.120.223
1F:推 AlanSung:不是 9fa5 吗? 不过网页的 encoding 也许会有影响吧 04/16 13:24
2F:→ worldxxi:好两个都有人在用,比较大的范围好像有一些扩增的字 04/16 13:33
3F:推 AlanSung:直接用你的程式跑看看吧,应该是没错啦,只是繁简..不会 04/16 14:19
4F:推 buganini:为啥要判断繁简啊? 有些简繁共用的要当作什麽? 04/18 01:34
5F:→ worldxxi:简单来说就是把不在繁体中文内的文字过滤掉 04/19 09:32