作者tumc (HIHIHI)
看板Python
标题Re: [问题] 自动判断繁,简体?
时间Thu Jan 21 01:37:37 2010
试过chardet模组,似乎不行,google了一下chardet
觉得它是可侦测big5,gbk等编码,但跟我的问题不太一样..
可能是我表达的不清楚,再重新解释一下,看有没有人可以帮忙..
ch是unicode字串,它有可能是经由big5,gb2312的字串解码而来:
也就是: ch = ch0.decode('big5') 或 ch = ch0.decode('gb2312')
我的需求是: 不论ch是由big5,gb2312而来,程式要能自动判断,
并自动将ch由unicode转成big5
※ 引述《tumc (HIHIHI)》之铭言:
: 请问: 如果 ch变数 是一个有可能是简体字或繁体字的 unicode字串
: 那有办法在程式中判断ch是繁体字或简体字吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.136.220.229
1F:→ AndCycle:你可以一直试不同的encode试到不会跳出 error ... 01/21 01:54
2F:→ tumc:这就不是自动判断了吧 01/21 10:43
3F:→ AndCycle:如果你只有gb跟big5要判断那只要试两次就好啦, 01/21 12:14
4F:→ tumc:但是跳出error,那程式不是就停了吗.. 01/21 12:19
5F:→ AndCycle:自己try/except拦起来处理呀~ 01/21 12:21
6F:→ ykjiang:也有些字是简繁共用的 01/21 12:22
7F:→ tumc:再问一下,那如果把 简体->unicode->繁体 01/21 14:25
8F:→ gasolin:chardet只能判断超过一定长度的字串,太短不行 01/21 22:12