作者abcg5 (nothing)
看板Perl
标题[问题] 中文网页的问题
时间Tue Nov 3 21:07:02 2009
有点白痴的问题
就是我抓了中文wikipedia的网页 (编码 UTF8
但是print 在萤幕上就一直是乱码
试了很多种编码!
目前效果最好 也应该是正确的是下面的转码方式
encode("gb2312", decode("utf8", XXX)) ---- A
encode("big5", decode("utf8", XXX)) ---- B
还是有些问题
主要是网页是繁中简中参半(html code才看得出来
EX:
假设网页中有
Wikipedia:免责声明 这两个字串
免责声明
分别使用A和B两种方式 结果如下
Wikipedia:轿孮汒陇
免责声明
都使用B方式
Wikipedia:免??明
免责声明
只用A就不用说了...根本是失败!!
我已经知道抓到的资料哪些是简中哪些是繁中
所以想请教 如何能避免这种奇怪的错误?? 谢谢!!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.245.199
1F:推 buganini:你用A的时候网页编码有没有选对? 11/04 03:10
2F:→ buganini:底下正确的中文是不是html entities? 11/04 03:10
3F:→ buganini:麻烦打开原始码看 11/04 03:10
4F:→ buganini:不管是简中还是繁中 正确的转换都不会有乱码 11/04 03:11
5F:→ buganini:顶多就是问号或掉字或换成相似字 11/04 03:12
6F:→ abcg5:网页编码都是charset=utf8 使以B的方法对了 只是转不好? 11/04 09:29