作者shala (沙罗)
看板Python
标题[问题] 为何中文字串用UTF-8存档後变成乱码?
时间Wed Jan 16 14:15:04 2019
我从某网站01页、02页...这样扫出想要的字串,并用UTF-8存为纯文字档
但有某页的中文字串存档後都变成乱码
乱码类似这种感觉:%#v$@C
(正确而言不是这样的符号,很多是PTT无法显示的字元)
非中文的字串都正确存档,所以应该是编码错误
但其他页的执行结果都正确,唯独某页会这样
观察该页原始码还是没发现除了文字内容之外和其他页不一样的地方
有人遇过这种问题吗?
是不是因为遇到什麽特殊字元?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 173.213.89.40
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1547619307.A.89C.html
1F:→ jiyu520: 乱码有可能是你检视时的问题;可以附上连结或图吗?01/16 15:42
已确认过HEX,所以排除检视的问题。我把每一页爬梳的结果都存在同一个文字档,只有
该页的输出是乱码。单独扫该页也是乱码。
2F:推 sherees: encoding='utf-8-sig'01/16 16:11
谢谢,但加了sig还是乱码
※ 编辑: shala (173.213.89.40), 01/16/2019 17:16:28
3F:→ s860134: 直接给有问题的页面和你爬的 code,穷举乱枪打鸟很难01/16 21:43
确实是这样,只是不太方便给出...
本来是想看看有没有人有类似经验,可以指点一下方向。
※ 编辑: shala (173.213.89.40), 01/16/2019 22:16:03
4F:→ s860134: 站内信 或是给个页面原始码... 01/16 22:59
5F:→ s860134: 你看一下网页原始码 <meta charset="xxxx" /> 01/17 22:43
6F:→ s860134: big5 要用 big5 解,utf8要用 utf8 解 01/17 22:43
7F:→ s860134: 把资料喂给 bs 去爬的时候是 bytes,先 decode成 unicode 01/17 22:53
8F:→ s860134: 在喂进去 01/17 22:53