作者pig98520 (Jimmy)
看板Python
标题[问题] python 爬虫遇到big5扩充字乱码
时间Mon Nov 26 12:54:45 2018
大家好,又上来打扰了,最近在爬虫的时候遇到这个词:
"宏碁电脑",发现爬下来时候会变成乱码,
https://imgur.com/ZSV4gAe
经爬文查询後发现这样的问题:
https://blog.hoamon.info/2008/05/python-big5.html
不过该解法似乎不能应用在python3.7
想问一下有没有类似的情况该怎麽解@@?
补上网站:
https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html
程式码:
import requests
from bs4 import BeautifulSoup
url='
https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html'
req=requests.get(url)
bs=BeautifulSoup(req.text,'html.parser')
print(bs.find('h1').text)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.133.44.129
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1543208095.A.47E.html
1F:→ acer1832a: 请问是爬哪个网页,没有网页没办法帮你看是不是网页编 11/26 13:20
2F:→ acer1832a: 码转换上的问题,能提供程式码更好 11/26 13:21
3F:→ TakiDog: 有big5哦 ,requests有encoding的参数 11/26 13:22
※ 编辑: pig98520 (220.133.44.129), 11/26/2018 13:29:53
4F:推 ckc1ark: req=requests.get(url)後加一行req.encoding = 'cp950' 11/26 13:39
5F:→ pig98520: 可以了~不过请问为何不能用big5? 11/26 14:55
6F:推 ckc1ark: 你贴的文章有提 有7个扩充字是big5没有的 11/26 15:21
7F:→ pig98520: 了解 但是用utf-8又会乱码@@ 所以也不能用utf-8罗 11/26 17:05
8F:推 eight0: 用哪个 encoding 编码,就用哪个 encoding 解码 11/26 19:35
9F:→ justoncetime: 你可以去g一下CP950和Big5的关系啊 11/26 20:08
10F:→ pig98520: 了解了~谢谢解惑 11/27 10:27