作者clansoda (小笨)
看板R_Language
标题[问题] 无法爬含中文的网址
时间Tue Aug 16 20:54:46 2016
还真是有点抱歉,整天来问的不是资料分析都是爬虫的问题
我今天遇到一个之前没遇过的问题就是当网页含中文的时候
xml里头GET是会发生一些怪怪的问题,我今天爬文章的时候发现
GET後得到的网页content会是unknown的型态,而使用content以後
会得到RAW型态的资料,而不是nodeset型态,想请问如何解决这样的问题呢
下面是一个范例网页,
http://goo.gl/cc7EAI
感谢各位回覆。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.172.248.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1471352090.A.B43.html