作者kf013099 (K.E.N)
看板Perl
标题[问题] 有关抓取网页的问题
时间Fri May 23 00:58:52 2008
请问一下
我是perl的新手~
爬了一下版 用了WWW:Mechanize来抓取yahoo的网页
抓yahoo!首页可以成功~
不过用
http://tw.search.yahoo.com/search?p=网页
抓搜寻 "网页" 的结果却无法抓到中文
英文可以正常显示~~
我也试过
print encode ("big5-eten",decode('utf-8', $mech->content));
但就是无法抓到中文=="中文的部份都被去掉~
是空白的 不是乱码...
搞了一个晚上了...有请高手指点一下
感谢
发现用Fx开yahoo search时是utf-8编码
换成我的程式就变成ISO-8859-1
这是什麽原因呢~~=="
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.116.133.54
※ 编辑: kf013099 来自: 122.116.133.54 (05/23 02:06)
1F:推 LiloHuang:浏览器本身会把支援的语系发出去 雅虎的server会去判断 05/25 14:07
2F:推 LiloHuang:请参照RFC有关http protocol的规范^^ 05/25 14:07