作者crossdunk (鲁来又鲁去)
看板PHP
标题[请益] curl抓回来的问题
时间Mon Nov 17 15:57:04 2014
是这样的
小弟最近在学curl,现在有个问题是
抓回来的东西出现确是乱码
我试过用别的编码方式,却都还是乱码
大概是像下面这样
<a href="
http://www.8591.com.tw/user-login.html">å·2 è2 ·åˆ°ç?</a>
<a href="
http://www.8591.com.tw/user-login.html">å·2 è3 £出ç</a>
<a href="
http://www.8591.com.tw/user-login.html">é2 è3 £å鄊
我是以8591网站来做测试的
请问要如何知道他的编码是什麽来做转换呢?
我看他的表头是用UTF-8
我显示的方式也用UTF-8,却还是乱码
请各位先进给小弟一点指导
谢谢!
--
Democracy = ('PIG'==$Mayor)?'China':'Our';
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.120.19.218
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/PHP/M.1416211028.A.725.html
1F:→ LPH66: 你的程式是怎麽写的? 这看起来像是把 UTF-8 解做英文编码 11/17 21:06
$url =
'
http://www.8591.com.tw/wareList-sellList-22.html?searchServer=2031&searchType=1';
$ch = curl_init();
$this_header = array(
"content-type: application/x-www-form-urlencoded;
charset=UTF-8"
);
$timeout = 30;
curl_setopt ($ch, CURLOPT_URL, $url); //设定抓取网址
curl_setopt($ch,CURLOPT_HTTPHEADER,$this_header);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);//逾时时间
$data = curl_exec($ch);
$file = fopen("data8591.html", 'w');
fwrite($file, $data);
fclose($file);
我是先抓下来放到一个档案来试试看
打开data8591.html中文字的部分就是乱码了..
2F:推 alog: 这latin1吧 11/18 02:40
3F:→ alog: 你用python or ruby2抓抓看 11/18 02:41
4F:→ alog: 应该会是utf8 11/18 02:42
查了一下latin1好像都是关於资料库的
很不幸的alog大说的两种我都不会QQ
※ 编辑: crossdunk (59.120.19.218), 11/18/2014 08:59:18
5F:推 shadowjohn: 你在windows上看,试看看把UTF-8转BIG5就可以正常看 11/18 11:01
不好意思,我在网页上改编码方式,改成BIG5还是乱码QQ
※ 编辑: crossdunk (59.120.19.218), 11/18/2014 11:40:20
6F:推 InDer5566: 你的纯文字档 不是用ansi建的吧? 11/20 20:18
7F:推 InDer5566: 看错 你的data8591.html 开头有宣告是utf-8吗? 11/20 20:20
8F:推 InDer5566: 总觉得这个问题 是在抓下来时发生的.... 11/20 20:24
9F:→ InDer5566: 我都是写一个专门display的html 好像没发生过这种事情 11/20 20:25
10F:推 InDer5566: 我用你的码测了一下抓8591首页 没任何问题哎@@ 11/20 20:30
11F:→ InDer5566: 是不是你browser的问题?@@ 11/20 20:31
12F:→ InDer5566: 我用你的跟楼下的码 跑起来很正常哎 @@"" 11/20 20:32
13F:推 InDer5566: 还是说你是用国外的server... 有时候本机测试正常 11/20 20:59
14F:→ InDer5566: 但是你直接用国外主机去爬... 他好像 有时候会有问题 11/20 21:00
15F:推 InDer5566: 可能跟他某些设定有关....@@" 11/20 21:02