作者grassboy2 (活力花俏草儿仔政﹞O花俏)
看板Web_Design
标题[请益] 如何抓取网页"纯"原始码?
时间Tue Nov 30 02:06:27 2010
如标题…
以下是测试的url
http://grassboy.tw/webDev/test.php
他的原始码很简单,只有一行
<img src=test.png /><b>哈罗!
没错!很丑的code~
图片src没有双括号,粗体没结尾~
但进去网页後…
我在网址列下了 javascript:alert(document.body.innerHTML)
结果…我测了firefox chrome ie8三种浏览器…
大多都是回我
<img src=
"test.png
"><b>哈罗!
</b>
也就是说…浏览器会自动将这种不正确的网页结构进行修改,
并反映到innerHTML上…
那麽…有没有办法透过javascript取得
<img src=test.png><b>哈罗! 呢?
当然…这要求还满奇怪的…
不过如果今天某个网站(ex: plurk)透过header("text/html")的介面
回传一个json物件到browser时…
我要抓json物件的值…似乎应该要抓未经浏览器处理过的html降子…
原本的 {"msg_html":"hihi <img src=\"xx.jpg\" />"}
会被处理成 {"msg_html":"hihi <img src=
"\"xx.jpg\"
">"}
有点让人伤脑筯的说 >"<
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.87.174
1F:推 knuckles:改用 'hihi <img src="xx.jpg" />' ? 11/30 02:22
2F:→ grassboy2:json的内容不是我们可以控制的说@@~那是别的网站的 11/30 02:27
3F:推 LPH66:你应该有办法在这些 HTML 进入 DOM 前就抓到它吧? 11/30 15:49
4F:→ LPH66:不然我搞不太懂你的问题是哪来的... 11/30 15:50