作者tomin (for pete's sake)
看板Ajax
标题Re: [问题] 如何抓取网页原始码
时间Sun May 24 23:21:17 2009
※ 引述《jians (沿海)》之铭言:
: 最近要写一个网页,必须抓取网页原始码
: 但是抓取的方式是不透过伺服端抓取,而是透过客户端来抓取
: 也就是说我把抓取原始码的程序x.php传到位於美国的虚拟主机
: 而我在台湾连结x.php後,假设指定抓取http://www.cmyip.com/网站的原始码
: (http://www.cmyip.com/是抓取浏览者IP的网站)
: 而http://www.cmyip.com/这个网站中的IP要是显示客户端也就是使用者的IP
: 而不是显示位於美国的虚拟主机伺服端的IP
: 这样说不知道各位大大们能否了解!
: 我尝试使用过PHP的函数,但是抓取结果的IP都是美国伺服端IP
: 因为这几天查资料後据了解JS好像能够达成这个目的
: 我的网页最主要的就是能够在客户端抓取原始码之後存取到PHP的变数中!
: 不知道能否有办法达成这个目的呢?有请高手指导:)
php可以办到 有什麽事php办不到呢...
js可以捉到客户端的原始码 以下这句就可以
<script>
alert(document.body.parentNode.innerHTML);
</script>
还有很多写法
http://www.lslnet.com/linux/f/docs1/i04/big5125741.htm
只是一般来说 捉这没什麽用
如果你想要「只用js」捉取google首页的原始码 恐怕难以做到
因为js无法cross domain
比较可行的办法是 你先用php去捉回google原始码
然後就可以用js去处理捉回来的google原始码
从你的例子来看
先用php捉client IP 捉到後 再用js处理
BTW, 只用js捉IP的方法是用.shtml (SSI)
http://wsabstract.com/script/script2/displayip.shtml
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.116.40.183
※ 编辑: tomin 来自: 122.116.40.183 (05/24 23:37)
1F:→ jians:我可能解释的不太清楚XD 我是想要可以不透过PHP去抓的方法 05/26 17:14
2F:→ jians:因为使用PHP去抓取耗费的是伺服器的流量,所以想找替代方法 05/26 17:15
3F:→ jians:不过还是谢谢你的解说:) 05/26 17:16
4F:推 Kelunyang:跨站应该是不可能的喔XD 05/26 18:03