作者knme (knem)
看板PHP
标题[请益] 网页robots
时间Tue Sep 5 15:18:17 2006
大家好,主要有两个问题
因为现在小弟正在做"使用php程式去抓取网页内容资料"
遇到了问题 (*问题一)
为了找寻资料就查和制作robot相关的网页
其中有篇说到"如何防止robot" (问题二)
http://www.hkwebs.net/catalog/teach/setting/robots.php
试着照上面来做
我使用两个server,一台为robot程式(简单版)
一台为被搜寻端
照示范网页来做之後却发现,结果无效
robot还是可以照常抓到网页资料,但是看论坛其他人的回应,结果还不错的样子。
p.s. 1. 可能因为我不是server root管理者
所以robots.txt没有放到主目录下因此不产生作用
回到第一个问题,
目标是
http://news.yahoo.com
请问在抓取网页的时候,要如何避开防止robot的server端程式?
目前试过
1. 用file() 开启网页档 (主页面成功,支页只能读取部份)
(检视内容原始码发现,我已经被判别出是robot了)
2. fsockopen()
不过目前只会用来搜寻主页面,主页面下的支页不知如何搜寻
恳请解答,感恩
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.39.218
※ 编辑: knme 来自: 140.116.39.218 (09/05 15:42)