作者faithfay (梦遗大师)
看板java
标题[问题] parse雅虎拍卖查询结果parse不到
时间Mon Aug 18 10:26:05 2014
请问
最近在练习网路爬虫,在爬网站资讯
我是使用了一个jsoup library在爬
一般网页都可以正常爬到htm内容
可是像雅虎拍卖这种为何都爬不到结果???
是因为ajax的关系吗?
还请指导与指点一下
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.124.124.7
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/java/M.1408328767.A.20F.html
1F:→ swpoker: javascript??? 08/18 11:31
2F:推 brianhsu: Y 拍有挡爬虫,看一下你 parse 的东西如果是首页,那就 08/19 07:36
3F:→ brianhsu: 是被挡掉了,记得要伪装 08/19 07:36
4F:→ Killercat: 没UA或者UA太老实(?) 08/19 11:28
5F:→ Killercat: 你要记得塞UA下去 08/19 11:28
6F:→ Killercat: 不过普通来讲 潜规则是如果他不愿意被你爬 他就会放 08/19 11:31
7F:→ Killercat: robots.txt或者check UA, 当然,这很好骗,只是这是一 08/19 11:31
8F:→ Killercat: 个共通的潜规则 尽量不要大量deploy破坏规则的crawler 08/19 11:31
9F:→ swpoker: 爬虫跟DDOS没甚麽两样~网站管理员很讨厌的~ 08/19 17:51
10F:→ storypp: 新手小问..UA是什麽?GOOGLE关键字可以下什麽来学... 08/20 00:00
11F:推 brianhsu: User-Agent,是 HTTP 的 Header,给网站判别连进来的是 08/20 08:06
12F:→ brianhsu: 哪种 browser 08/20 08:06
13F:→ ccas: 我记得Y爬太快也会被挡~~要记得不要爬太快 08/20 13:01
14F:推 Killercat: 像是google的crawler的UA就很老实的说Googlebot XD 08/21 14:36
15F:→ Killercat: 也有的是会塞session到cookie的网页 至种普通crawler 08/21 14:38
16F:→ Killercat: 也没办法爬太深 多半只能爬到地一层...我说土炮的bot 08/21 14:39
17F:→ Killercat: 很多open source的crawler会处理cookie-session 08/21 14:39
18F:→ Killercat: 不过这是技术问题, 道德问题还是要注意一下 :P 08/21 14:40
19F:→ Killercat: 另外一个比较有可能出包的的就是检查referer 08/21 14:42
20F:→ Killercat: 这也是大多数crawler会帮你处理的技术问题就是 08/21 14:42