[问题] parse雅虎拍卖查询结果parse不到

时间Mon Aug 18 10:26:05 2014

请问最近在练习网路爬虫,在爬网站资讯我是使用了一个jsoup library在爬一般网页都可以正常爬到htm内容可是像雅虎拍卖这种为何都爬不到结果??? 是因为ajax的关系吗? 还请指导与指点一下 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.124.124.7 ※ 文章网址: http://webptt.com/cn.aspx?n=bbs/java/M.1408328767.A.20F.html

1^F：→ swpoker: javascript??? 08/18 11:31

2^F：推 brianhsu: Y 拍有挡爬虫，看一下你 parse 的东西如果是首页，那就 08/19 07:36

3^F：→ brianhsu: 是被挡掉了，记得要伪装 08/19 07:36

4^F：→ Killercat: 没UA或者UA太老实(?) 08/19 11:28

5^F：→ Killercat: 你要记得塞UA下去 08/19 11:28

6^F：→ Killercat: 不过普通来讲潜规则是如果他不愿意被你爬他就会放 08/19 11:31

7^F：→ Killercat: robots.txt或者check UA, 当然，这很好骗，只是这是一 08/19 11:31

8^F：→ Killercat: 个共通的潜规则尽量不要大量deploy破坏规则的crawler 08/19 11:31

9^F：→ swpoker: 爬虫跟DDOS没甚麽两样~网站管理员很讨厌的~ 08/19 17:51

10^F：→ storypp: 新手小问..UA是什麽?GOOGLE关键字可以下什麽来学... 08/20 00:00

11^F：推 brianhsu: User-Agent，是 HTTP 的 Header，给网站判别连进来的是 08/20 08:06

12^F：→ brianhsu: 哪种 browser 08/20 08:06

13^F：→ ccas: 我记得Y爬太快也会被挡~~要记得不要爬太快 08/20 13:01

14^F：推 Killercat: 像是google的crawler的UA就很老实的说Googlebot XD 08/21 14:36

15^F：→ Killercat: 也有的是会塞session到cookie的网页至种普通crawler 08/21 14:38

16^F：→ Killercat: 也没办法爬太深多半只能爬到地一层...我说土炮的bot 08/21 14:39

17^F：→ Killercat: 很多open source的crawler会处理cookie-session 08/21 14:39

18^F：→ Killercat: 不过这是技术问题, 道德问题还是要注意一下 :P 08/21 14:40

19^F：→ Killercat: 另外一个比较有可能出包的的就是检查referer 08/21 14:42

20^F：→ Killercat: 这也是大多数crawler会帮你处理的技术问题就是 08/21 14:42

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

java 板

[问题] parse雅虎拍卖查询结果parse不到

热门看板

赞助商连结