作者faithfay (夢遺大師)
看板java
標題[問題] parse雅虎拍賣查詢結果parse不到
時間Mon Aug 18 10:26:05 2014
請問
最近在練習網路爬蟲,在爬網站資訊
我是使用了一個jsoup library在爬
一般網頁都可以正常爬到htm內容
可是像雅虎拍賣這種為何都爬不到結果???
是因為ajax的關係嗎?
還請指導與指點一下
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.124.7
※ 文章網址: http://webptt.com/m.aspx?n=bbs/java/M.1408328767.A.20F.html
1F:→ swpoker: javascript??? 08/18 11:31
2F:推 brianhsu: Y 拍有擋爬蟲,看一下你 parse 的東西如果是首頁,那就 08/19 07:36
3F:→ brianhsu: 是被擋掉了,記得要偽裝 08/19 07:36
4F:→ Killercat: 沒UA或者UA太老實(?) 08/19 11:28
5F:→ Killercat: 你要記得塞UA下去 08/19 11:28
6F:→ Killercat: 不過普通來講 潛規則是如果他不願意被你爬 他就會放 08/19 11:31
7F:→ Killercat: robots.txt或者check UA, 當然,這很好騙,只是這是一 08/19 11:31
8F:→ Killercat: 個共通的潛規則 儘量不要大量deploy破壞規則的crawler 08/19 11:31
9F:→ swpoker: 爬蟲跟DDOS沒甚麼兩樣~網站管理員很討厭的~ 08/19 17:51
10F:→ storypp: 新手小問..UA是什麼?GOOGLE關鍵字可以下什麼來學... 08/20 00:00
11F:推 brianhsu: User-Agent,是 HTTP 的 Header,給網站判別連進來的是 08/20 08:06
12F:→ brianhsu: 哪種 browser 08/20 08:06
13F:→ ccas: 我記得Y爬太快也會被擋~~要記得不要爬太快 08/20 13:01
14F:推 Killercat: 像是google的crawler的UA就很老實的說Googlebot XD 08/21 14:36
15F:→ Killercat: 也有的是會塞session到cookie的網頁 至種普通crawler 08/21 14:38
16F:→ Killercat: 也沒辦法爬太深 多半只能爬到地一層...我說土炮的bot 08/21 14:39
17F:→ Killercat: 很多open source的crawler會處理cookie-session 08/21 14:39
18F:→ Killercat: 不過這是技術問題, 道德問題還是要注意一下 :P 08/21 14:40
19F:→ Killercat: 另外一個比較有可能出包的的就是檢查referer 08/21 14:42
20F:→ Killercat: 這也是大多數crawler會幫你處理的技術問題就是 08/21 14:42