[問題] 是網站改版?還是刻意防爬蟲?

時間Mon Aug 16 15:52:23 2021

因為工作的原因，還有暫時資料的擷取需要到書店的網頁擷取資料但是在爬了3個月之後，網站突然網址不一樣然後request的內容跟開發者工具的HTML不一樣但是因為image網站不穩定，那我直接到巴哈求助的內容直接貼上來 https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212 這是爬蟲爬到的 requests https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729 完全沒有，我所需要如下的價錢，以及裝訂(peprback) 這是開發者的 HTML https://gist.github.com/cj044/9a889246299bb3562841e647706b438f 如果真的不行，我直接換網站好了我只是要裡面的資料，不是要攻擊網站還是用AMAZON 或是 ebay的API 直接代替爬蟲但是Amazon 網路上沒有相關擷取書籍資料至EXCEL的python實作資料，實在很困擾 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.136.229.162 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1629100346.A.40F.html ※ 編輯: mejichoco (101.136.229.162 臺灣), 08/16/2021 17:54:27

1^F：→ x94fujo6: https://i.imgur.com/PRL07xa.png 08/16 18:40

https://i.imgur.com/tuGkFVm.jpg 我要的是這個! 非常感謝各位專家熱心幫忙，不過專業術語rendar是甚麼? 謝謝! 大大網指標的是 list_name=srh? 但是您怎麼知道list_name=i-r-zh_tw 這樣還有可能爬得到嗎?

2^F：→ Hsins: 老實說, 是你基礎不好, 天瓏沒這麼難爬 08/16 23:20

3^F：→ Hsins: - 對方網站沒有太多的方式判斷你是不是要攻擊他, 對他來說 08/16 23:21

4^F：→ Hsins: 就是網路請求, 但這個請求如果太多太快, 對他來說可以用 08/16 23:22

5^F：→ Hsins: 這個特徵認為你是要攻擊。實際上，售票網站那種搶票狀況 08/16 23:22

6^F：→ Hsins: 對網站來說可以算是攻擊呀！因為會讓我伺服器無法正常處 08/16 23:23

7^F：→ Hsins: 理。你用自動化的方式去拿資料，沒有銷售行為，對他來說 08/16 23:24

8^F：→ Hsins: 也是種攻擊。 08/16 23:24

9^F：→ Hsins: - robots.txt 並不會影響你送請求跟返回的訊息，他是給一 08/16 23:25

10^F：→ Hsins: 　些遵守規範的人／程式看的，有些自動化爬蟲程式看到不允 08/16 23:25

11^F：→ Hsins: 就不會去爬他，當然你的爬蟲也可以忽略他的聲明繼續爬， 08/16 23:26

12^F：→ Hsins: 順帶一提，如果對方 robots.txt 言明不想被爬但你還用自 08/16 23:26

13^F：→ Hsins: 化手段獲取資料，在某些國家是違法行為會吃官司的。 08/16 23:27

14^F：→ Hsins: - 一樓的推文被你編輯文章刪掉了，我想他要說的是你想要的 08/16 23:28

15^F：→ Hsins: 資料，都可以在請求後所拿到的 HTML 原始文件中取得，而 08/16 23:28

16^F：→ Hsins: 這些資料被放在 <header> 元素中 08/16 23:29

既然書店不願意，那就不浪費時間了!

17^F：→ Kitten1156: 知道有robot.txt 08/17 00:43

18^F：推 Kitten1156: 知道有robot.txt 08/17 00:43

19^F：→ Kitten1156: 但是從來沒去認真看他哈 08/17 00:44

20^F：推 poototo: 降低爬速，加proxy 08/17 08:31

還是有沒有Amazon Python API的使用sample AMAZON API應該就合法了吧? 但是沒有Amazon ISBN的使用手冊! ※ 編輯: mejichoco (101.137.209.158 臺灣), 08/17/2021 16:36:59

21^F：→ mantour: 我爬出來都很正常耶, 你是怎麼爬得要不要說一下 08/18 22:55

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Python 板

[問題] 是網站改版?還是刻意防爬蟲?

熱門看板

贊助商連結