作者andy22543 (andy22543)

看板Soft_Job

標題

請益Request爬蟲

時間Thu Jan 19 20:03:51 2023

最近接到一個專案要爬購物網站存mySQL 爬分類裡面各產品資訊+內頁詳細資訊目前已經使用selenium+multithreading寫完可惜速度不夠快所以正改用request改寫但發現不管用什麼方法(session、cookie、payload)都沒辦法取得首頁的商品資訊已經把網路上能看的解決方式都看過一遍還是無解另外也試過network的event(貌似是api? 把相關資訊post上去爆出ConnectionError: ('Connection aborted.' 所有能試解法都試過還是無法有沒有精通的高手幫看一下還有甚麼辦法呢附上連結 https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000 ----- Sent from JPTT on my iPhone --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.137.8.129 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1674129833.A.F17.html

1^F：→ keel90135: 標題分類跟縮網址都不會嗎... 01/19 20:13

2^F：→ Hsins: 非親非故又問的不清不楚，願意幫忙的人可能不多:( 01/19 20:23

3^F：推 MoonCode: 你瀏覽器看得到用爬蟲至少能抓個幾次（後續可能被擋） 01/19 20:40

4^F：→ MoonCode: 不要放棄 01/19 20:40

5^F：推 alihue: 直接回到完成的版本，然後複製多份同時跑，每支爬的範圍 01/19 22:01

6^F：→ alihue: 指定一下 01/19 22:01

7^F：→ victor21813: 先縮網址再說 01/19 22:40

8^F：→ chuchutaro: dynamic websites? 01/20 00:03

9^F：推 wayne5668944: 印象中好像如果是spa爬蟲抓不到（？） 01/20 00:25

10^F：推 vi000246: 如果你是女生幫的人可能會多一點 01/20 00:33

11^F：→ vi000246: 只能給你關鍵字用wireshark或fiddler看request的raw 01/20 00:34

12^F：→ vi000246: data 想辨法模擬出一個一模一樣的request 01/20 00:34

13^F：推 vi000246: 這是get的raw data https://imgur.com/EViD6Ld 01/20 00:38

14^F：→ vi000246: 我網路亂抓的圖我比較常用fiddler 你可以找個順手的 01/20 00:39

15^F：→ becca945: 你很不想問問題？ 01/20 01:03

16^F：噓 Murasaki0110: 問chatGPT 01/20 01:19

17^F：推 kanahela: 你給的這個網址，超級市場分類商品，點進去就timeout了 01/20 07:38

18^F：→ andy22543: 不好意思第一次在本版發文 01/20 09:17

19^F：→ andy22543: 感謝各位指教 01/20 09:17

20^F：→ surimodo: selenium 笑死怎麼可能快 01/20 10:07

21^F：推 HybridSC: 建議先去搞懂request的運作方式，不然以後也是一個頁面 01/20 15:44

22^F：→ HybridSC: 問一次 01/20 15:44

23^F：→ vi000246: 這兩本書我沒讀過不過看目錄應該有你要的東西 01/20 16:41

24^F：→ vi000246: https://www.tenlong.com.tw/products/9787301322697 01/20 16:41

25^F：→ vi000246: https://www.tenlong.com.tw/products/9787115528735 01/20 16:41

26^F：→ vi000246: 看反爬蟲那個章節就好 01/20 16:42

27^F：→ brucetu: selenium不夠快你不會多開幾台? 01/20 20:29

28^F：→ brucetu: 你在那邊破解反爬蟲的成本絕對夠你多開好幾台 01/20 20:30

29^F：推 vi000246: 多開幾台治標不治本又浪費效能學好request才是正解 01/21 00:34

30^F：→ andy22543: 謝謝各位意見，小弟再回去多研究request 01/21 11:04

31^F：推 ReverieKai: 你要先了解request和Selenium兩個爬出來的網頁差異還 01/21 17:48

32^F：→ ReverieKai: 有運作原理 01/21 17:48

33^F：噓 secretfly: 網路上能看的解決方式都看過一遍？？？你可以看兩遍 01/22 01:00

34^F：噓 B0988698088: 連縮網址都不會你回去報資測會比較快 01/22 12:30

35^F：→ MoonCode: 凶 01/22 19:19

36^F：→ john0312: 有些反爬蟲技術就不是requests學好就能解決的 01/22 19:57

37^F：→ Belieeve: 弱弱問一下，用爬蟲進行商業行為（外包），這樣不違法 01/23 06:30

38^F：→ Belieeve: 嗎…？ 01/23 06:30

39^F：→ vi000246: 爬蟲大部份都是違法的請低調使用 01/23 20:07

40^F：推 Hsins: 之前請益過，有一說是真的要起訴的話，可能需要舉證爬蟲的 01/23 20:17

41^F：→ Hsins: 運作造成的實際損失。有些爬蟲比如是電商販售物品，沒有公 01/23 20:17

42^F：→ Hsins: 開 API 又希望第三方行銷團隊或是其他平台想要同步銷售而去 01/23 20:17

43^F：→ Hsins: 爬取資料，好像就比較難判斷。建議還是了解一下對方意圖會 01/23 20:17

44^F：→ Hsins: 比較好 01/23 20:17

45^F：推 ripple0129: 真的不行就headless，慢了一點但是在背景慢慢爬，太 01/24 14:30

46^F：→ ripple0129: 快有時候反而也會被擋 01/24 14:30

47^F：推 Belieeve: 謝謝大家的解說 01/25 08:10

48^F：推 s25g5d4: 這種通常要另外打 API 拿到資料，如果習慣爬蟲寫法可以考 01/25 14:54

49^F：→ s25g5d4: 慮 jsdom，比 headless 再更輕量點 01/25 14:54

50^F：→ superpandal: 如上推文爬蟲是灰色地帶慢不一定是壞事別人不讓你 01/25 22:44

51^F：→ superpandal: 爬事小告你事大要快也不是不行不論你用不用合法的 01/25 22:45

52^F：→ superpandal: 方式還是要付錢直接跟購物網站接洽比較好 01/25 22:45

53^F：→ MonyemLi: 快速就是固定時間增加request數量，小型點的就營運會卡 01/26 00:58

54^F：→ MonyemLi: 了。 01/26 00:58

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Soft_Job 板

請益Request爬蟲

熱門看板

贊助商連結