作者andy22543 (andy22543)

看板Soft_Job

标题

请益Request爬虫

时间Thu Jan 19 20:03:51 2023

最近接到一个专案要爬购物网站存mySQL 爬分类里面各产品资讯+内页详细资讯目前已经使用selenium+multithreading写完可惜速度不够快所以正改用request改写但发现不管用什麽方法(session、cookie、payload)都没办法取得首页的商品资讯已经把网路上能看的解决方式都看过一遍还是无解另外也试过network的event(貌似是api? 把相关资讯post上去爆出ConnectionError: ('Connection aborted.' 所有能试解法都试过还是无法有没有精通的高手帮看一下还有甚麽办法呢附上连结 https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000 ----- Sent from JPTT on my iPhone --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.137.8.129 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1674129833.A.F17.html

1^F：→ keel90135: 标题分类跟缩网址都不会吗... 01/19 20:13

2^F：→ Hsins: 非亲非故又问的不清不楚，愿意帮忙的人可能不多:( 01/19 20:23

3^F：推 MoonCode: 你浏览器看得到用爬虫至少能抓个几次（後续可能被挡） 01/19 20:40

4^F：→ MoonCode: 不要放弃 01/19 20:40

5^F：推 alihue: 直接回到完成的版本，然後复制多份同时跑，每支爬的范围 01/19 22:01

6^F：→ alihue: 指定一下 01/19 22:01

7^F：→ victor21813: 先缩网址再说 01/19 22:40

8^F：→ chuchutaro: dynamic websites? 01/20 00:03

9^F：推 wayne5668944: 印象中好像如果是spa爬虫抓不到（？） 01/20 00:25

10^F：推 vi000246: 如果你是女生帮的人可能会多一点 01/20 00:33

11^F：→ vi000246: 只能给你关键字用wireshark或fiddler看request的raw 01/20 00:34

12^F：→ vi000246: data 想辨法模拟出一个一模一样的request 01/20 00:34

13^F：推 vi000246: 这是get的raw data https://imgur.com/EViD6Ld 01/20 00:38

14^F：→ vi000246: 我网路乱抓的图我比较常用fiddler 你可以找个顺手的 01/20 00:39

15^F：→ becca945: 你很不想问问题？ 01/20 01:03

16^F：嘘 Murasaki0110: 问chatGPT 01/20 01:19

17^F：推 kanahela: 你给的这个网址，超级市场分类商品，点进去就timeout了 01/20 07:38

18^F：→ andy22543: 不好意思第一次在本版发文 01/20 09:17

19^F：→ andy22543: 感谢各位指教 01/20 09:17

20^F：→ surimodo: selenium 笑死怎麽可能快 01/20 10:07

21^F：推 HybridSC: 建议先去搞懂request的运作方式，不然以後也是一个页面 01/20 15:44

22^F：→ HybridSC: 问一次 01/20 15:44

23^F：→ vi000246: 这两本书我没读过不过看目录应该有你要的东西 01/20 16:41

24^F：→ vi000246: https://www.tenlong.com.tw/products/9787301322697 01/20 16:41

25^F：→ vi000246: https://www.tenlong.com.tw/products/9787115528735 01/20 16:41

26^F：→ vi000246: 看反爬虫那个章节就好 01/20 16:42

27^F：→ brucetu: selenium不够快你不会多开几台? 01/20 20:29

28^F：→ brucetu: 你在那边破解反爬虫的成本绝对够你多开好几台 01/20 20:30

29^F：推 vi000246: 多开几台治标不治本又浪费效能学好request才是正解 01/21 00:34

30^F：→ andy22543: 谢谢各位意见，小弟再回去多研究request 01/21 11:04

31^F：推 ReverieKai: 你要先了解request和Selenium两个爬出来的网页差异还 01/21 17:48

32^F：→ ReverieKai: 有运作原理 01/21 17:48

33^F：嘘 secretfly: 网路上能看的解决方式都看过一遍？？？你可以看两遍 01/22 01:00

34^F：嘘 B0988698088: 连缩网址都不会你回去报资测会比较快 01/22 12:30

35^F：→ MoonCode: 凶 01/22 19:19

36^F：→ john0312: 有些反爬虫技术就不是requests学好就能解决的 01/22 19:57

37^F：→ Belieeve: 弱弱问一下，用爬虫进行商业行为（外包），这样不违法 01/23 06:30

38^F：→ Belieeve: 吗…？ 01/23 06:30

39^F：→ vi000246: 爬虫大部份都是违法的请低调使用 01/23 20:07

40^F：推 Hsins: 之前请益过，有一说是真的要起诉的话，可能需要举证爬虫的 01/23 20:17

41^F：→ Hsins: 运作造成的实际损失。有些爬虫比如是电商贩售物品，没有公 01/23 20:17

42^F：→ Hsins: 开 API 又希望第三方行销团队或是其他平台想要同步销售而去 01/23 20:17

43^F：→ Hsins: 爬取资料，好像就比较难判断。建议还是了解一下对方意图会 01/23 20:17

44^F：→ Hsins: 比较好 01/23 20:17

45^F：推 ripple0129: 真的不行就headless，慢了一点但是在背景慢慢爬，太 01/24 14:30

46^F：→ ripple0129: 快有时候反而也会被挡 01/24 14:30

47^F：推 Belieeve: 谢谢大家的解说 01/25 08:10

48^F：推 s25g5d4: 这种通常要另外打 API 拿到资料，如果习惯爬虫写法可以考 01/25 14:54

49^F：→ s25g5d4: 虑 jsdom，比 headless 再更轻量点 01/25 14:54

50^F：→ superpandal: 如上推文爬虫是灰色地带慢不一定是坏事别人不让你 01/25 22:44

51^F：→ superpandal: 爬事小告你事大要快也不是不行不论你用不用合法的 01/25 22:45

52^F：→ superpandal: 方式还是要付钱直接跟购物网站接洽比较好 01/25 22:45

53^F：→ MonyemLi: 快速就是固定时间增加request数量，小型点的就营运会卡 01/26 00:58

54^F：→ MonyemLi: 了。 01/26 00:58

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

请益Request爬虫

热门看板

赞助商连结