作者andy22543 (andy22543)
看板Soft_Job
标题请益Request爬虫
时间Thu Jan 19 20:03:51 2023
最近接到一个专案要爬购物网站存mySQL
爬分类里面各产品资讯+内页详细资讯
目前已经使用selenium+multithreading写完
可惜速度不够快
所以正改用request改写
但发现不管用什麽方法(session、cookie、payload)都没办法取得首页的商品资讯
已经把网路上能看的解决方式都看过一遍还是无解
另外也试过network的event(貌似是api?
把相关资讯post上去爆出ConnectionError: ('Connection aborted.'
所有能试解法都试过还是无法
有没有精通的高手帮看一下还有甚麽办法呢
附上连结
https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.137.8.129 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1674129833.A.F17.html
1F:→ keel90135: 标题分类跟缩网址都不会吗... 01/19 20:13
2F:→ Hsins: 非亲非故又问的不清不楚,愿意帮忙的人可能不多:( 01/19 20:23
3F:推 MoonCode: 你浏览器看得到用爬虫至少能抓个几次(後续可能被挡) 01/19 20:40
4F:→ MoonCode: 不要放弃 01/19 20:40
5F:推 alihue: 直接回到完成的版本,然後复制多份同时跑,每支爬的范围 01/19 22:01
6F:→ alihue: 指定一下 01/19 22:01
7F:→ victor21813: 先缩网址再说 01/19 22:40
8F:→ chuchutaro: dynamic websites? 01/20 00:03
9F:推 wayne5668944: 印象中好像如果是spa爬虫抓不到(?) 01/20 00:25
10F:推 vi000246: 如果你是女生 帮的人可能会多一点 01/20 00:33
11F:→ vi000246: 只能给你关键字 用wireshark或fiddler看request的raw 01/20 00:34
12F:→ vi000246: data 想辨法模拟出一个一模一样的request 01/20 00:34
14F:→ vi000246: 我网路乱抓的图 我比较常用fiddler 你可以找个顺手的 01/20 00:39
15F:→ becca945: 你很不想问问题? 01/20 01:03
16F:嘘 Murasaki0110: 问chatGPT 01/20 01:19
17F:推 kanahela: 你给的这个网址,超级市场分类商品,点进去就timeout了 01/20 07:38
18F:→ andy22543: 不好意思第一次在本版发文 01/20 09:17
19F:→ andy22543: 感谢各位指教 01/20 09:17
20F:→ surimodo: selenium 笑死 怎麽可能快 01/20 10:07
21F:推 HybridSC: 建议先去搞懂request的运作方式,不然以後也是一个页面 01/20 15:44
22F:→ HybridSC: 问一次 01/20 15:44
23F:→ vi000246: 这两本书我没读过 不过看目录应该有你要的东西 01/20 16:41
26F:→ vi000246: 看反爬虫那个章节就好 01/20 16:42
27F:→ brucetu: selenium不够快你不会多开几台? 01/20 20:29
28F:→ brucetu: 你在那边破解反爬虫的成本绝对够你多开好几台 01/20 20:30
29F:推 vi000246: 多开几台治标不治本 又浪费效能 学好request才是正解 01/21 00:34
30F:→ andy22543: 谢谢各位意见,小弟再回去多研究request 01/21 11:04
31F:推 ReverieKai: 你要先了解request和Selenium两个爬出来的网页差异还 01/21 17:48
32F:→ ReverieKai: 有运作原理 01/21 17:48
33F:嘘 secretfly: 网路上能看的解决方式都看过一遍???你可以看两遍 01/22 01:00
34F:嘘 B0988698088: 连缩网址都不会你回去报资测会比较快 01/22 12:30
35F:→ MoonCode: 凶 01/22 19:19
36F:→ john0312: 有些反爬虫技术就不是requests学好就能解决的 01/22 19:57
37F:→ Belieeve: 弱弱问一下,用爬虫进行商业行为(外包),这样不违法 01/23 06:30
38F:→ Belieeve: 吗…? 01/23 06:30
39F:→ vi000246: 爬虫大部份都是违法的 请低调使用 01/23 20:07
40F:推 Hsins: 之前请益过,有一说是真的要起诉的话,可能需要举证爬虫的 01/23 20:17
41F:→ Hsins: 运作造成的实际损失。有些爬虫比如是电商贩售物品,没有公 01/23 20:17
42F:→ Hsins: 开 API 又希望第三方行销团队或是其他平台想要同步销售而去 01/23 20:17
43F:→ Hsins: 爬取资料,好像就比较难判断。建议还是了解一下对方意图会 01/23 20:17
44F:→ Hsins: 比较好 01/23 20:17
45F:推 ripple0129: 真的不行就headless,慢了一点但是在背景慢慢爬,太 01/24 14:30
46F:→ ripple0129: 快有时候反而也会被挡 01/24 14:30
47F:推 Belieeve: 谢谢大家的解说 01/25 08:10
48F:推 s25g5d4: 这种通常要另外打 API 拿到资料,如果习惯爬虫写法可以考 01/25 14:54
49F:→ s25g5d4: 虑 jsdom,比 headless 再更轻量点 01/25 14:54
50F:→ superpandal: 如上推文 爬虫是灰色地带 慢不一定是坏事 别人不让你 01/25 22:44
51F:→ superpandal: 爬事小 告你事大 要快也不是不行 不论你用不用合法的 01/25 22:45
52F:→ superpandal: 方式还是要付钱 直接跟购物网站接洽比较好 01/25 22:45
53F:→ MonyemLi: 快速就是固定时间增加request数量,小型点的就营运会卡 01/26 00:58
54F:→ MonyemLi: 了。 01/26 00:58