作者mejichoco (UoU)
看板Soft_Job
标题Re: [请益] 大家爬虫都爬什麽好玩?
时间Thu Feb 4 20:28:12 2021
不好意思,想藉这个标题问一下
如果爬商业网站的话
写通知信或是告知信需要给哪个部门?
还是写给客服信箱才可以?
不然到时候我怕实验爬虫程式
搞到最後被反制或是列为黑名单ip就糟糕了
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.136.209.27 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1612441694.A.92E.html
1F:推 alihue: 干嘛写 难道人家会为了你去申请这个 ip 列白名单吗 02/04 21:00
2F:嘘 knives: 写什麽,太闲 02/04 21:04
3F:推 DarkIllusion: 告知後直接进黑名单 02/04 21:35
4F:推 mercurycgt68: 小夫我要进来了 02/04 21:58
5F:推 EPGo: 怕的话也可以买 IP 02/04 22:01
6F:推 vi000246: 你可以反制他的反制啊 写爬虫就是这样 见不得光 02/04 23:04
7F:推 kurtsgm: XD 金勾追 02/05 00:30
8F:推 Virness: XD 怪盗基德吗 我晚上9点要进来罗 02/05 00:47
9F:→ viper9709: 推三楼 02/05 00:53
10F:→ pumapupa: 可能就看一下robots.txt吧? 02/05 01:05
11F:→ taipoo: 定时间换ip就可以解决这个问题了 02/05 02:23
12F:推 aidansky0989: 先爬500个代理ip之後随便你玩 02/05 06:55
13F:推 gs8613789: 爬虫的乐趣不就是攻防吗 02/05 07:02
14F:→ spfy: 现在还能看到请谢谢对不起的有礼乡民真的少见 02/05 07:51
15F:推 oncemore: 写了你直接被吉 02/05 09:44
16F:推 devilkool: 怪盗基德www 02/05 09:46
17F:推 mychiux413: 我通常request前都sleep一下,不要造成人家主机负担 02/05 10:02
18F:→ mychiux413: ,当个友善的网路公民 02/05 10:02
19F:推 yam276: 从此在暗网的角落,流传着现代怪盗基德的传说…… 02/05 10:32
20F:→ liujh: 不会在黑名单太久,防火墙记忆体有限 02/05 11:07
21F:→ liujh: 不要同时平行跑太多工作,对方都没什麽感觉 02/05 11:11
22F:→ liujh: 最暴力的爬虫是 Google Bot,你很难像他那麽凶狠 02/05 11:13
23F:推 rahit: 把爬的速度放慢到跟user差不多然後放着做别的事 02/05 13:00
24F:推 Bujo: 你直接请他给你database 帐密比较快 02/05 13:02
25F:推 wahaha279: 发个request 睡个五秒,然後你去睡一觉 02/05 13:15
26F:→ ian90911: fb的我觉得也很凶... 02/05 14:34
27F:推 Darkword1987: 太温良恭俭让了吧 02/05 15:47
28F:推 andrew5106: 写个random sleep阿,防止ban ip也有很多方法吧 02/05 16:41
29F:推 jimmily: 大哥你也太可爱了吧XD 02/05 17:16
30F:推 accessdenied: 目前爬虫遇到无法克服的障碍就是captcha, 有人知道 02/05 18:55
31F:→ accessdenied: 有什麽工具吗? 02/05 18:55
32F:推 james852: 回楼上 OCR 02/05 20:53
33F:→ vi000246: captcha是大坑喔 要学openCV ML 看图片难易度 02/05 21:39
34F:→ OrzOGC: V3现在不用了不是? 02/05 21:48
35F:→ aidansky0989: 现在不都是滑块?还有验证码喔 02/05 22:32
36F:→ accessdenied: ocr无用,我试过很多 ocr 方案,他们都只能对印刷字 02/06 02:31
37F:→ accessdenied: 体有辨识力,手写字和扭曲的captcha无法辨识 02/06 02:31
38F:推 art1: 看过有人写程式产生资料集然後训练一个 ocr model 来解决 02/06 07:41
39F:推 TheOneisNEO: 自干的OCR应该也很难堪用吧 02/06 10:45
40F:嘘 new122851: 笑死 你有听过小偷偷东西前还先告知屋主我要偷了哦? 02/06 12:34
41F:→ new122851: 被黑单挂个vpn再战 02/06 12:35
42F:推 chkea380: captcha随便套个cnn model就可以了 02/06 20:53
43F:推 LittleYueh: 怪盗基德超好笑哈哈哈哈 02/06 22:59
44F:推 sarsman: 有礼貌爬虫 02/07 06:09
45F:推 b85040312: 你应该有长胡子 02/07 15:29
46F:推 uncleben006: 推有礼貌虫虫 02/08 19:38
47F:推 pringles27: 爬ptt股版即时资讯,并透过line来通知 02/15 23:13