作者s4028600 (佑)
看板EZsoft
标题[请问] 批量网页的抓取
时间Fri Feb 15 05:19:56 2019
不是抓取网页中的东西
是抓取网页本身
我试过用idm抓取
但是因为这个网页需要登入
导致我所有连结都转到登入页面了
有什麽方法可以批量抓取吗
-----
Sent from JPTT on my Sony F3115.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.224.173.246
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/EZsoft/M.1550179198.A.890.html
1F:→ sa12e3: 请问是要把整个网页截站吗?02/15 09:22
2F:→ s4028600: 不 只有固定格式的一些连结02/15 11:25
3F:→ rick65134: 批量? 所以不只一个页面要抓? 少量的话就另存新档02/15 12:53
4F:→ rick65134: 大量的话就去找砍站软体02/15 12:54
问题是我找到的idm无法绕过登入页面
另存新档也很想
有300多页...
※ 编辑: s4028600 (125.224.173.246), 02/15/2019 13:06:42
5F:→ kobe8112: 写个爬虫吧 02/15 13:07
6F:推 akhot: 写爬虫最快吧 scrapy 学一下 02/15 13:15
7F:→ s4028600: 所以目前没有软体有办法罗... 02/15 14:21
8F:推 chang0206: httrack 可以输入帐号密码呀 02/15 14:35
10F:→ s4028600: 登入需要转头像 没办法直接登入 02/15 15:21
11F:→ x94fujo6: 要抓漫画的话有人写好下载器了 02/15 15:35
12F:→ s4028600: 我要抓的是bookmarker的目录 不是漫画 02/15 15:40
13F:→ vernc: Teleport Pro 02/15 21:13
14F:→ s4028600: 还是卡在登入问题 02/15 21:48
15F:→ JustGame: iMacros for Chrome 02/16 22:50
16F:→ JustGame: 登入之後用 Chrome 开发者工具复制 cURL 内容,把你要 02/16 22:50
17F:→ JustGame: 捞的页面网址依照 cURL 内容写成批次档,执行就搞定 02/16 22:51
18F:→ s4028600: 可惜英文看不懂 说不定可以的说 02/16 23:15