作者s4028600 (佑)
看板EZsoft
標題[請問] 批量網頁的抓取
時間Fri Feb 15 05:19:56 2019
不是抓取網頁中的東西
是抓取網頁本身
我試過用idm抓取
但是因為這個網頁需要登入
導致我所有連結都轉到登入頁面了
有什麼方法可以批量抓取嗎
-----
Sent from JPTT on my Sony F3115.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.173.246
※ 文章網址: https://webptt.com/m.aspx?n=bbs/EZsoft/M.1550179198.A.890.html
1F:→ sa12e3: 請問是要把整個網頁截站嗎?02/15 09:22
2F:→ s4028600: 不 只有固定格式的一些連結02/15 11:25
3F:→ rick65134: 批量? 所以不只一個頁面要抓? 少量的話就另存新檔02/15 12:53
4F:→ rick65134: 大量的話就去找砍站軟體02/15 12:54
問題是我找到的idm無法繞過登入頁面
另存新檔也很想
有300多頁...
※ 編輯: s4028600 (125.224.173.246), 02/15/2019 13:06:42
5F:→ kobe8112: 寫個爬蟲吧 02/15 13:07
6F:推 akhot: 寫爬蟲最快吧 scrapy 學一下 02/15 13:15
7F:→ s4028600: 所以目前沒有軟體有辦法囉... 02/15 14:21
8F:推 chang0206: httrack 可以輸入帳號密碼呀 02/15 14:35
10F:→ s4028600: 登入需要轉頭像 沒辦法直接登入 02/15 15:21
11F:→ x94fujo6: 要抓漫畫的話有人寫好下載器了 02/15 15:35
12F:→ s4028600: 我要抓的是bookmarker的目錄 不是漫畫 02/15 15:40
13F:→ vernc: Teleport Pro 02/15 21:13
14F:→ s4028600: 還是卡在登入問題 02/15 21:48
15F:→ JustGame: iMacros for Chrome 02/16 22:50
16F:→ JustGame: 登入之後用 Chrome 開發者工具複製 cURL 內容,把你要 02/16 22:50
17F:→ JustGame: 撈的頁面網址依照 cURL 內容寫成批次檔,執行就搞定 02/16 22:51
18F:→ s4028600: 可惜英文看不懂 說不定可以的說 02/16 23:15