作者poeta (鍵盤詩人)
看板EZsoft
標題[請問] 批次下載的圖檔jpg和png混雜的問題
時間Mon Mar 6 16:07:19 2017
HathiTrust Digital Library這個典藏網站,歐美名校有合作關係的,可以點選
畫面的 Download whole book (PDF),沒有合作的學校只能一頁一頁抓了。
像我看到的這份資料,想要抓其中一卷,線上觀看的網址是這個:
https://babel.hathitrust.org/cgi/pt?id=nnc1.cu04711483;view=2up;seq=3
按右鍵就可以看到他的原始連結,也可以下載,網站本身是沒有禁止的,所以我
寫了一個迴圈的語法,顯示我要抓的1~30頁超連結。
不過遇到的問題是,他的圖檔是jpg和png混雜
例如第3頁是jpg檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=3
第5頁則是png檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=6
因此我用firefox的downthemall插件,快速抓下來以後,即使是按時間排列,圖
檔的順序仍會錯亂。所以想問這個網站,應該要用什麼軟體來下載呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.232.151.212
※ 文章網址: https://webptt.com/m.aspx?n=bbs/EZsoft/M.1488787647.A.8D2.html
1F:推 rick65134: 抓的時候沒辦法自動自訂檔名嗎? 03/06 16:23
2F:→ poeta: 我怎麼沒想過這個問題...害我還打這一大串... 03/06 16:35
3F:→ poeta: 應該是可以,我去研究一下...真是一語驚醒 03/06 16:35
4F:→ rick65134: 然後大部分的看圖軟體應該可以無視副檔名自動判斷格式 03/06 17:29
5F:→ rick65134: 所以你也不必去糾結它到底是jpg還是png 直接存成*.jpg 03/06 17:30
6F:→ poeta: 我成功了 QQ 打這篇花20分鐘 解決只要2秒..我是要整合成pdf 03/06 17:32
7F:→ poeta: 所以還是要副檔名正確,那個批次軟體設成 *inum*.*ext* 03/06 17:33
8F:→ poeta: 就搞定了。 03/06 17:33
9F:推 rick65134: ^-^ 03/06 17:36