作者poeta (键盘诗人)
看板EZsoft
标题[请问] 批次下载的图档jpg和png混杂的问题
时间Mon Mar 6 16:07:19 2017
HathiTrust Digital Library这个典藏网站,欧美名校有合作关系的,可以点选
画面的 Download whole book (PDF),没有合作的学校只能一页一页抓了。
像我看到的这份资料,想要抓其中一卷,线上观看的网址是这个:
https://babel.hathitrust.org/cgi/pt?id=nnc1.cu04711483;view=2up;seq=3
按右键就可以看到他的原始连结,也可以下载,网站本身是没有禁止的,所以我
写了一个回圈的语法,显示我要抓的1~30页超连结。
不过遇到的问题是,他的图档是jpg和png混杂
例如第3页是jpg档
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=3
第5页则是png档
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=6
因此我用firefox的downthemall插件,快速抓下来以後,即使是按时间排列,图
档的顺序仍会错乱。所以想问这个网站,应该要用什麽软体来下载呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.232.151.212
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/EZsoft/M.1488787647.A.8D2.html
1F:推 rick65134: 抓的时候没办法自动自订档名吗? 03/06 16:23
2F:→ poeta: 我怎麽没想过这个问题...害我还打这一大串... 03/06 16:35
3F:→ poeta: 应该是可以,我去研究一下...真是一语惊醒 03/06 16:35
4F:→ rick65134: 然後大部分的看图软体应该可以无视副档名自动判断格式 03/06 17:29
5F:→ rick65134: 所以你也不必去纠结它到底是jpg还是png 直接存成*.jpg 03/06 17:30
6F:→ poeta: 我成功了 QQ 打这篇花20分钟 解决只要2秒..我是要整合成pdf 03/06 17:32
7F:→ poeta: 所以还是要副档名正确,那个批次软体设成 *inum*.*ext* 03/06 17:33
8F:→ poeta: 就搞定了。 03/06 17:33
9F:推 rick65134: ^-^ 03/06 17:36