作者danny0838 (道可道非常道)
看板Browsers
标题Re: [-GC-] 请问有哪款插件能按链结存成mhtml
时间Wed Apr 7 08:34:26 2021
※ 引述《wingflys (月风)》之铭言:
: 最近要收集很多网页的资料分析,
: 但每存一个目标就要把网页开启来才能选择存成mhtml,
: 过程不但耗资源又慢,
: 有没有直接在链结上面右键就能将链结目标的网页存成mhtml格式的插件?
MHT 现在是 Chromium 内建储存功能,
不过 Chromium 并未提供 API 供浏览器套件操作,
所以你要求的功能是无法的,
顶多是本来在做网页撷取的浏览器套件主动提供储存成 MHT 的功能,
而就我所知,Chromium 上没有这种套件。
对於储存网页做分析,
基本上我写的 WebScrapBook 已经涵盖了网页忠实撷取、
加注、编辑、全文搜寻等功能。
着眼於资料的长期保存和方便使用,
WebScrapBook 支援的几种格式
(资料夹、HTZ、MAFF、单一 HTML)
基本上都比较推荐。
之前分析过後决定不打算支援 MHT,
原因是此格式肥大且支援性差,几乎没啥优点。
连结按右键储存的功能 WebScrapBook 有提供,
但要注意现在很多网页是动态脚本载入的,
也就是要在浏览器打开,
甚至要经过使用者操作才会载入内容(比如卷轴向下拉才会载入图片),
这种网页如果直接用右键储存会有不完整的问题。
如果遇到这种网页,还是乖乖打开来再储存吧。
--
《终结内容农场》浏览器套件
Chrome:
http://bit.ly/CFTGC
Firefox:
http://bit.ly/CFTFx (桌机 & Android 手机)
真相1:
http://bit.ly/CFTss1
真相2:
http://bit.ly/CFTss2
详细介绍:
http://bit.ly/CFTinfo
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.140.115.144 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Browsers/M.1617755671.A.F19.html
※ 编辑: danny0838 (223.140.115.144 台湾), 04/07/2021 08:35:15
※ 编辑: danny0838 (223.140.115.144 台湾), 04/07/2021 08:35:49
1F:推 Alica: MHTML本身是email格式搬过来用 所以用7bit编码封装资源 04/07 11:48
2F:→ Alica: 副作用就是档案容量增加 比起原先纯文字+资源档还更大 04/07 11:49
3F:→ Alica: 但似乎也没有新rfc规格有提供压缩的 总之就放着 04/07 11:50
我知道 MHTML 是 RFC,可以和 .eml 互换,以前还号称跨平台,
IE、Opera、Firefox、Chrome 都支援,
但现在也不晓得浏览器开发商怎麽想的,
除了 Chromium 以外似乎都一致懒得折腾去实做对这套标准的支援
(Safari、旧 Edge 都不做,Firefox 改套件系统後也不愿意提供相关 API 支援),
而 email client 通常对网页标准支援度不足,有些还不支援直接开启 .eml 档案……
除了浏览器或 email client 支援以外,各程式语言很难找到相关的 lib,
浏览器套件开发者如要支援 MHT,得重头到尾实做整套 RFC,光看就累死orz...
相较之下,MAFF 虽非 RFC,好歹也是开放规格,
虽然没有浏览器直接支援,但是基於极为泛用的 ZIP,
写个介接程式即时解压喂给浏览器也不难;
就算找不到好的阅读器,找个软体 unzip 一下就变成网页档案包,
可以顺利开启,无痛降级很ok。
MHT 的编码方式则让人类几乎无法阅读,若找不到阅读器,
想用纯文字编辑器看都不可行,只能望档兴叹。
除此之外,ZIP 可以压缩档案,而 MHTML 让档案肥大;MAFF 还支援包装多个网页。
如果要推标准,我想 MAFF 明显是比较好的选择。
4F:→ t7yang: ㄟㄟ,你这样工商一波对吗(开玩笑 04/07 15:26
只给箭头不给推对吗?(#‵︿′ㄨ)
※ 编辑: danny0838 (36.227.217.238 台湾), 04/09/2021 08:16:07
5F:推 t7yang: 推推 XDDDD 04/09 08:46
6F:推 penguinfuko: 帮你推推 04/12 19:17
7F:推 aiwheat: 帮推,好用的网页存档套件 04/13 20:09
8F:推 sdbb: 好用推,谢谢 04/15 22:11