作者danny0838 (道可道非常道)
看板Browsers
标题Re: [-Fx-][-GC-] 网页剪贴簿 (WebScrapBook) 0.89
时间Fri Nov 13 21:57:15 2020
很幸运地,总算研究出还可以接受的做法,
0.92 版开始支援
深层撷取了!
不过目前的做法还比较阳春,
由於现代网页变复杂,加上 WebExtension 架构变动及考量支援触控/手机版,
短期内大概无法支援像传统 ScrapBook (X) 那样随时暂停/恢复及增减下载页面,
只能用预先设定好的网址筛选规则过滤要深层撷取的网页。
另外,也还没有实做传统 ScrapBook (X) 的站台地图功能,
其中一个考量也是沿续传统的站台地图写法可能会衍生出一些问题,
此外我也有点怀疑是不是真的还有人在使用这功能...
有在用的可否举个手及分享一下心得XD
如果没有其他特别计画,就准备出 1.0 了~~~ ^_^
--
《终结内容农场》浏览器套件
Chrome:
http://bit.ly/CFTGC
Firefox:
http://bit.ly/CFTFx (桌机 & Android 手机)
真相1:
http://bit.ly/CFTss1
真相2:
http://bit.ly/CFTss2
详细介绍:
http://bit.ly/CFTinfo
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.115.3.56 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Browsers/M.1605275841.A.459.html
※ 编辑: danny0838 (59.115.3.56 台湾), 11/13/2020 21:58:27
1F:推 shyangs: 我想要(浏览器看)网站全索引页面,不一定要sitemap.xml. 11/14 09:07
能否说明你所谓的网站全索引页面是指什麽?
目前 WSB 的站台地图就是按深层撷取爬到的页面画出来的,
如果要原网站的站台地图,除非原网站有提供且 WSB 爬到的页面有连结,
否则 WSB 无法知道网站总共有哪些页面...
※ 编辑: danny0838 (59.115.3.56 台湾), 11/14/2020 12:27:19
3F:→ shyangs: 一般浏览可能是开index.html; 但也可以开sitemap.xml 11/14 13:55
4F:→ shyangs: 如果撷取的层次很深,sitemap.xml比较方便浏览. 11/14 13:56
5F:→ shyangs: WSB 的站台地图是index.json? 11/14 13:57
是我笔误,「『传统 ScrapBook 的站台地图』就是按深层撷取爬到的页面画出来的」,
你说的 sitemap.xml 就是我前面说的站台地图,
WSB 目前并未实做。至於 index.json 只是资源列表,
相当於传统 ScrapBook 的 sb-file2url.txt 和 sb-url2name.txt。
没实做的原因一来是新架构不好写,
二来是以往的 XML + XSL 在现代浏览器会受限於同源政策导致在本地无法正常开启,
(用後端伺服器是没问题,但静态站台就会有问题),
三来是目前在规划合并撷取功能(撷取新页面并入及交互连结),
这样可能会有多个起点,更难画出站台地图(至少是不能用原来的画法)。
如果先不考虑三,或许可以把站台地图储存在 index.json,
然後浏览器套件另外做一个浏览站台地图的介面,
但是这样就不能自订站台地图样式,也不支援静态站台。
※ 编辑: danny0838 (59.115.3.56 台湾), 11/14/2020 16:07:00
0.94 版初步完成了合并撷取功能,
不过目前还没想出 GUI 怎麽设计,
暂时只能从批次撷取器修改 JSON 操作。
在合并撷取的情况下,站台地图可能会有多个起点,
可能要每次撷取时额外加入起始网址的记录才能重建出站台地图了@@...
※ 编辑: danny0838 (59.115.3.56 台湾), 11/15/2020 23:10:36