作者danny0838 (道可道非常道)
看板Browsers
標題[-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.34
時間Fri Mar 1 00:56:09 2019
網頁剪貼簿 (WebScrapBook) 0.34.0
https://github.com/danny0838/webscrapbook
進入連結後在 Readme 下面的 Downloads: 可看到下載連結
前情提要:請在本版搜尋
ScrapBook
最近的重點更動(0.19.* → 0.34.0):
* 套件名稱更名為 WebScrapBook(之前是 Web ScrapBook)。
* 大幅改善介面,比如那一坨拉庫的擷取選項現在可以按「?」顯示詳細說明;
按住 Ctrl 選取多個分頁可一起擷取,手機版可直接擷取目前分頁,等等。
* 大幅重構及改善程式碼架構,讓未來更容易擴充。
不過有個小代價是為了使用超好用的 async/await,
最低支援版本提高至 Firefox 52/Chromium 55(以前是 Fx 48/Chr 49)。
* 由於 AMO 對安全性的堅持(還等了夭壽久...),
最終放棄在內建封存網頁檢視器支援 JavaScript。
不過反過來說之前的方式的確也不是長久之計,
加上需要擷取 JavaScript 且擷取後能用的機會本來很微小,
暫時就先這樣吧。
之後預計又會有大改版,這裡做個小報告順便徵詢一些意見:
WebExtension 不支援許多關鍵功能(比如存取檔案系統),
因此若要 WebScrapBook 有像傳統 ScrapBook X 那些強大的功能,
在系統安裝輔助程式是必要的。
這議題擺了非常久,細節就不多說,之前的討論可參考這裡:
https://github.com/danny0838/webscrapbook/issues/2
目前的規畫是用 Python 寫一個後端程式,
情況順利的話以後使用 WebScrapBook 的方法大概像這樣:
1. 在系統上安裝 Python 3.5+ (用不用管理員權限裝都可以)
2. 在系統上安裝 WebScrapBook 後端程式的 Python 套件
(一般來說到命令列輸入 pip install webscrapbook 就可以完成)
3. 在命令列進入想當資料庫的資料夾(假設叫做 D:\scrapbook),
輸入 wsb config 之類的初始化命令完成初始化,
會自動建立一個 .wsb 資料夾存放設定檔和啟動腳本。
4. 初始化完成後,
以後執行 D:\scrapbook\.wsb\serve.py 就會自動啟動後端程式架起伺服器,
伺服器架起來就可以用瀏覽器存取 D:\scrapbook,
假設伺服器「網站」位址設定在
http://localhost:8080/,
就到 WebScrapBook 選項把剪貼簿位址設定為
http://localhost:8080/,
之後 WebScrapBook 擷取網頁就會自動傳到伺服器,
也會有按鈕可直接進入後端資料庫的首頁,
可以用瀏覽器直接查看擷取資料列表,或開在側欄。
伺服器還可以設定成開放外界存取(得先會設定防火牆及路由器就是),
以後人在外面可以用手機的 WebScrapBook 把資料直接存到電腦。
5. 後端程式還可以提供其他功能:
* 完整支援 .htz/.maff 壓縮格式,
進入伺服器網址瀏覽這些檔案就和看一般網頁一樣。
* 基本的檔案操作:增刪資料夾及檔案、上傳檔案、資料夾打包下載等。
* 和本地系統整合:可從瀏覽器把檔案用本地程式啟動,或開在檔案總管裡。
* 編輯功能:編輯文字檔、
編輯網頁(包括舊 ScrapBook X 的螢光筆、劃線等都能做到)、
編輯 Markdown 筆記(儲存後可直接看 HTML 輸出)等等。
* 如果已經有架 Apache 或其他伺服器,
可以用 WSGI 轉接到這個後端伺服器;
Python 非常模組化,有心的話也可以寫另一個程式調用 webscrapbook 模組。
* 後端程式本身也提供一些命令列工具,大概會包括幾個功能:
* 轉檔:比如從舊版 ScrapBook X 及 WebScrapBook 匯入資料庫
* 建置全文搜尋索引
* 輸出成靜態網站(以便整批丟到手機上看,或架到 GitHub Page 等等)
其他目前打算做的一些改變,
可能會影響過去使用 ScrapBook X 或 WebScrapBook 的習慣,
若有什麼想法請不吝提出:
* 資料結構調整:為了讓資料更簡潔更好組織,預計把以往 ScrapBook X 的架構:
<scrapbook>/scrapbook.rdf
<scrapbook>/search.html
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
或 WebScrapBook 索引器的架構:
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
改成像這樣:
<scrapbook>/.wsb/<設定檔>
<scrapbook>/.wsb/server/<伺服器快取檔等等>
<scrapbook>/.wsb/tree/<索引檔>
<scrapbook>/<資料檔>
簡而言之就是以後 webscrapbook 後端程式產生的都統一丟在 .wsb 資料夾裡。
* 拿掉目前的索引器:
WebExtension 套件的功能畢竟很難像 Python 程式那樣完整,
要維護兩套也很麻煩,乾脆拿掉。
會衝擊到的主要是想要索引功能又不想安裝後端程式的人,
以及手機版(雖然手機版的索引功能本來就很難用),
不曉得有沒有版友是這種人?XD
* 拿掉儲存成單一 HTML 頁面的功能:
WebScrapBook 原始目的是網頁的長久保真封存,
單一 HTML 頁面雖然方便,
但有很多地方會失真或失效、檔案會變肥、也不容易用其他程式轉檔,
不是長久封存的理想選擇。
之後後端程式應該會加入轉存成單一 HTML 頁面的功能,
(技術上以往 ScrapBook X Converter 能做的所有事後端程式都能做到,
只是要時間寫,而且可能是從命令列執行,介面沒那麼友善)
想把擷取的資料再另存成單一 HTML 網頁分享給別人還是可以,
只是就不再提供直接從瀏覽器套件儲存成單一網頁的選項。
--
《終結內容農場》瀏覽器套件
Chrome:
http://bit.ly/CFTGC (桌機 & Android 手機)
Firefox:
http://bit.ly/CFTFx
真相1:
http://bit.ly/CFTss1
真相2:
http://bit.ly/CFTss2
詳細介紹:
http://bit.ly/CFTinfo
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.226.152
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Browsers/M.1551372978.A.492.html
※ 編輯: danny0838 (111.243.226.152), 03/01/2019 01:10:27
1F:推 DCG: 如果只是單純擷取網頁(部份或整頁)為 HTZ, 03/01 09:10
2F:→ DCG: 以後改版也要安裝後端程式才能用嗎? 03/01 09:11
3F:→ danny0838: 封存頁面檢視器會保留 03/01 10:24
4F:推 sate5232: 如果管理功能能有以往般強大,要安裝後端也沒問題 03/08 21:52
5F:推 DCG: 試了一下,新版的 reddit 好像無法正常儲存,例如: 03/11 20:09
9F:推 DCG: 試著把腳本或其他元素選儲存也一樣,無法正常顯示 03/11 20:18
10F:推 DCG: 改儲成 HTML,也一樣無法正常顯示 03/11 20:25
Reddit.com 的問題是樣式無法順利擷取,
這牽涉到一些複雜的問題,
以後有空才能做完整的處理。
暫時的解決方案是用擷取原貌,
就能讓樣式正常呈現。
※ 編輯: danny0838 (111.243.221.189), 03/12/2019 22:15:50
11F:推 aiwheat: 儲存頁面時,會另外跳出的一個視窗處理,然後又跳出一個 03/13 19:58
12F:→ aiwheat: 視窗,讓人選擇下再到自己電腦裡,這兩個部份可以不要顯 03/13 19:59
13F:→ aiwheat: 示出來嗎?另外儲存所有分頁時,可以讓人選擇要哪些分頁? 03/13 20:00
擷取頁面跳出的視窗大概不會改,
因為目前 WebExtension 架構沒辦法弄一個彼此獨立能隨時在出狀況時顯示訊息
、且使用者能隨時喊卡中止的 Worker,開新視窗已經是目前能想到的最佳方案。
至於擷取完成後跳出選擇儲存位置的視窗,
擷取選項「儲存擷取資料至:」不要設定成「獨立檔案」就不會有了。
(這部分之後可能會變,細節參見
http://bit.ly/2HAZFBh)
※ 編輯: danny0838 (111.243.217.246), 03/15/2019 01:04:09