作者danny0838 (道可道非常道)
看板Browsers
標題Re: [閒聊] Project Coffee Jazz 詞彙用語正簡轉換
時間Thu Apr 26 03:22:07 2018
既然有人要入坑,就拿個很久前的舊作充數XD
https://github.com/danny0838/sts-lib
此專案的主要目標是提供能有效整理各種簡繁轉換對照表的框架,
供不同情境使用,以及幾個層次的轉換腳本。
主要程式語言是 Python + Shell Script (CMD)。
大部分轉換表資料來自OpenCC和維基百科,但後來做了不少整理。
因為是很古老的專案,充斥著很多不適合公開的版本記錄,
所以暫時先丟最新版本。之後有空整理再補上舊的版本歷程。
個人是建議如果可以的話,轉換表格式盡量用純文字檔,
日後用各種程式比對及整合會比較方便。
※ 引述《t7yang (t7: 攻城蝨)》之銘言:
: 不知道大家對這個 2016 年 11 月的一篇幻想文還有印象嗎?
: 現在他不只是幻想了,而且他還正要實現了。
: 當時我還只是一個剛上手寫 JS 而已,根本只是個許願文而已。
: 後來輾轉實力提升了不少,加上對新同文堂很不滿意
: 但是無奈現有的程式碼缺乏有效的管理,後來就選擇了自幹了
: 原本沒有沒有想要繼承新同文堂的,但是被 ett 拉了回來
: 所以就把這個代號改了一下,作為新同文堂 2.0 的開發代號
: Project Jazz Cafe NEED YOU (新同文堂 2.0 需要你)
: * 一組新的圖示(包含亮色系跟暗色系),可能還有其他的圖示
: (你可以設計你的版本,最後我們再來投票)
: * 重組字典檔專案(因應新的演算法和新增轉換用語預設字典檔)
: 對上述議題有興趣的人請聯絡我,我需要你的協助,或引介人才給我
--
《終結內容農場》瀏覽器套件
Firefox:
https://mzl.la/2g0I0ry (桌機 & Android 手機)
Chrome:
http://bit.ly/2wDWWyP
真相1:
https://i.imgur.com/JKPzD1L.png
真相2:
https://i.imgur.com/WTHmuVJ.png
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.225.237
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Browsers/M.1524684132.A.D9D.html
1F:→ t7yang: 看起來不錯喔。當初也有想去opencc那裡借資源的,只是那個 04/26 09:13
2F:→ t7yang: 一對多的部分不好處理。如果你已經有處理好的東西可以用 04/26 09:14
3F:→ t7yang: 最好。儲存格式的話,最終還是要轉到JSON,瀏覽器那裡才能 04/26 09:14
4F:→ t7yang: 比較好處理 04/26 09:14
JSON餵瀏覽器和node.js的確比較方便,
但編輯轉換表的人會非常痛苦,
也不容易做版本控管、差異比對、不同版本整合,
尤其你的開發目標是讓使用者容易自訂轉換表,
我想不是每個使用者都瞭解JSON規格且有能力編輯。
當然你可以在使用者介面提供編輯轉換表的功能,
但一般而言在使用者介面做大規模編輯不會比匯出成純文字檔、編輯、再匯入方便。
所以我會建議原始檔用純文字,如有效能考量,
動態做JSON或其他格式的快取即可。
※ 編輯: danny0838 (111.243.227.36), 04/26/2018 13:35:53
5F:→ t7yang: 多人共編處理的問題很重要,所以我其實是想直接用G社的 04/26 14:53
6F:→ t7yang: 試算表來維護,開發者再透過 CSV 去後製成 JSON 方到套件 04/26 14:54
7F:→ t7yang: 線上試算表的好處就是簡單、容易用、支援多人共同編輯 04/26 14:55
8F:→ t7yang: 還有版本控制。剩下的事情就是交給開發者去處理。 04/26 14:56
9F:推 t7yang: 補個推,一直沒推到 04/26 20:25
如果是把Google試算表當原始檔,程式直接讀來用,那根本沒有JSON或純文字的問題。
如果是要定時人工把Google試算表的資料轉進程式裡,純文字大概還是比JSON好處理。
此外如果轉換表要進版本庫,JSON也很不利版控和差異比對...
我會這麼說是因為我另一個更早的專案就是用JSON轉換表,
之後維護轉換表的工作只能說非常痛苦...
當然最終怎麼做還是看你的整體規畫啦。
10F:推 oversky0: 萌典有兩岸辭典。不過不知有沒有版權問題。 04/26 21:41
11F:→ oversky0: 兩岸詞典由中華文化總會提供, 04/26 21:43
12F:→ oversky0: 採用 CC BY-NC-ND 3.0 臺灣授權。 04/26 21:43
※ 編輯: danny0838 (111.243.227.36), 04/26/2018 22:26:05
14F:推 karst10607: 推,這部分我回來了,我會幫忙 05/08 08:49