作者danny0838 (道可道非常道)
看板ChineseMed
标题[情报] 中医笈成缺字归零计画
时间Mon Aug 16 20:20:43 2021
如有查询电子古书的经验,应该会发现网路上许多文本充斥着显示不出来的缺字
,有的显示成空白,有的是造字码,有的是一串乱码,有的则是直接少一个字。
在 Unicode 一统江湖以前,早期的数位文本在遇到电脑缺字时,多半是自行建
立造字,但造字很难交换,对於缺少造字档的机器而言,通通都是无意义的乱码。
笈成目前收录的文本,大多是有造字的。理论上只要人工建表再用程式把造字自
动转换为对应的 Unicode 字元或 IDS 即可,笈成也已经这麽做了,然而很不幸
地,其中有些档案使用了多个造字档,也就是同一个造字码在同一个档案的不同
位置可能对应不同造字,这导致程式转换只能暂且转成比较可能正确的字,并非
100% 可靠,因此还需要人工逐一检查所有被转换过的造字,并修正错误的转换。
在处理完这批造字之前,相关档案都不适合做其他批次操作,否则一但档案大幅
变动,检查造字将更为困难,修正造字也容易造成冲突,导致处理成本爆炸性增
加,还容易发生不可预期的错误。目前有许多品质改善计画——例如修正某些明
显的简转繁错误等等——都因此长期处於延宕状态。
据计算这批档案有 1069 个,小编长期爆肝之下已检查及修正了许多造字较少的
档案。即便如此,目前仍有 260 本以上的书要处理,每本书的造字少则 30 几
行,多则数百数千行(按:每行可能有一至多个造字)……。
所以笈成需要大家帮忙!详细操作方法在此:
https://gitlab.com/jicheng/jc.data/-/issues/10
基本上只要安装及学习一个软体,难度不高。
如果有人帮忙,分工之下或许有希望尽快移除这颗卡路巨石。否则以小编一人之
力,恐怕还要不知道多少年才能做完,前面所述延宕中的工作也会跟着无限延期
……。
至於花时间帮忙笈成有什麽好处,就请自个儿衡量罗。以下聊备一格:
1. 最直接的,未来检索或阅读笈成文本时,可以看到正确内容,而不是错字或
意味不明的叉烧包。(其他网路上能查到的电子文本几乎都是叉烧包;否则
早就被笈成收录了)
2. 你的贡献会永远保存:笈成所有资料和版本历史都是公开的,即使有一天笈
成停止营运,你还是可以把整个版本库复制回去,并从中找到你当初付出心
血校对的成果。
3. 处理过程中可以学习文献考证技能及档案比对、版本控制等工具,可能对未
来做文献研究有所帮助。
4. 基於编辑需要,或有机会得到笈成秘本、金手指、或其他神秘小礼物。
5. 基於互利原则,提供较多协助者,未来需要技术支援时(例如想要笈成增加
什麽功能,或需要用某些方法探勘笈成资料等等),我们会考虑优先提供协
助。
6. 做功德,积阴德,消业障(?)
--
其他可同时进行的其他计画会统一列在版本库议题列表,欢迎高人协助:
https://gitlab.com/jicheng/jc.data/-/issues
更多可以支持笈成的方法:
https://jicheng.tw/tcm/help/contribute.html
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.164.25.89 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/ChineseMed/M.1629116451.A.DBE.html
※ 编辑: danny0838 (1.164.25.89 台湾), 08/16/2021 20:31:29
1F:推 johnkry: 这搞的出来厉害...冏 08/16 23:14
2F:推 orthopt: 推...有时候这网站有古文可查真的很开心 08/17 14:23
3F:推 guemao: 推推推 08/17 23:59
4F:推 ntultamwc: 推 08/22 18:28
5F:推 PACAT: 推一个 08/27 01:40