作者youtien (大叮当)
看板Chinese
标题给我们一个够好的简繁转换程式吧!
时间Tue Jan 20 03:34:36 2009
给我们一个够好的简繁转换程式吧!
自网路发达,两岸资讯开始大量交流以来,已经十几年了。奇怪的是,我们
一直缺乏一个够好的简繁转换程式,以致简体字转换成繁体字时错误百出;更奇
怪的是,尽管大家经常埋怨这种情况,我十几年来也没见到一两个较好的转换程
式,甚至没看到几篇谈「简繁转换程式应该怎麽作」、「我想要简繁转换程式有
什麽功能」之类有具体改善建议的文章。
是我孤陋寡闻吗?但我可是从小看着电脑、网路成长,读过许多关於中文电
脑缘起的着作,还旁听过两次谈汉字、文史与电脑、资料库的学术研讨会,又是
BBS的重度使用者,现在还在大陆读历史研究所的。再说,如果真有较好的简
繁转换程式与相关文章,它一定可以被广泛流传的。
无论如何,总之我没看到过,而我不会写程式,所以就在这里写一篇文章,
谈谈我对解决简繁转换问题的构想吧。这篇文章其实五、六年前就该写了。
简繁转换的主要问题,也几乎可以说是唯一的问题,就是搞不定「一对多」
的函数关系。五十年代中共搞汉字简化,「只」「只」都简成了「只」,「干」
「乾」「干」都简成「干」(乾坤的乾倒是没变),「丑」「丑」都成了丑,於
是笨电脑再一转回大五码的繁体中文,就出了一堆「只有」「豆干」「周杰伦」
。
要应付这个问题,其实不难,很多人都能想到建立资料库,写程式让电脑判
断如何转码。当然这不能完全解决,例如「小丑」,是要转成「小丑」还是「小
丑」?後者未必错,《西游记》里就有「么魔小丑」之词,我们随便造句也可以
造个「小丑八怪」,或者一个名叫「赵小丑」什麽的人;电脑资料库再怎麽丰富
,程式再怎麽聪明,对最後一种情况,还是无法正确判断,因为你叫一个人来,
他也得去问作者是哪个字,搞不好作者自己也没想过。但也有一些比较简单的情
况,如干支纪年「乙丑」「丁丑」「己丑」「辛丑」「癸丑」,都不容易搞混(
当然我们总能用白痴造句法编他几个例外);而我还是每每在北京──包括本校
──看到一堆想要美观而印成繁体字的「乙丑年新春晚会」大型海报。我每次都
要想:你人手动把它改一下,很难吗?写程式的设定一下把「乙丑」之类先全部
转成本字不多出「丑」,把例外留给人去校对,很难吗?很难吗?很难吗?很难
吗?很难吗?
我转简体编码文章,短一点的手工校对,长一点的,先下一个「取代」指令
,把「只」转回「只」,多半不会错。很奇怪,明明「只」就比较常用,许多转
换程式还是都转成「只」;最近我用Word 2007才发现这点得到了改善。然而这也
只是极其有限的一点改善。
Microsoft Word还有个「常用词汇转换」功能很会画蛇添足:碰到简体的「
程序」,转到繁体都成「程式」,反之亦然。两岸有些惯用语是不同,program我
们翻程式他们翻程序,但这两个词又不是只对应电脑的program一义,「作业程序
」就很普通,「京剧表演程式」的「程式」也是很古雅的文言,这些东西你乱动
就乱套了,更别说我们还能创造一些叫「程序一」「程式王」什麽的人名。「菜
单」与「目录」也一样容易闹笑话。
平心而论,程式工作者有去在这常用词汇转换上下工夫,显示他们有认识到
这样的问题,应该肯定;我们也确实存在这样的需求,例如译名:斯大林或史达
林或史大林、史太林(几十年前的书上常见),布什或布希或布殊(港译),披
头四(台)或披头士(港)或甲壳虫(陆)。但是现在的电脑不可能正确判断哪
里该转哪里该不转,例如前面几句,本意就是列举三地与今昔的不同译名,你乱
转就把原载的信息转掉了。何况,用哪种译名能够反映作者的背景,我们如果一
概转成本地现今的标准名称,是可能让读者迷惑的。
还有一些人脑也难解决的问题:如果一个大陆人叫「肖云杰」,那他是肖云
杰还是「萧云杰」还是其余六种组合?在汉字简化运动前生长的名人,如中共元
老陈云、萧劲光,我们好复原;如果是1958年後出生的,问他父母或本人,搞不
好也没想过。再者,「萧」是一个曾被简掉,被抗议後又改成「萧」的几经波折
的姓,但也有许多人没改回来继续姓肖,那我们怎麽转?虽有「名从主人」这一
原则,但我们又未必清楚肖萧云云杰杰怎麽想,也就只有从简了。
还有,我一位学姊校稿碰到地名「于都」,「于」还是「於」查了半天,结
果其实是「雩都」──不过那地方现在还真是叫于都,「因依雩山而得名这回事
大概也没人会提了吧。」这样,到底怎麽转才对,电脑不可能知道;我能想到最
好的方法,就是看该文指涉的是古代还是现代判定,後面再加一条台湾编者注。
但我们不能期望人人都这麽用功吧。那该怎麽办?把这类古今异名编个资料库让
转换程式索引吗?那会是非常浩大的工程。
也别说只有简转繁麻烦,繁转简也有一些问题的,如,BBS上可以用的G
B码字库没有「屌」这个字,害我想讲屌面人只能用拼音。这是题外话。
那麽,在现有的技术底下,怎样才可以做出一个好一点的简繁转换模组?
我的构想很简单,就是人工选字──用程式来辅助人工选字。
如,点一下「简转繁手工式」,程式就从文件开头转起,每转到有两种以上
可能的,就跳个视窗出来让人按键选:「1 干 2 乾 3 干 4 其他」,如果选4就
中断,让人手动改完再按键继续。为什麽要多一个「其他」?因为也可能是原文
误植,把「千」打成「干」之类的情况。这样一直到完,是最简单、最笨也最不
易出错的办法。还有,可设Enter或空白键等於1,Esc键等於中断,这点看似不重
要的小设定是能让人用得舒服、习惯的。
当然我们可以自动一点,让电脑先按常例转一遍,然後将所有可能弄错的字
套上亮色,人眼逐个看过,看到不对的如「不知所云」,把滑鼠游标移到「云」
上点一下,「云」就变成「云」;还不对的话就手动改了。这也很简单吧,我们
且先叫它「审阅式」。
看起来,审阅式比手工式方便得多,那手工式能有什麽特别的优点呢?曰:
指引、教育。并不是只有台港澳人士会用到简转繁,大陆人、海外华人、外国人
、外星人也可能要用的,使用者未必都能正确判断哪里该用哪个字、为什麽该那
样用。有一种日文输入法,输入汉字时,选字视窗旁会开一个简明辞典,说明该
字字义,供汉字程度不够的使用者参考;我们亦可效法,在要选「后」「後」「
历」「历」的时候,都开个视窗说明音义及其差异,这样不但便利选择,做得好
还能传扬传统汉字里的文化精蕴。如,「历」是在晒谷场上晒稻子,稻禾整齐地
排列开来,农夫一年的劳作、每株稻子的一生也就那样排列开来;下面一个「止
」字象人站立,这就有了主观的象徵意义,如历史、经历、历历在目;换成「日
」字就是象徵客观的时间,如历法、日历。如果你对汉字有这一层的体会,你对
世界的感知能力都会大大增加,阅读写作更不在话下;而这一切如诗如画、浓缩
了古代农业社会图景的意象,简化字「历」里面都没了。但如果一个简繁转换程
式的附属字典里能把这些知识加进来,我们就可以在日用之中补课不辍了。那将
是我们文化的一大幸事。
要聪明一点,就让电脑依据一个词库来断字,这个词库要能手动编修,还要
有对「混淆率」的统计和评价,如「乙丑」、「干部」、「周杰伦」都不太可能
搞错(除特例及白痴造句),我们就设为C级;「小丑」一般都作丑但也有少数
作「小丑」的,或如「下面」和「下面」、「体」和「体」、「斗」与「斗」,
前者居多後者也有的情况,我们设为B级;最难自动判断的如「天后」「天後」
、「里」「里」「里」,评为A级。在「手工式」作业下,使用者可以设定C级
、B级直接由电脑负责,不烦人工;在「审阅式」,则将A级字词套上最亮的颜
色,B级次亮,C级再次,这样就能让人一眼看到最容易出错的地方。
完了以後,再让程式统计本次作业的成果:「干」字转出来有几个干、几个
乾、几个干,其上下文又分别是那些字(这比较进阶),然後录入资料库,更新
混淆率的统计,调整评级。这资料库还要可以传到本程式的网站上,让一个统计
中心汇整全世界使用者的情况,再将更新、更可靠一些的词库开放下载。
精通中文、语言学与资料库者(呃,这三项都通的好像不多,我只知道中研
院和北京师范大学「汉字与中文信息处理」研究所有一些),必定还可想出比这
些更能提高正确率的方法;虽然永远会有程式罩不住的例外,但我们也总是可以
人工校正。
关键是,谁能先写一个哪怕最粗糙的胚子出来?我不奢求智慧型词库,只先
来个最简单的「手工式」或「审阅式」,可不可以?有没有?谁能写好这样一个
转换程式,必能嘉惠无数网民及专业工作者,清爽无数图文版面,百年流芳(百
世就先不论了),功德无量!
给我们一个够好的简繁转换程式吧!
附录:
《都不错歌》 作者:沙予
(原载《文传论丛:2004年第三届汉文史资料库研讨会论文集》,文信传文史研究院。亦
载《汉字文化》2006年2期)
澳洲华文报刊上同音字混用的现象,人们都已司空见惯,但称名家郁风为静风,余光中为
余光中,则堪称为与时俱进之创举。恰如用问号代替找不到的某些铅字之不乏创意。审订
和推行简体字的文字学专家,不会有错。用电脑把简体字一律还原为繁体字,以使海外华
人看得懂,这更没有错。现斗胆摘取澳洲报刊上常见的由简变繁,同音但不同义的字混用
的趣事,凑成打油诗《都不错歌》一首,以娱诸公。此诗平仄不调,对仗不工,当然也没
有错。
夏五郭公寻常见,
鲁鱼亥豕久相通。
岳飞追諡尊武穆,
奕[言宁]登极号咸丰。
韦陟岂辞刀削面,
刘帮能忍箭伤胸。
碑成无字武皇後,
卜获非熊姜太公。
苏武留胡十九载,
钟馗捉鬼两三笼。
万里徵东薛仁贵,
单骑救斗赵子龙。
遁居五湖歌范蠡,
逼上梁山泣林冲。
子曰诗云四旧也,
如今题字学干隆。
(原文有完整注解,网友可於
http://qkzz.net/magazine/1001-0661/2006/02/hzwh20060236.PDF
下载!)
--
时候到了。看着,
当我推开这大门,
重新震醒你们的时候,那光芒--
这光芒,便是一万丈!
http://www.youtien.idv.tw
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 123.193.33.107