作者Leland (报废机器人的传说)
看板Wrong_spell
标题[转录] 等待新汉码
时间Wed Oct 22 05:36:50 2008
转录自
http://docs.google.com/View?docid=dgnqz2jv_2dg76zr
等待新汉码
───汉字的数位化与中华文化的冲击
本文参考易符智慧科技所发表「中文资讯的
表达与易符无限字库」一篇,针对有关当今中文数位化之困局加以剀切剖析阐
述,文中许多观念乃源於中央研究院谢清俊教授之启发及叶健欣先生之导入,
特此铭谢。
本文以CC「姓名标示 2.5 台湾」发布
2006.9月陈昌江(感谢[1]张正一 等人协助校稿)
2007/5/9进一步修定:「用处理英文字的方式来处理中文字」更精确
化,应是「用处理英文字母的方式来处理中文字」
2007/3/19更正:『康熙字典』的基本部首应是214个,感谢黄大
一先生赐教(by正一)
动态组字相关资讯请拜访标准入口网站:[2]
http://zhongwen.tw/
摘要说明
一百多年来,中华民族在优势的外来文明冲击下,人民普遍丧失民族自信心
,不仅使得中国传统文化成了代罪羔羊,也使其更新的脚步停滞不前,无法受
到应有的重视与发展。最无奈的是,许多中华文化的宝贵资产,就在这样的时
代洪流中无声无息流失掉矣!
今天,两岸三地的大汉民族普遍都富足了,然而这种文化上的自卑,仍然普遍
存在着。在这样的历史洪流中,中华文化的更新与发展,当是这时代的历史使
命。其中,在整个中华文化的数位化转移中,汉字是中华文化的根本材料,其
影响是无所不在的,因而汉字的数位化,便是中华文化进化到数位时代的基础
工程。
在汉字数位化工程中最基本的就是汉字表达的基础结构。汉字数位架构的良窳
,深深地影响到中文资料储存成本、交换成本以及检索效能等,这个基础架构
,也关系着中华文化的传承与创新的能力,简而言之,攸关着整体数位中文资
讯处理的基础成本,也牵动着中文资讯的表达能力,也就是影响着汉字数位内
容的终极价值!
因此,这是一个重要而严肃的议题。
汉字资讯的五大要素
自古汉字就由「形、音、义」三个要素所构成,在资讯时代则必需加上「码」
和「序」二个要素。
「码」是电脑认定一个汉字的一个相对数字,通称为「字码」,所有电脑的资
料处理、资料交换都是针对「字码」进行认定和处理。
「序」系人类认知的排列方式。由於需要查找排序和比对等资料处理,一个自
然、共同认定的「字序」是一个文字系统重要而有价值的本质。 以查字典为
例,查英文字典时的简单方便而且准确,但查汉字字典就很不确定,这种问题
相信你一定能感受到,这是因为汉字还没有确定的字序的原故。
当前的汉字资讯表达的情况
形
字形就是人的眼睛所看到的。汉字字形的产生主要有点阵字和向量字两种。
点阵字形
点阵字对电脑来说其实是一种「字图」,就是在有笔画的地方描上细细的点。
点阵字的好处就是处理简单,缺点就是每一种尺寸都需要一套点阵资料,因为
一个点阵字就是一张点阵图片,且资料量与字形的大小成等比级数上升,字形
变大,资料量快速变大。这使得记忆体受限的小型数位装置所能提供的字形就
非常有限。
另一方面,要从这点阵资料图中取得有关这个字形的特徵资讯不多,因此,除
了进行高级的影像处理外,点阵资料的进阶处理或应用都不容易。
向量字形
向量字则是只记录各笔画内容的位置、长度宽度等字形资料,而在最後展现时
,才由电脑转换成点阵图来呈现。
向量字的发展主要为了解决点阵字资料量庞大的问题。但向量字形在呈现成点
阵时所需要的转换非常复杂,目前在机能不够强大的数位设备上仍不易实现。
音
由於汉字是一种形意文字,与音韵并无紧密的连结,加上古今汉语音韵之变迁
,形和音的对映是多对多的(多字同音,一字多音),其中字音可以简单地用
建表的方式解决。但如果要处理破音和语境问题,就涉及自然语言处理的范畴
,这方面学术单位已有相当多的有关研究。
义
形是义的视觉介面,音是义的听觉介面,有形无音,则称为「符号」,有音无
形,叫作「语言」,只有同时具备形、音两要素,才构成文字。
码
中文在资讯时代的第一个挑战是「编码」,也就是为每一个汉字编上一个数字
码。一个汉字未被编上一个对应的字码,就无法进行数位化处理,这也等於在
数位世界中「不存在」,也就是在数位世界「没有这个意思、没有这个人、没
有这件事、没有这个地方」。
码可分为「内码」和「输入码」两种,内码系中文字的数位代码,是方便电
脑处理的代码,没有考虑人的记忆或逻辑,因此才衍生了各种方便人的记忆或
辨识的输入法来产生相应的内码,输入码主要是针对输入汉字的人机介面,也
是作为人和机器沟通时的中介表达转换之用。
内码
内码的主要考量是软体的相容性、储存的效率和程式处理的简易性,因为在这
数位世界中,汉字字码是无所不在的,因此汉字的处理成本,这也就成了无所
不在的成本负担。
在早期电脑的文字模式(text mode)时代,为了迁就
ASCII码表,故有 Big5、GB、 JIS
等双字元的设计(一个字元就是一个BYTE,一个BYTE=8位元,双字
元=16位元;位元(bit),就是一个表达0与1的单位)。然而,电脑
进入图形模式的现在,字形在萤幕上的显示,已不再限定为固定宽度,加上当
今电脑的容量与速度,因此对於实际储存的字元数以及运算的复杂度已经不再
是取舍的前提了,於是中文内码的设计上,就有了很大的自由度。
目前电脑平台上涵盖面最广、最广用的内码
Unicode(统一码),已经成为当今 Windows、Mac及
Unix-like等主流平台的内码,因此Unicode 事实上已取代
ASCII
、Big5、GBK码,成为各作业系统的预设编码,并渐渐地成为国际间交
换资料时主要的交换码。
输入码
输入码可分为「拆形」和「拼音」两大类。「电脑中文化」的历程就是利用英
文电脑的键盘,编上部首和注音的映对键位。然而中文部首的数目远远超过了
键盘的键数(『康熙字典』的基本部首有214个),因此就必须在有限的键
盘上,用一个键对应多个部首的方式来输入。
由於这些分解动作,都加入了人为指定与巧思,并非来自文字的本质,因此需
要很多的学习和记忆,於是成了汉字使用者的一个额外的负担,这样对汉字使
用者无疑是建立了一个很大的门槛,现在社会上还有很多人「不会电脑」,其
实大部分都是「不会输入」的意思。这种现象不仅在大人的世界发生,在儿童
方面,也因为这个缘故,也在无形中电脑的启蒙时间也被延後了,这使得使用
华文的小孩在电脑应用与普及上与英语世界相较,也是有输在起跑点的无奈。
一字一码的时代困境
我们必须深刻地觉悟到,承载中文资讯的中文码,其基础架构对「数位中华」
的影响是既深且远的,若不深入观察分析,大家也习以为常,不容易看出它无
所不在的影响以及问题的严肃性。就以康熙字典为例,一万多字的BIG5码
是做不出有四万多字的康熙字典的,BIG5不行,两万多字的GBK也不行
,如果字码的根基没解决,又要如何把中华文化数位化?
为了让你发现这些在我们数位生活存在的诸多无奈事实,且让我们来分析观察
英文字(word)的结构。
首先让我们来看字序的问题。我们都知道,英文码的基本定义是0~127的
ASCII码,其中有『A~Z』、『a ~z』
的52个『英文字母』(character),其余为字符码及控制码。由
ASCII码的英文字母所构成有意义语素是
word,我们就以『英文字』称之。各位请注意到,英文字(word)循
着ABC的排序,就已经有了一个自然的、本质的排序。
在此一基石之上,举凡字典的安排、资料库的制作、物料的列举、名单的列举
、二元搜寻(binary
search)的方法、键盘的设计、作业系统表单的设计、快捷键(HOT
KEY)的安排等,都离不开这ASCII
编码的基本安排,其影响是无所不在的,可是中文字却没有这个序,只要稍有
中文处理经验的人,便可以知道,资料栏位没有确定的排序,电话簿中的人名
没有确定的排序!
为了这样的缘故,中文资料总是要另外自行设代码或栏位编号等,以方便处理
,这相对於英文,中文的资料处理,便增加了一层无所不在的额外成本。
发现潜藏在当今「一字一码」架构中的意义
现在,再让我们来看看当今中文字一字一码的问题。
为了让读者发现这些潜藏在文字架构中影响力,让我们来考虑下面的文字假设
情况:
如果,我们把
ASCII码拿掉,改用一个英文字(word)也像中文一样一字一码,那
麽将会是个怎样的景象?
我们先假设下列英文字都有了内码:
PERSONAL 内码是 $FF3A
CENTRAL 内码是 $BB01
PROCESSING 内码是 $FF3B
UNIT 内码是 $FF3C
MACHINE 内码是 $CC01
COMPUTING 内码是 $DD02
那麽COMPUTING MACHINE(内码为$DD02
$CC01)就没有机会因为它的重要性日增而改称
COMPUTER了。请注意:因为没有「COMPUTER」这个内码,如
果要,就要某个标准单位提报,然後经过审核程序,在下一版中公布新字码!
好!假设真有那麽一天,「标准机构」「收录」了COMPUTER这个新字
:
COMPUTER 扩充新内码是$AA01
一样的问题又来了,在有了「COMPUTER」这个新字码之後,PERS
ONAL COMPUTER(内码$FF3A
$AA01)仍不能马上改称PC,因为「标准单位」还还没有定下「PC」
这个字码!
同样地,中央处理单元 CENTRAL PROCESSOING
UNIT(内码$BB01 $FF3B $FF3C)更不会简称
CPU了,因为如果英文字也是像中文一字一码的话,也就没有机会创造出「
CPU」这个新字了!
当然这是个假设性的探索,英文文字事实上可以自然地随着时代的需要「进化
」,这种进化机制可是关乎一个文化的根本活力!
然而,这却也正是这些年来,一字一码的中文所经历的过程。
诸位一定可以体会到,所谓的一字一码,就是拿处理「英文字母」
(alphabet)的方式来处理中文字,这是一个耗时费力而不切实际的过程!
然而,我们更需要严肃看待的是,这样的困局所引发的严重後果:
汉字停止演化!
只因为在一字一码的架构中,要增加一个新字,是一个令人无法承受的梦魇!
读者是否可以看出来,当一字定成一码的时候,由於是人为指定,於是,一个
新字必须经过标准机构的公布才有可能流通和使用,然而即便一个新字已经公
布了,无数已经在运行的系统又如何去更新呢?所以,这是成本非常高、过程
复杂且时间漫长的过程!当然,由於太不切实际,其真正的结果一个就是「停
止造新字!」,另一个就是已经做好的大型资料库,还是用旧的码,因为更新
一个大系统,通常是一个重大的工程。这就是这几十年汉字的僵化的景况。
以维基百科中的[3]周期表
为例,其中的105~108元素是「有码没字」(未来可能会有字)和而第
112~118元素则没有码,先前的元素在电脑出现之前,还可以造字,所
以有字了,只好用英文表达或改用「元素-112」代表之。
为什麽?
因为112~118已经进入一字一码的时期,停止造字了!这也恰好说明了
中文字因为一字一码使得,汉字停止演化,也使得汉字渐渐无法表达新生的事
物。
於是,当今的一字一码架构也就成了汉文字生机的死胡同!
然而,很无奈地,这却是当今汉字数位化所存在的真实困局!
沈重的一字一码
虽然现在这种人为的一字一码并不是完全地不可行,问题就在必须每隔一段时
间以人工审议的方式以追加新字码,而在字码尚未公布前,中文数位资料的转
换、交换、搜寻比对都是不可能的,更别说是无法输入和无法印出这样的基本
动作了。以佛教经典来举例,佛教典籍有庞大数量古字未被编码,早期佛教界
做了许多典籍的输入,虽然耗费庞大的人力物力来造字,至今却仍是难以流通
,即使今天要全面的更新这些既有的庞大系统又谈何容易!
既使是在新标准公布之後,由於许多已存在多年的系统无法随着更新,所以要
能全面地交换、搜寻和比对,仍然是一条漫漫长路,更别提UNICODE到
2006
年已经到了七万多个汉字,表面上好像是解决了缺字的问题,但却也是一个庞
大的系统负担(2006年Windows
XP大部分的字型也只放了两万字)。因此,这些汉字只是「存在」但并非常
用,这不仅是小型资讯设备无法承受记忆体的消耗(相较於英文文字系统是非
常的庞大),就连我们在输入时,也无法忍受输入时每次从上百个字中挑选你
要的字。
请想一想,如果一个庞大的资料库,却无法准确的搜寻、不能排序、难以粹取
转换、难以流通,请问这样的「数位内容」的价值,是不是大打折扣,甚至在
严肃的应用上如学术、户政、刑事或医疗等应用上,就必须另渐渐系统来保证
期准确性或者乾脆舍弃,只能引用外文资料库。
由於当今的BIG5、GBK、UNICODE等几个主要中文码都一样是这
种一字一码的架构,所以都面临相同的困境。
因此,我要说「人为指定的一字一码是汉字数位化进程中的历史错误!」。
中文在一字一码的架构中固化了
我们中文汉字在每字指定一码的架构下,「以笔书写,自由创造」的汉字本有
的生命力不见了,就因为这种架构让汉字在数位世界中「固化」了!
这样的固化现象是无所不在的,其效应也是无声无息地不易被察觉的。为了更
具体的剖析说明这种失去活力的「固化」过程,这里再举几个例子来加以说明
。
百年来,对人类非常重要的日常用具──电灯,按仓颉以来中文形
声造字的法则,最终应是进化为「电登」这个「字」(注意「电」「登」两个
部首写并成一个汉字,因为「现在电脑还没这个字码」,所以这里无法显示!
)(这个新字应是念做「登」)。(2007.8.1
阿江注Firefox 「新同文堂」模组很快就要提供
动态组字的PLUGIN了)
想一想,当电灯刚出现时,中国仍处於油灯的时代,所以借用火旁的油「灯」
再加上一个电字来修饰当时的灯字。另外,像网际网路(互联网)更已经是这
数位时代生活密不可分的一部分,按仓颉造字进化的原理,它的新字应该是「
互罔」,这便是一个文字活力成长的机制。
晚近几十年,我小时候的油灯现在已几乎看不到了,「电灯」普及了,我们已
经不再需要说「开电灯」「关电灯」来与油灯分别,而直接说「开灯」「关灯
」,这是语言本身随着生活时代不断演进的例子。你只要仔细观察,这种例子
俯拾皆是。
其实,这个新时代新增的字很多,像MODEM英文的这个字便是从「MOD
ulation and
DEModulation」复合而成,然而,由於目前中文码是「一字一码
」,因此这个「调变解调机」(或用「数据机」简化)就被「困住」了而不能
随需要进化,只因为中文没有字码也「不容易」另定字码!
这都是因为现在使用的是一字一码的定码机制,我们所能做的,就只是用现有
的字码来组新词,就是无法造新字!尽管时代不断地演化,重要用品和概念不
断地出现,我们却无法进一步跟着简化。
於是,英文字随着时代在进化中,中文字却僵在原处!
中文在一字一码的架构中僵住了
这在这个案例中,中文僵住了!OK,也许会有人说,「中文僵住了又怎样?
日子还不是一样在过?」
当然,在BIG5时,用电脑、打手机简讯也都可以啊!没错,但是,其结果
就是下面的光景在不知不觉中大量地普遍地在进行着:
以「中央处理器」和「CPU」为例,许多人在生活中、文章中会不知不觉地
会直接用「CPU」而放弃写冗长的「中央处理器」,真的,实在太累了,可
是一用CPU,就有许多小孩、老人和那些非资讯背景的人就更搞不懂了!(
像ADSL、MODEM这种字也都是一样的情形)。
而这样的情况不只是发生在资讯界,也同样发生在学术、工程、科学、医疗、
农业、生物、经济、管理。。。等等所有进化中的领域。这样的情况时间越久
,中文所不能表达(或因不实用而被弃置不用)的字词就会累积得更多,长久
下去,中文就这样无声无息地渐渐地与时代脱节,也就渐渐失去一个语言的实
用性与优越性!
各位要觉悟到,这种汉字的困局,是汉字的使用者必须自己关心解决的问题,
外国人不会替你解决,UNICODE不断地编码,只是在解决跨国市场的全
球化的需求而已,至於这架构的好坏,对汉字文化的未来的冲击,外人怎麽可
能替我们认真的面对!
字码在无声无息无所不再地影响着我们!
字码的影响力是无声无息的,无所不在的,我们都不知不觉中受到这种基本机
制所制约而不自知。
文字是如何地在无声无息中影响着我们?为了让各位更清楚地看见中文码对中
文活力的影响,让我们再举下面的这些例子来观察思考:
CPU
是电脑的心脏,在这个数位时代是如此的重要,所以常常被使用到。前面提到
,大家宁可写「CPU」而不用「中央处理器」,因为写起来太冗长了。然而
,换个角度,也是因为我们无法用「??心」(或「电心」注意,这是一个汉字
,因为BIG5、GB、UNICODE里还没有「指定」这个字,因为没有
这个字码,所以也无法用电脑显示)这是个极简洁而恰当的新字。
注:当有一天,「??心」这个字能够自然地在一般系统中自然呈现时,也正是
组字码普遍使用之时。让我们共同等待这一天的到来吧!(阿江,於2007
.4.20注)
同样的,就像英文可以把Personal- Computer
简化成「PC」,但中国人却得永远写成「个人电脑」,难怪会有很多人直接
写PC了,另外像「光碟」这个数位时代的关键储存装置,因为没有「光??」
这个字,所以只能用「光碟」,但「光??」(这是一个字)就明显比「光」「
碟」两个字来的有效率。(至於「电脑」应该造成怎样的新「字」你一定马上
可以想得到如何写了!停下来想一想,其实,字的演化是这麽自然而且简单。
)
再如英文 BIT在电脑方面我们叫做『位元』或『比特』 BYTE
则译做『位元组』或『字节』,但其实 BIT
的零一单位不就是中国既有的二进位系统易经八卦中的「爻」(音『姚』或念
成英译的『必』也很好),而8个BIT叫『八爻』(一样,要并写成一个汉
字,念『拜』,再也自然不过了),依此原则可以进一步造出 16BIT
WORD,32 BIT
WORD的字,这样的自然演化其实只是还给汉字本有的活力而已。
新中文码的时代需求
我们需要一个能承载数位中文汉字的字码架构。
前面的分析,应该能让你感受到,数位汉字码若要能承载中华文化中的活力,
就必须具有新字词的演化架构,因为这个质素代表着数位汉字在中华文化中能
继续具有重组与创新能力,而这些本来就是传统汉字既有的本质机能,并且也
是一个文化要能继续生存发展所需具备的内涵要素。
这种独特的构字能力,进一步来说,主要就是形声造字法,这是汉字特质,也
是汉字的活力和魅力所在。如果无法造新字,其结果就是迫使文辞变得冗长而
生硬,因而将渐渐失去它的简洁与优雅,除了减损了文字效率与实用价值,也
会在不知不觉被逐渐的舍弃替换,最後,终将面临被更简洁有效的文字系统所
取代的命运。
汉字是把概念分类和发音浓缩到小小的方块内,这种二维的表达,比一维的英
文字串,承载了更丰富而精致的资讯,实在是有效而理想的文字表达方式。我
们只有找出汉字在数位世界中进化的活路,才能够让汉字继续保持她的实用与
优雅。
相较於英文,汉字的优点,其实俯拾皆是,这方面的探讨很多,无庸赘述。在
这里仅举一个简单例来说:「鱐、鯦、鱞、魨、鳇、鱨、鱴、魦、鰇、鰗」,
虽然你可能都没见过,不过大概知道不是鱼的名称、就是跟鱼有关系的事物,
甚至已经可以想像,大概是属哪一型的鱼。有了鱼的部首,「有边读边,没边
读中间」,就算读音不甚确定,也是八九不离十。反观英文就没这个好处,T
una , crucian , salmon , bass,
abalone , trout ,
scombroid,虽然都念得出来,但没有事先学过,根本看不出任何关
连,恐怕只有鱼类学者才能弄明白真正的义涵。
结语
自从英文电脑发展以来的这几十年来,我们进行了一场「电脑中文化」的努力
。然而,在电脑普遍使用的今天,事实上我们已经渐渐地从硬体与技术的限制
中解放出来,整个资讯产业正从「硬体」主导的产业转移到由「内容」所主导
的产业。因此「电脑中文化」也进入了「中文电脑化」的新阶段,我们要从中
文的真正本质与需求来运用电脑,而不再迁就於电脑硬体与技术。
当今的字码,不管是BIG5、GBK、或Unicode都是人为指定的一
字一码架构,而使得数位化的汉字失去既有的生命力,不仅使得汉字变成一种
僵化的文字,也使得汉字渐渐地降低了他的实用性,而由这些汉字所建构的数
位内容的价值,也受到很大得限制。这样的「历史错误」是我们要严肃地重新
审视的。
本文阐明了一字一码的数码架构在生活中的用字事实与其未来发展的困境,其
目的在於让我们发现,中文码对中华文化的传承与更新中所发生的关键作用。
中文码对一个数位中华文化的发展,其影响可说是既深且远,并且是无所不在
的。在这中华文化迈入数位新世纪当中,中文字码的架构正从根从本地影响了
我中华文化的未来,希望我们能及早发现这个议题的严肃意义,期能引发各界
深思熟虑,寻求解决之道。
作者注:本篇文章希望让大众发现潜藏在我们生活中的字码是如何地影响着我
们的中华文化的现在与未来。如果能获得你的认同,欢迎转载与拷贝,让我们
一起来等待新汉码的未来。──2006.9
─────── 全文完 ───────
本文章依据创用CC「姓名标示 2.5
台湾」授权条款出版,授权条款之详细内容,请参考:
http://creativecommons.org/licenses/by/2.5/tw/
References
1.
http://magicdesign.blogspot.com/
2.
http://zhongwen.tw/
3.
http://zh.wikipedia.org/wiki/%E5%85%83%E7%B4%A0%E5%91%A8%E6%9C%9F%E8%A1%A8
--
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS/CM/IT d-(+) s-:- a- C+++(++) UB++++ P-- L- E- W++ N+ o?>++ K->
w--(+) O-@ M+@ V- PS+ PE Y+ PGP++ t+ 5?>+ X+ R+@ tv+ b+ DI>+ D G
e++>++++ h+@ !r !y
------END GEEK CODE BLOCK------
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.30.50
1F:推 gsklee:这个人文中提到的「申登」、「申心」 10/22 06:36
2F:→ gsklee:有没有必要去新造这些字然後硬推 我倒是不置可否 10/22 06:37
3F:→ Leland:对,那个字左边是简体的电,Big5 没有。 10/22 06:38
4F:→ gsklee:有时候这种动态组字的技术一被提出来会被质疑就是因为这样 10/22 06:38
5F:→ gsklee:我觉得应该要强调这种技术对於既有资讯保存、搜寻的助益 10/22 06:40
6F:→ gsklee:而非着重在「看!用了这个技术不管多怪的字都能组出来!」 10/22 06:41
7F:→ gsklee:这种层面上 10/22 06:41
8F:→ Leland:「新造这些字出来然後硬推」这样好像反了吧 xd 10/22 06:45
9F:→ Leland:作者的本意应该是说,如果不是一字一码的话, 10/22 06:46
10F:→ Leland:在正常的状况下,这些字有可能会自然出现 10/22 06:47
11F:→ Leland:可是因为一字一码的缘故,导致中文失去了这种自然演化 10/22 06:47
12F:→ Leland:的可能性 10/22 06:47