作者EShensh (あ想学输入法吗?)
看板IME
标题[心得] 论词库之於输入法
时间Tue Oct 14 01:20:20 2003
论词库之於输入法
主讲人:萧易玄
■ 什麽是词库
说到「词库」这个东西啊,输入法创造者对它有着不同的评价。有的输入法是重视字
的输入,对词库深恶痛绝,说「词库」是「不正规」的东西。也有输入法是把词库当成输
入的辅助。不过,对注音输入法而言,「词库」可以说是不可或缺的吧,因为注音输入法
需要依靠词库来提高它的效率。
什麽是词库呢?我以注音举个例子说明词库的原理与运作方式。「ㄆㄧㄥˊ」这个发
音有很多字,而「ㄍㄨㄛˇ」这个发音也是,但是「ㄆㄧㄥˊ」「ㄍㄨㄛˇ」连在一起的
呢?只有「苹果」这个组合吧?所以输入法直接送出「苹果」给你,而这也是你要的。是
不是就提高了效率?
■ 词库的使用方式
虽然不同的输入法对词库有不同的运用方式。但是不约而同的,都是希望利用词库方
便使用者的输入。也因此,词库的输入方式,相对的也关系到使用者的输入效率。
1. 以智慧型注音来说,就是以上面举的「苹果」那个例子的运作方式。好处是几乎不
用选字,缺点是电脑经常帮倒忙选错,就会产生像是「问世奸情为何物?」这样的有趣句
子。
2. 以前有出现过一种「散弹注音」,利用取头尾的方式输入,「苹果」打「ㄆㄥㄍㄛ
」就好了。按键上少很多,不过在实际输入的时候,使用者要跳过「ㄧ」「ㄨ」的取码,
有些人不太习惯。
3. 一般的拆字型输入法,有一种叫「无为而治」的方式。就是开放让使用者自己去编
。例如使用者定义:「OPEC」就是「石油输出国家组织」,那打「OPEC」就会出现「石油
输出国家组织」。好处是自由定义,缺点就在定太多的话,容易忘记。
4. 跟这种方式很像的,有一种叫做「天马行空」。差别只在於是输入法公司定的,让
使用者比较好记、比较有通用性。也不能说好或是不好,总之见仁见智,我们不去评论。
5. 一般输入法比较会去使用的,是用自己输入法的拆码方式去编词库。对,智慧注音
就是,但是我们这边探讨一下拆字型的输入法。比如大易输入法用的方法是「头尾头尾」
(二字词)跟「前三後一」,前三字的头码跟最後一个字的尾码。轻松输入法用的是「头尾
头尾(二字词)跟「最多前四头」。那个比较容易在输入时输入,也是见仁见智,自己打打
看就知道了。
■ 词库在输入法中的地位
一个输入法依据性质的不同,对词库的依赖程度也不同。
有的输入法对字的输入已经非常严谨,那它可能就把词库当成使用者的辅助,甚至有
的是单字版免费,词库版收钱的输入法。
当然也有输入法把词库当成送给使用者,让他们方便设计一些常输入字的功能。这样
的输入法是不会内建词库的。
而对一些门槛低、选字率高的输入法而言,词库可以说是救星,藉以提升效率。这对
使用者当然是件好事,而且可以弥补单字选字率太高的缺点。这个部份的话,以现在的【
轻松输入法】,可以说达到最大的利用率。除了利用词库的输入外,还加了利用词库输入
单字的「五码定字」特别输入方式。很充分的利用了词库的优点。
■ 词库的大小与品质
一般输入法(当然是指有内建词库的)词库的大小通常是一万五到十几万(条)的差别。
例如以前DOS时代倚天中文的忘形输入法大约是一两万词,微软新注音大约三万词,旧
轻松输入法有十万词,现在的轻松输入法2004因为包含了五码定字功能,更是多达三十五
万词。
而词库的品质也关系到使用者实际上机时的输入效率。愈多的词库,固然在理论上愈
能让使用者输入更方便,但是收录太多冷门的词汇,反而会让输入效率降低,因为太冷门
的涹A影响到常用词,在输入时必须选字。
■ 词库的先天限制
词库的缺点,就在於他自身。因为词库的兴起,是来自「词」这个概念。而现在词库
中词的概念,大多数是指白话文中、口语中的「词」。也因为是白话文、口语上的使用,
所以「词」当然就不可能包含「不常用字」。意思就是一些古字或是无意义的字,通常是
不会有词汇的,例如「髟」、「嵢」…等等。
这些字,终究还是得乖乖的用单字打法去打,所以如果是拆单字会很困难或是太没效
率的输入法,遇到这些字时,就会拖累效率。
■ 词库的展望
词库虽然有它的限制,不过随着中文的发展,在一般日常应用上会愈来愈实用。大陆
中科院的研究成果表示:当前的汉字输入技术,基本上都是以单字输入为主,辅以或强或弱
的词组输入方式。
现在原本倚重词库的输入法,已经开始逐渐走向「以词为主,单字为辅」的趋势,这
样的发展,可以说是势在必行。因为中文不可能再回到古代那样的文言文,加上现代中国
语文,是以词为主要结构的特性,以词为单位的输入,可以说是中文的输入的一个灯塔、
可以前进的目标,是外语无法做到的。
我的演讲到此结束,要扔蕃茄、鸡蛋的,请等我离开後再自由动作,谢谢…
- -
▽
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 218.166.89.185