作者EShensh (あ想學輸入法嗎?)
看板IME
標題[心得] 論詞庫之於輸入法
時間Tue Oct 14 01:20:20 2003
論詞庫之於輸入法
主講人:蕭易玄
■ 什麼是詞庫
說到「詞庫」這個東西啊,輸入法創造者對它有著不同的評價。有的輸入法是重視字
的輸入,對詞庫深惡痛絕,說「詞庫」是「不正規」的東西。也有輸入法是把詞庫當成輸
入的輔助。不過,對注音輸入法而言,「詞庫」可以說是不可或缺的吧,因為注音輸入法
需要依靠詞庫來提高它的效率。
什麼是詞庫呢?我以注音舉個例子說明詞庫的原理與運作方式。「ㄆㄧㄥˊ」這個發
音有很多字,而「ㄍㄨㄛˇ」這個發音也是,但是「ㄆㄧㄥˊ」「ㄍㄨㄛˇ」連在一起的
呢?只有「蘋果」這個組合吧?所以輸入法直接送出「蘋果」給你,而這也是你要的。是
不是就提高了效率?
■ 詞庫的使用方式
雖然不同的輸入法對詞庫有不同的運用方式。但是不約而同的,都是希望利用詞庫方
便使用者的輸入。也因此,詞庫的輸入方式,相對的也關係到使用者的輸入效率。
1. 以智慧型注音來說,就是以上面舉的「蘋果」那個例子的運作方式。好處是幾乎不
用選字,缺點是電腦經常幫倒忙選錯,就會產生像是「問世姦情為何物?」這樣的有趣句
子。
2. 以前有出現過一種「散彈注音」,利用取頭尾的方式輸入,「蘋果」打「ㄆㄥㄍㄛ
」就好了。按鍵上少很多,不過在實際輸入的時候,使用者要跳過「ㄧ」「ㄨ」的取碼,
有些人不太習慣。
3. 一般的拆字型輸入法,有一種叫「無為而治」的方式。就是開放讓使用者自己去編
。例如使用者定義:「OPEC」就是「石油輸出國家組織」,那打「OPEC」就會出現「石油
輸出國家組織」。好處是自由定義,缺點就在定太多的話,容易忘記。
4. 跟這種方式很像的,有一種叫做「天馬行空」。差別只在於是輸入法公司定的,讓
使用者比較好記、比較有通用性。也不能說好或是不好,總之見仁見智,我們不去評論。
5. 一般輸入法比較會去使用的,是用自己輸入法的拆碼方式去編詞庫。對,智慧注音
就是,但是我們這邊探討一下拆字型的輸入法。比如大易輸入法用的方法是「頭尾頭尾」
(二字詞)跟「前三後一」,前三字的頭碼跟最後一個字的尾碼。輕鬆輸入法用的是「頭尾
頭尾(二字詞)跟「最多前四頭」。那個比較容易在輸入時輸入,也是見仁見智,自己打打
看就知道了。
■ 詞庫在輸入法中的地位
一個輸入法依據性質的不同,對詞庫的依賴程度也不同。
有的輸入法對字的輸入已經非常嚴謹,那它可能就把詞庫當成使用者的輔助,甚至有
的是單字版免費,詞庫版收錢的輸入法。
當然也有輸入法把詞庫當成送給使用者,讓他們方便設計一些常輸入字的功能。這樣
的輸入法是不會內建詞庫的。
而對一些門檻低、選字率高的輸入法而言,詞庫可以說是救星,藉以提升效率。這對
使用者當然是件好事,而且可以彌補單字選字率太高的缺點。這個部份的話,以現在的【
輕鬆輸入法】,可以說達到最大的利用率。除了利用詞庫的輸入外,還加了利用詞庫輸入
單字的「五碼定字」特別輸入方式。很充分的利用了詞庫的優點。
■ 詞庫的大小與品質
一般輸入法(當然是指有內建詞庫的)詞庫的大小通常是一萬五到十幾萬(條)的差別。
例如以前DOS時代倚天中文的忘形輸入法大約是一兩萬詞,微軟新注音大約三萬詞,舊
輕鬆輸入法有十萬詞,現在的輕鬆輸入法2004因為包含了五碼定字功能,更是多達三十五
萬詞。
而詞庫的品質也關係到使用者實際上機時的輸入效率。愈多的詞庫,固然在理論上愈
能讓使用者輸入更方便,但是收錄太多冷門的詞彙,反而會讓輸入效率降低,因為太冷門
的涹A影響到常用詞,在輸入時必須選字。
■ 詞庫的先天限制
詞庫的缺點,就在於他自身。因為詞庫的興起,是來自「詞」這個概念。而現在詞庫
中詞的概念,大多數是指白話文中、口語中的「詞」。也因為是白話文、口語上的使用,
所以「詞」當然就不可能包含「不常用字」。意思就是一些古字或是無意義的字,通常是
不會有詞彙的,例如「髟」、「嵢」…等等。
這些字,終究還是得乖乖的用單字打法去打,所以如果是拆單字會很困難或是太沒效
率的輸入法,遇到這些字時,就會拖累效率。
■ 詞庫的展望
詞庫雖然有它的限制,不過隨著中文的發展,在一般日常應用上會愈來愈實用。大陸
中科院的研究成果表示:當前的漢字輸入技術,基本上都是以單字輸入為主,輔以或強或弱
的詞組輸入方式。
現在原本倚重詞庫的輸入法,已經開始逐漸走向「以詞為主,單字為輔」的趨勢,這
樣的發展,可以說是勢在必行。因為中文不可能再回到古代那樣的文言文,加上現代中國
語文,是以詞為主要結構的特性,以詞為單位的輸入,可以說是中文的輸入的一個燈塔、
可以前進的目標,是外語無法做到的。
我的演講到此結束,要扔蕃茄、雞蛋的,請等我離開後再自由動作,謝謝…
- -
▽
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.166.89.185