作者bibo9901 (function(){})()
看板Liu
标题Re: [问题] 弃虾米 从仓颉 值不值得?
时间Sun Sep 17 09:19:57 2017
※ 引述《ANGELB (神仙B)》之铭言:
: 十五年前学了虾米
: 那时声势如虹 打字比赛接连冠军
: 在网路资讯较不如现今易於搜寻的时期
: 一度以为虾米是王道
: 学成之後 细细回想其实这输入法也还好而己
: 不知十几年前呒虾米赢过仓颉这股潮流根据的事实从何而来
: 後来看了这一系列的比较文 有条有理
: https://goo.gl/5U4zp
这篇文章对於重码字的分析很不严谨,
首先,只给出「重码表」而没有附上编码表的来源,不知如何检验起
其次,论证看似有条理,但实际上有大漏洞,
1. 只考虑 Big5 字,也没考虑字的出现机率。
自然语言有「齐夫定律」的现象,高频字出现的机率会是低频字的数百甚至数万
倍,高频字(如「精」、「睛」)重码就很令人困扰,低频字(如「筶」、「簹」
、「艡」)重码就没什麽关系。
2. 重码率高,选字率就高,这是事实,但不代表打得慢!
呒虾米多数 2~3 码,即使要加上 VRSF 或 1234 选字,也不过是 3~4 码,比起仓
颉动不动就 4~5 码的,谁快谁慢很难说。
不能像原来里用一句「这项统计资料没有原始来源可供验证」来代过,更不能直
接推论选字率高等於需要的码数较多
第五代仓颉和呒虾米的编码表,在网路上都可以搜到,我统计出两种输入法的
总字数 重码字数 允许多种拆法的字数 平均码长
仓 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76
呒 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64
可以发现
1. 重码字数被严重低估了。尤其是呒虾米的重码字数更是直破天际。但其中大
多数是因为标点、符号等,例如「,J」就有 18 个候选字
2. 仓颉四码起跳是基本,而呒虾米很少超过四码。符合上面第二点的质疑,呒
虾米即使要选字也不会比较慢
3. 仓颉几乎没有容错空间,一个字就一种拆法,罕见字或异体字不会写就没救了
为了测试真实打字的情形,我从 Clueweb09
https://lemurproject.org/clueweb09/
取样了共2000万字当作语料库。这是 2009 年爬下来的中文网页,应该很符合现代人
输入的需要。我统计出一份字频表
https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json
另外,考虑实际输入,重码字也直接增加 1 码,如「囧」原来拆 OBN 三码,因为选字
变成 OBN2、OBNR 直接视为四码,假设一律用最短码输入,计算码长以字频加权:
最常使用的 13806 字 (语料库共 209491942 字)的情形
总字数 重码字数 多种拆法的字数 平均码长 加权码长
仓 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519
呒 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328
呒* 3.507 +- 0.65 2.651
呒** 3.579 +- 0.63 2.841
*: 假设只有 50% 的字用了最短码
**: 假设只有 30% 的字用了最短码
结论也很明显:
1. 如同网页所说,呒虾米用了一堆简码来解决重码问题,效果实在不怎麽样,
就算背了全部的简根(100%),比起几乎不背(30%) 大概两个字只省 1 码
2. 呒虾米的一码二码字的安排比传统仓颉好太多了,仓颉只能省掉 0.5 码,呒
虾米可以省掉 1 码左右
3. 总地来说,呒虾米还是比仓颉快上 25% ~ 52% [注]
同场加映大新仓颉
总字数 重码字数 多种拆法的字数 平均码长 加权码长
大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042
大新* 3.553 +- 0.71 2.431
大新** 3.601 +- 0.70 2.614
毫无疑问地乐胜呒虾米,尤其平均 2 码真是太销魂了 :)
由此可见重码、容错都不是问题,只要常用字够短,速度就会快。
TL;DR
大新仓颉 > 呒虾米 >> 传统仓颉
原始码都在
https://github.com/iamalbert/ime-analysis
[注] 打字速度(理论上)就是加权码长的反比。我相信这样算是很准的,
呒虾米加权码长/大新加权码长 = 2.138/2.042 = 114.39%
大新最快记录/呒虾米最快记录 = 238每分 / 209每分 = 113.88%
: 其实都被他说完了
: 说实在的 输入法不够理想是其次
: 重要的是使用不方便
: 现在公领域中 很常会用到电脑
: 购物啦
: 诚品书店查书的iPad啦
: 等等
: 根本没有虾米可打
: 不开放是一回事
: 不管什麽系统
: 行易的动作总是慢吞吞
: 支援度很差
: 反之
: 仓颉无处不在
: 连PS4游戏机的OS繁中底下的输入法
: 竟然只有两种
: 一为注音
: 一为仓颉
: 仓颉的方便性
: 可能是拆字输入法的第一名吧
: 不知道弃虾米从仓颉
: 砍掉重练 投资报酬率值不值得?
这其实真的还好,就忍受那一两分钟而已,平常打game时的速度比较重要
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 163.23.97.126
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Liu/M.1505611203.A.99B.html
※ 编辑: bibo9901 (163.23.97.126), 09/17/2017 09:21:20
※ 编辑: bibo9901 (163.23.97.126), 09/17/2017 09:28:06
※ 编辑: bibo9901 (163.23.97.126), 09/17/2017 09:29:03
1F:推 weiih: 认真给推 09/17 10:57
※ 编辑: bibo9901 (163.23.97.126), 09/17/2017 13:38:59
2F:推 deltazone: 推! 09/17 14:59
3F:推 magicbe: 神の分析,与2183一样,非常棒的参考资料 09/17 20:21
4F:推 goldie: 推! 09/18 00:31
5F:推 Tsai07: 弱弱问一下什麽是重码率? 09/18 19:14
6F:推 goldie: 重码率… 多字同一拆码的字数总和… 比上全部字数…的比 09/18 22:46
7F:→ goldie: 例。 09/18 22:46
8F:推 vaper: 字码多,重码率就低,反之亦然。呒的优势就限制在四码 09/29 18:49
9F:→ vaper: 虽然重码率较高,但再辅以二码常用字,整体消长下是较优的 09/29 18:50
10F:→ vaper: 光谱两端没有孰是孰非,只是平衡与效率的问题 09/29 18:51
11F:→ vaper: 简单说,如果你用注音就能快嘴呛爆对方,何必用其他输入法 09/29 18:53
12F:推 ming12345: 呒虾米加选字,和仓颉四五码的按键数相比,未必会输, 10/09 14:55
13F:→ ming12345: 但选字简码要另记,仓颉则完全依照规则,各有利弊 10/09 14:55
14F:推 ming12345: 原文是:[呒虾米 6000 字有 311 个选字,2000 字有 33 10/09 15:17
15F:→ ming12345: 个选字,1000 字有 8 个选字。这项统计资料没有原始来 10/09 15:17
16F:→ ming12345: 源可供验证。] 10/09 15:17
17F:→ ming12345: 所以是呒虾米低重码的资料没有原始来源,不是仓颉低重 10/09 15:17
18F:→ ming12345: 码的资料没有原始来源,你拿这句话来批,是不是断章取 10/09 15:17
19F:→ ming12345: 义了 10/09 15:17
20F:推 oktryit: 我个人也是觉得日常用字应该是呒 >>> 仓,效率乐胜 10/26 05:31
21F:→ oktryit: 之前也有接触一下大新仓颉,也蛮快的就是惹,但先学先赢 10/26 05:32
22F:→ oktryit: 这是不争的事实,反正呒虾米打够快惹,就懒得换大新。 10/26 05:32
23F:→ oktryit: 附注一下,我大概用了 70% 以上的简根,二码字,有一些 10/26 05:33
24F:→ oktryit: 会反手的就不用二码字,例如,跟 =qz,汽 = wz,债 = dz 10/26 05:35
25F:→ oktryit: 贵 = qa 也蛮少用的,我反而会打 cemb,主要是小指按的字 10/26 05:38
26F:→ oktryit: 一来会转换成其他方式,一来就是小指没什麽力气 10/26 05:39
27F:→ oktryit: 结论是,我认为要打的过,按键的顺序性也有差,不然就不 10/26 05:40
28F:→ oktryit: 会有人转换 Dvorak 键盘来打字,呒虾米似乎没考虑到这 10/26 05:41
29F:→ oktryit: 好在,q 或 z 的字根不多,但是 a 的字根就很多就是了。 10/26 05:42