作者cnoize (泥巴星球Server)
看板IME
标题Re: [闲聊] 字频总表前30个字的拆码数比较
时间Thu May 20 01:08:57 2010
※ 引述《cnoize (泥巴星球Server)》之铭言:
: 我记得教育部有 86 年, 87 年的两个表。
: 网际网路前辈做的 1994 年、1995 年的两个统计表。
: 中研院长期整理的表格。
: 这些不同的表格之中,常用字有些微的不同。
: 部分字的字频可靠性需要研究。
: 网际网路前辈的表格中,"交" 很常见。
: 我认为是取样文章为 newsgroup,每篇文章都有 "交通大学BBS"
: 的缘故。
记忆内容有些错误,正确资料如下:
逗号、句号是常用的,所以如果输入法把它们的空位换成字,
效率会变低。
http://technology.chtsai.org/charfreq/
1994 年 Big5 中文网路讨论字频统计
http://technology.chtsai.org/charfreq/94charfreq.html
13 资
7 大
26 学
27 交
57 工
1993 年全部 Big5 相关讨论区字频统计
http://technology.chtsai.org/charfreq/93charfreq.html
S: 符号
1 ─ S # 减号?
3 S # 全型空白?
7 , S # 逗号
9 │ S # 直线?
12 。 S # 句号
17 ═ S # 等号
29 □ S # 正方形?
11 大
16 学
18 资
30 交
35 系
40 工
交大大学资工系
http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/
http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/00_index.txt
http://bbs.nsysu.edu.tw/txtVersion/treasure/psychology/\
M.855653188.A/M.932180472.H.html
http://tinyurl.com/234psax
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 219.86.129.221
2F:→ ilanese:有提到「未去除档头引言及签名等资讯」这点。但未必所有统 05/20 01:55
3F:→ ilanese:计字频的资料都会有这个问题。 05/20 01:56
4F:推 ilanese:我倒是赞成将「,」、「。」这两个标点符号放在一码字里。 05/20 01:58
5F:→ ilanese:其他一些标点符号可放在二码字里。 05/20 01:59