作者HuangJC (吹笛牧童)
站内RIPE_gender
标题[问题] 怎麽挑选 4096 个韩文字
时间Sat Sep 13 03:58:36 2014
怎麽挑选 4096 个韩文字
看大家都在分享感情,我就分享一下阿宅工程师在做什麽好了
C 语言,或任何语言,其实都是工具
而在工具之上还有 domain knowledge, 这其实更重要
比如会计,我不懂,无法写会计程式
下棋,我不会赢,无法写下棋程式
而如果有 domain knowledge,就算工具语言不熟练
for loop 不用却 hard code 几百行,或程式速度略慢,甚至当机
这些其实在某限度下都可以忍受的
(还是有不少手机会自动重开机啊,那就是当机了;人家还不是在卖)
因此,阿宅的工作,决胜点不在 coding, 在 domain knowledge
换个领域常就要 K书了
(就好像会打电话了,但换个妹就得重新熟悉对方的喜好;相对之下打电话只是最基本的)
这次为什麽要挑 4096 个韩文字?
因为同事在写小设备的软体,记忆体有限,他提出的上限就是 4096 字
我们可以手机显示简讯来理解
手机之所以可以显示简讯,是因为从大气中接到简讯的内码,而内码再查询出字型
这张字型表大,则字的选择多;若记忆体不足,则能选择的字体少(收到只好显示乱码)
以中文来说,怕不有数万字;但若记忆体不足,则挑一万多字的次常用字
再不足,可以精简至数千字的常用字
以英文来说,是拼音字,那只要 26 个;或分大小写,则 26*2 个
那麽韩文呢?韩文算怎样的类型,怎样挑比较好呢?
韩文字母才 24 个,如果都用字母,就 24 字即可
就好像中文虽然数万字,但如果全用注音文,也只要几十字即可
如果我们真的只提供韩文字母 24 字,那是注音文了
那要怎麽挑 4096 字以下呢?
然後我就在一堆文件中头大了..
(当然啦,我都举手机为例了;有做韩文手机的工程师应该有答案)
--
轻声一叹 叹不尽伤感 默默的盼 盼望那迟来的缘
几许相见 加深我的爱恋 分秒不见 都使我相思绵绵
天天的等 夜夜的盼 虚度了多少 落叶的秋天
常听你消息 就像在眼前 仔细的看一看 你却远在天边
默问苍天 何时了我心愿 对你情感 长留在岁岁年年
- 孙仪
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.251.197.63
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/RIPE_gender/M.1410551919.A.C70.html
※ 编辑: HuangJC (60.251.197.63), 09/13/2014 04:00:01
1F:推 ahsan: 咦,不算汉字,韩文本就是注音文,基本格局就是子音母音子音组 09/13 04:11
2F:→ ahsan: 没记错的话,通通能发音,有意思的字不就几千个嘛.ISO 应该有 09/13 04:12
3F:→ ahsan: CJK 码表可查.我玩 national languages 是 80 年代了,也许 09/13 04:14
4F:→ ahsan: 又是给你旧情报. 09/13 04:14
我们设备内传送简讯都是 unicode,所以先查这份
https://zh.wikipedia.org/wiki/Unicode
https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
http://tinyurl.com/lgmuws5
然後文内有提及查这份,中日韩越统一表意文字,这就你说的 CJK 了
情报是不旧,但是字集太大,文内说:
最初期的统一汉字共20,941字,其范围为:0x4E00—0x9FCC
20941 > 4096
记忆体炸了~
所以要挑~~~
※ 编辑: HuangJC (60.251.197.63), 09/13/2014 04:45:07
5F:→ HuangJC: CJKV 是含其它语系,我很快决定日越中文都不需要了 09/13 04:48
6F:→ HuangJC: 所以现在字集缩小到 K0 这个来源.. 09/13 04:48
8F:→ ahsan: 自己去算,这些是Hangul(韩文),但是你还会需要Jamo(字母). 09/14 04:15
这些是怎麽来的? 其实这题我已经解完,同事看过同意了
所以我不是要鱼,我是要钓杆
如果你能解释你的资料怎麽找到这的,看过比我的更有说服力,我会用你的
--------
承上次推文,我说缩小到 K0 这个来源
https://zh.wikipedia.org/wiki/KS_X_1001
这是 KS X 1001 的内容
KS X 1001是韩国用於书写的谚文和汉字的字元编码规格。
然後我看到谚文
https://zh.wikipedia.org/wiki/%E8%AB%BA%E6%96%87
再凑上某处看到,谚文就算是韩国的文字了(我是指,比注音高一级的)
这谚文范围在哪呢?
U+AC00-U+D7A3, U+1100-U+11FF, U+3131-U+318E, U+FFA1-U+FFDC
以上,其中 AC00~D7A3, 就是你给的网址
如果我要用,我似乎少了一句话:上面的范围,最前面就是最常用字
如果是最常用字了,那或许可以考虑
※ 编辑: HuangJC (175.180.190.39), 09/16/2014 02:27:12
9F:→ HuangJC: 我做了个减法,光 AC00~D7A3就一万多字,又爆了 09/16 02:28
10F:→ HuangJC: 直接讲完我的做法好了, KS X 1001 内有常用谚文 09/16 02:29
11F:→ HuangJC: 所以我把这份文件和谚文取交集,就是常用谚文了 09/16 02:30
12F:→ HuangJC: 接下来我还有好多语系要做,麻烦的是文件没一致性 09/16 02:30
13F:→ HuangJC: 每个国家都要重检讨一次,才能定义出常用字 09/16 02:30
14F:→ HuangJC: 所以我觉得,我仍然没拿到钓竿 09/16 02:31