作者HuangJC (吹笛牧童)
站內RIPE_gender
標題[問題] 怎麼挑選 4096 個韓文字
時間Sat Sep 13 03:58:36 2014
怎麼挑選 4096 個韓文字
看大家都在分享感情,我就分享一下阿宅工程師在做什麼好了
C 語言,或任何語言,其實都是工具
而在工具之上還有 domain knowledge, 這其實更重要
比如會計,我不懂,無法寫會計程式
下棋,我不會贏,無法寫下棋程式
而如果有 domain knowledge,就算工具語言不熟練
for loop 不用卻 hard code 幾百行,或程式速度略慢,甚至當機
這些其實在某限度下都可以忍受的
(還是有不少手機會自動重開機啊,那就是當機了;人家還不是在賣)
因此,阿宅的工作,決勝點不在 coding, 在 domain knowledge
換個領域常就要 K書了
(就好像會打電話了,但換個妹就得重新熟悉對方的喜好;相對之下打電話只是最基本的)
這次為什麼要挑 4096 個韓文字?
因為同事在寫小設備的軟體,記憶體有限,他提出的上限就是 4096 字
我們可以手機顯示簡訊來理解
手機之所以可以顯示簡訊,是因為從大氣中接到簡訊的內碼,而內碼再查詢出字型
這張字型表大,則字的選擇多;若記憶體不足,則能選擇的字體少(收到只好顯示亂碼)
以中文來說,怕不有數萬字;但若記憶體不足,則挑一萬多字的次常用字
再不足,可以精簡至數千字的常用字
以英文來說,是拼音字,那只要 26 個;或分大小寫,則 26*2 個
那麼韓文呢?韓文算怎樣的類型,怎樣挑比較好呢?
韓文字母才 24 個,如果都用字母,就 24 字即可
就好像中文雖然數萬字,但如果全用注音文,也只要幾十字即可
如果我們真的只提供韓文字母 24 字,那是注音文了
那要怎麼挑 4096 字以下呢?
然後我就在一堆文件中頭大了..
(當然啦,我都舉手機為例了;有做韓文手機的工程師應該有答案)
--
輕聲一歎 歎不盡傷感 默默的盼 盼望那遲來的緣
幾許相見 加深我的愛戀 分秒不見 都使我相思綿綿
天天的等 夜夜的盼 虛度了多少 落葉的秋天
常聽你消息 就像在眼前 仔細的看一看 你卻遠在天邊
默問蒼天 何時了我心願 對你情感 長留在歲歲年年
- 孫儀
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.251.197.63
※ 文章網址: http://webptt.com/m.aspx?n=bbs/RIPE_gender/M.1410551919.A.C70.html
※ 編輯: HuangJC (60.251.197.63), 09/13/2014 04:00:01
1F:推 ahsan: 咦,不算漢字,韓文本就是注音文,基本格局就是子音母音子音組 09/13 04:11
2F:→ ahsan: 沒記錯的話,通通能發音,有意思的字不就幾千個嘛.ISO 應該有 09/13 04:12
3F:→ ahsan: CJK 碼表可查.我玩 national languages 是 80 年代了,也許 09/13 04:14
4F:→ ahsan: 又是給你舊情報. 09/13 04:14
我們設備內傳送簡訊都是 unicode,所以先查這份
https://zh.wikipedia.org/wiki/Unicode
https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
http://tinyurl.com/lgmuws5
然後文內有提及查這份,中日韓越統一表意文字,這就你說的 CJK 了
情報是不舊,但是字集太大,文內說:
最初期的統一漢字共20,941字,其範圍為:0x4E00—0x9FCC
20941 > 4096
記憶體炸了~
所以要挑~~~
※ 編輯: HuangJC (60.251.197.63), 09/13/2014 04:45:07
5F:→ HuangJC: CJKV 是含其它語系,我很快決定日越中文都不需要了 09/13 04:48
6F:→ HuangJC: 所以現在字集縮小到 K0 這個來源.. 09/13 04:48
8F:→ ahsan: 自己去算,這些是Hangul(韓文),但是你還會需要Jamo(字母). 09/14 04:15
這些是怎麼來的? 其實這題我已經解完,同事看過同意了
所以我不是要魚,我是要釣桿
如果你能解釋你的資料怎麼找到這的,看過比我的更有說服力,我會用你的
--------
承上次推文,我說縮小到 K0 這個來源
https://zh.wikipedia.org/wiki/KS_X_1001
這是 KS X 1001 的內容
KS X 1001是韓國用於書寫的諺文和漢字的字元編碼規格。
然後我看到諺文
https://zh.wikipedia.org/wiki/%E8%AB%BA%E6%96%87
再湊上某處看到,諺文就算是韓國的文字了(我是指,比注音高一級的)
這諺文範圍在哪呢?
U+AC00-U+D7A3, U+1100-U+11FF, U+3131-U+318E, U+FFA1-U+FFDC
以上,其中 AC00~D7A3, 就是你給的網址
如果我要用,我似乎少了一句話:上面的範圍,最前面就是最常用字
如果是最常用字了,那或許可以考慮
※ 編輯: HuangJC (175.180.190.39), 09/16/2014 02:27:12
9F:→ HuangJC: 我做了個減法,光 AC00~D7A3就一萬多字,又爆了 09/16 02:28
10F:→ HuangJC: 直接講完我的做法好了, KS X 1001 內有常用諺文 09/16 02:29
11F:→ HuangJC: 所以我把這份文件和諺文取交集,就是常用諺文了 09/16 02:30
12F:→ HuangJC: 接下來我還有好多語系要做,麻煩的是文件沒一致性 09/16 02:30
13F:→ HuangJC: 每個國家都要重檢討一次,才能定義出常用字 09/16 02:30
14F:→ HuangJC: 所以我覺得,我仍然沒拿到釣竿 09/16 02:31