看板Config
標 題中文網址的發展?--IRI 的多國語碼表示問題 ?!
發信站中央大學松濤風情資訊站 (Fri Jan 23 15:52:08 2004)
轉信站ptt!ctu-reader!ctu-peer!news.nctu!news.netfront.net!newsgate.cuhk.edu.
在 IDNA 架構之後, 多國語文域名(IDN)似乎得到一個妥協途徑,
也通過了 RFC , 但是把 IDN 問題推給 Application Layer 就看 AP
是否接受與回應, 因此佔市場很大份量的 MicroSoft IE 備受關注.
引發 IDN 問題的來源之一是 W3C 選 URI 裡多國語碼為 unicode ,
也就是與 ASCII 能區分的 UTF-8 . 但 UTF-8 在 IE 不僅本身不能
無害通行, 還可能對 IE 造成漏洞, 甚至過不了現有的 proxy 與 web
server, 因此 ACE 的 punycode 在 IDNA 被提出來以解決相容性.
MicroSoft 認為 URI 若改成 IRI 時, 表示 binary data 的 %nn
也是能表示 unicode 的, 可是 unicode 先天的漢字繁簡問題, 造成混
淆的拉丁希臘字母問題, 由右向左的阿拉伯文問題等都沒有完善解決,
由於 IRI 包含 dns hostname , 僅解決 dns 並未能解決 AP 的問題.
這個信息代表 MicroSoft 可能對 keyword search 仍然沒有放棄, IRI
還是跟 keyword search 更相關.
中文的繁簡域名問題, 最終並未以繁簡轉換為解決方案, 而是以異
體字相關為同一組合集合, 再從中挑出全繁及全簡為組合集合的代表名
稱, 這個方法避開硬性的規定那個簡字對應那個繁字, 而是讓繁簡名稱
(組合起來的詞)做所有組合集合名稱的全繁與全簡代表名稱, 繁簡代表
名稱甚至能擇一當主要代表, 因此可以當唯一的 identifier 使用.
組合名詞的化一跟單符字的化一是不同的概念, 她是基於多繁對一
簡時, 簡字具化一性, 全簡名稱具有組合集合名稱的單一索引性, 從索
引再加一個繁或簡的請求就能找到對應的全繁或全簡代表名稱. 全繁名
稱可能有多個, 其化一性可以配合註冊的要求用登錄的代表名稱解決.
繁簡字體裡的偏旁簡化字, 基本上是一一對應的, 例如金偏旁字跟
類似的"全"(下為一勾, 不是一橫)旁, 是楷書與草書的問題. 真正難解
的是台灣的傳統簡化字, 體, 体這兩字對應化一, 一般人大概沒意見,
但莊, 庄這兩字就太敏感, 因為牽涉到 "姓名". 另外就是多繁對一簡
經常是假設單向轉換, 例如:繁對簡: (錶, 表) --> 表, 轉回繁體則是
簡對繁: 表 --> 表. 這樣轉應該是不會造成太大混淆, 否則大陸怎麼
使用 ? 只是台灣地區的語文習慣無法接受 "手表" 這種寫法, 但還是知
道這指的是甚麼. 另一個例子是 (只, 隻) --> 只, "一隻貓" 跟 "一只
貓", 後者就是過不了國文老師. 因此全繁代表字的方法, 至少讓 "不順
眼"(有時為了廣告還特地要這樣挑) 與 "順眼" 的名稱各得其所. "只是
表示一隻手錶" 可以當全繁域名, 如果用簡轉繁, 以單向轉換不看前後文
的想法就變成 "只是表示一只手表", 很多人也是看得懂的.
字體的問題是不管那個字碼表都存在的, 只是 UNICODE 的字體更多,
做為字符表是不該有化一的問題的, 因為少一點多一點是不同的符號. 但
使用的習慣, 符號被用到的頻次與發音會讓某個字符被認為等效於某個字
符, 由索引(索引未必要用全簡, 使用異體字集合的最大或最小碼值也是
可以的)能找出全繁或全簡代表名稱, 就能有兼容兩者的彈性.
MicroSoft IE 目前有市場的佔有率, 故被寄以厚望, 其謹慎從事也
是對的, 如同 Win3.X 受到 internet 網路與 browser 多國語文的威脅
使其佔有率的霸權受到影響時, 她才會以迅雷之勢推出 win95 與 IE 消
滅對手. 目前來講, google 是個威脅, 但對 OS 佔有率的威脅還不如
linux , IDN 使用 UTF-8 早在 BIND 4.X 就已潛伏著, Win2K 的 UTF-8
Active Directory 只是本身對 "internal control code 與 data code"
的過度自信.
畢竟 multibyte code 與 single byte code 就如同字組合詞跟單字
詞在對字的辨識與處理需要不同看待, 整個看是一體有前後文的, 個別看
則不管這個符號發生在那個位置. 例如 80, 00 在 ASCII 常視為相同,
fx80fx 則有可能出現在 UTF-8 , 把 UTF-8 符號當成 byte 個別處理就
跟把繁簡域名個個字個別處理會觸犯一些不夠周延的規則是同樣的道理.
處理 Multibyte character 的 string function 會是整個 IRI 問
題的核心. 解決了 multi-byte character 還得解決組合字詞(word)的唯
一可鑑識問題, "索引求一" 是目前中文繁簡域名的方法, 這也會是 key
word search 的一項關鍵技術.
--
◎ Origin: 中央松濤站□bbs.ee.ncu.edu.tw From: 140.115.6.234