WEB批踢踢

看板Config

標題中文網址的發展?--IRI 的多國語碼表示問題 ?!

發信站中央大學松濤風情資訊站 (Fri Jan 23 15:52:08 2004)

轉信站ptt!ctu-reader!ctu-peer!news.nctu!news.netfront.net!newsgate.cuhk.edu.

在 IDNA 架構之後, 多國語文域名(IDN)似乎得到一個妥協途徑, 也通過了 RFC , 但是把 IDN 問題推給 Application Layer 就看 AP 是否接受與回應, 因此佔市場很大份量的 MicroSoft IE 備受關注. 引發 IDN 問題的來源之一是 W3C 選 URI 裡多國語碼為 unicode , 也就是與 ASCII 能區分的 UTF-8 . 但 UTF-8 在 IE 不僅本身不能無害通行, 還可能對 IE 造成漏洞, 甚至過不了現有的 proxy 與 web server, 因此 ACE 的 punycode 在 IDNA 被提出來以解決相容性. MicroSoft 認為 URI 若改成 IRI 時, 表示 binary data 的 %nn 也是能表示 unicode 的, 可是 unicode 先天的漢字繁簡問題, 造成混淆的拉丁希臘字母問題, 由右向左的阿拉伯文問題等都沒有完善解決, 由於 IRI 包含 dns hostname , 僅解決 dns 並未能解決 AP 的問題. 這個信息代表 MicroSoft 可能對 keyword search 仍然沒有放棄, IRI 還是跟 keyword search 更相關. 中文的繁簡域名問題, 最終並未以繁簡轉換為解決方案, 而是以異體字相關為同一組合集合, 再從中挑出全繁及全簡為組合集合的代表名稱, 這個方法避開硬性的規定那個簡字對應那個繁字, 而是讓繁簡名稱 (組合起來的詞)做所有組合集合名稱的全繁與全簡代表名稱, 繁簡代表名稱甚至能擇一當主要代表, 因此可以當唯一的 identifier 使用. 組合名詞的化一跟單符字的化一是不同的概念, 她是基於多繁對一簡時, 簡字具化一性, 全簡名稱具有組合集合名稱的單一索引性, 從索引再加一個繁或簡的請求就能找到對應的全繁或全簡代表名稱. 全繁名稱可能有多個, 其化一性可以配合註冊的要求用登錄的代表名稱解決. 繁簡字體裡的偏旁簡化字, 基本上是一一對應的, 例如金偏旁字跟類似的"全"(下為一勾, 不是一橫)旁, 是楷書與草書的問題. 真正難解的是台灣的傳統簡化字, 體, 体這兩字對應化一, 一般人大概沒意見, 但莊, 庄這兩字就太敏感, 因為牽涉到 "姓名". 另外就是多繁對一簡經常是假設單向轉換, 例如:繁對簡: (錶, 表) --> 表, 轉回繁體則是簡對繁: 表 --> 表. 這樣轉應該是不會造成太大混淆, 否則大陸怎麼使用 ? 只是台灣地區的語文習慣無法接受 "手表" 這種寫法, 但還是知道這指的是甚麼. 另一個例子是 (只, 隻) --> 只, "一隻貓" 跟 "一只貓", 後者就是過不了國文老師. 因此全繁代表字的方法, 至少讓 "不順眼"(有時為了廣告還特地要這樣挑) 與 "順眼" 的名稱各得其所. "只是表示一隻手錶" 可以當全繁域名, 如果用簡轉繁, 以單向轉換不看前後文的想法就變成 "只是表示一只手表", 很多人也是看得懂的. 字體的問題是不管那個字碼表都存在的, 只是 UNICODE 的字體更多, 做為字符表是不該有化一的問題的, 因為少一點多一點是不同的符號. 但使用的習慣, 符號被用到的頻次與發音會讓某個字符被認為等效於某個字符, 由索引(索引未必要用全簡, 使用異體字集合的最大或最小碼值也是可以的)能找出全繁或全簡代表名稱, 就能有兼容兩者的彈性. MicroSoft IE 目前有市場的佔有率, 故被寄以厚望, 其謹慎從事也是對的, 如同 Win3.X 受到 internet 網路與 browser 多國語文的威脅使其佔有率的霸權受到影響時, 她才會以迅雷之勢推出 win95 與 IE 消滅對手. 目前來講, google 是個威脅, 但對 OS 佔有率的威脅還不如 linux , IDN 使用 UTF-8 早在 BIND 4.X 就已潛伏著, Win2K 的 UTF-8 Active Directory 只是本身對 "internal control code 與 data code" 的過度自信. 畢竟 multibyte code 與 single byte code 就如同字組合詞跟單字詞在對字的辨識與處理需要不同看待, 整個看是一體有前後文的, 個別看則不管這個符號發生在那個位置. 例如 80, 00 在 ASCII 常視為相同, fx80fx 則有可能出現在 UTF-8 , 把 UTF-8 符號當成 byte 個別處理就跟把繁簡域名個個字個別處理會觸犯一些不夠周延的規則是同樣的道理. 處理 Multibyte character 的 string function 會是整個 IRI 問題的核心. 解決了 multi-byte character 還得解決組合字詞(word)的唯一可鑑識問題, "索引求一" 是目前中文繁簡域名的方法, 這也會是 key word search 的一項關鍵技術. -- ◎ Origin: 中央松濤站□bbs.ee.ncu.edu.tw From: 140.115.6.234

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Config 板

熱門看板

贊助商連結

熱門看板

贊助商連結