作者cole945 (躂躂..)
看板EZsoft
标题Re: [心得] Unicode 补完计画 (UAO)
时间Sat Nov 3 02:42:33 2007
推 reptile:没人说表不能是码吧?况且,一开始Unicode这个表的确是16bit
不过很巧在unicode里, "表" 就不是码 .__.a
他跟其他编码的概念不太一样。
就是以 "表" 这个字为例,
在 unicode 中,定义了这个字叫 U+8868 ,就这样而已
但实际上这个字真正在应用时, 该如何以位元编码的形式存在电脑上,
若用 utf-8 法来编码, 就会变成 e8 a1 a8
而用 utf-16le 则是 68 88 (其实跟原本一样)
所以说在 Unicode, "表" 和 "码" 是不太一样的 :)
--
已经有人写过一篇介绍 unicode 的好文件了, 所以我就直接贴别人写好的
The Joel on Software
每个软体开发者都绝对一定要会的Unicode及字元集必备知识(没有藉口!)
http://tinyurl.com/y7vw4t
「有些人误认为Unicode只是个16位元码,里头每个字都要占16位元,所以总
共有65,536个字元。事实上这并不正确。这是关於Unicode常见的误解,...」
「Unicode可以定义的字母数量并没有实质限制,事实上可以超过65,536个,
所以并不是所有的Unicode字母都能挤进两个位元组里,...」
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.139.143.52
1F:推 alicekey:原来IE猜编码是用频率分析法,这方法蛮好的。 11/03 07:14
2F:推 alicekey:作者会觉得这方法奇怪,可能是没学过密码学。 11/03 07:18
3F:推 vizshala:用猜的怎麽会好? 11/03 08:57
4F:推 vizshala: 应该是网页符合W3C标准 浏览器用猜的只是种妥协 11/03 09:00
5F:推 albb0920:很多人懒的设charset的 XD 11/03 10:08
6F:推 alicekey:我是指在猜的方法中算好的,总体来说好不好就不知道.. 11/03 14:26
7F:推 seansylin:有设定当然照charset,没有只好用猜的,这绝对是比较好 11/03 14:31
8F:→ seansylin:的设计,"容许错误"是最基本的的设计原则 11/03 14:32
9F:推 sdbb:推容许错误,楼上专业 11/03 20:56
10F:→ ddman:推Joel on Software, 奇人一个! 11/03 21:58