作者Tiberius (小败踢)
看板Key_Mou_Pad
标题[万能] UTF-8 与 Unicode
时间Sat Mar 4 13:32:26 2006
看到有些人混用 UTF-8 与 Unicode, 想想还是出来澄清一下
「这两个东西是不一样的」
UTF-8 的 "UTF" 指的是 "Unicode Transformation Format", "Unicode 变换格式"
这是一种储存 Unicode 字元的编码方式
(下面为了说明方便起见, 以 U+ 开头的是 Unicode 的字码,
0x 开头的是一般的 bytes 编码)
为什麽要转换编码呢? 理由有好几个:
1. Unicode 一个字的字码长 32 bits, 拿来表示英文字太浪费了 (这是主要理由)
原本在 ASCII 范围内的字, Unicode 没有改变编码
0x00 到 0x7F 直接对应 U+00000000 到 U+0000007F
直接传 Unicode 的话, 就是一堆浪费空间的 0 ...
2. Unicode 字码在网路上传送的时候很难同步, 传烂一个 byte, 後面就全毁了
因为每个 byte 都有可能是 0x00 到 0xFF (第一个 byte 例外, 0x00 - 0x7F)
只要错漏了一个 byte, 就不知道该从哪边开始抓 4 bytes 当成一个字解码啦
因此後来发展出许多编码形式, 以便节省资料空间, 方便在网路上传送
其中最常用到的编码方式是 UTF-8, 它受欢迎的原因有下列几个
1. 原本的 ASCII 范围字元 (U+0000 到 U+007F) 储存方法一样, 不必改变
所以纯英文的 ASCII 文字档就是合法的 UTF-8 文字档
2. 编码结果里面不会用到 Null (0x00), \ (0x5C) 与 0xFF
有写程式的就知道这代表什麽意思 ...
3. UTF-8 可以看得出「哪边是一个字码的开始」,所以中间传烂的话不会坏一整串
比如说, 0xC0 ~ 0xDF 代表这是 2 bytes 字码的第一个 byte
0xE0 ~ 0xEF 3 bytes
0xF0 ~ 0xF7 4 bytes
0xF8 ~ 0xFB 5 bytes
0xFC ~ 0xFD 6 bytes
然後呢, 0x80 ~ 0xBF 一定是长字码後面的 bytes
传烂的话, 很容易就能抓出下一个字从哪边开始
上面有人拿 "史" 当例子, 它的 UTF-8 编码是 0xE58FB2, 解回 Unicode 就是 U+53F2
中文 (汉字) 编成 UTF-8 多半需要 3 bytes, 比以往 Big5 稍微肥一点
但是就小弟翻译的经验来看 ...
同样的意义, 英文 (ASCII) 与中文 (UTF-8) 比较
中文占用的储存空间还是比较小!!
某种角度来说, 可见中文博大精深啊! XD
感谢读完, 以後不要再把 Unicode 跟 UTF-8 搞混罗!
尤其是 Unicode (UTF-8) 这种写法, 很容易造成误会的.
==
追伸 (写着写着变成进阶阅读了?)
除了 Unicode 官方文件之外, IETF 也以 RFC2044 -> RFC2279 -> RFC3629 规范 UTF-8.
为什麽要在 UTF-8 後面特别加上 "-8"? 当然是因为还有其它 UTF 啦! XD
比如说 UTF-7 (少用, 专门对付连 8-bit 都不能处理的终端机),
UTF-16 (UCS-2), UTF-32 (UCS-4) 等等
这边又出现新缩写了, UCS = "Universal Character Set"
指的是 ISO 10646 这个国际标准
ISO 10646 "不等於" Unicode, 两边有着错综复杂的历史渊源 ...
不过请有兴趣的人自己查吧, 这边不谈政治 XD
原本 UCS-2 可直接对应 ISO 10646 的第 0 面 (Plane 0) 不需再次编码
也就是 "基本多语系字面" (BMP; Basic Multilingual Plane)
但是後来发现, 区区六万个码位根本不够用, 汉字之多啊 ... XD
随着 Unicode 扩充, ISO 10646-1:2000 / Unicode 3.0 / RFC2781 制定了 UTF-16
以便在大致相容 UCS-2 的情形下表示所有 Unicode 字元 (每字 31 bits)
不必编码的表示方式, 就由 UCS-4 (UTF-32) 负责承接了.
说到这个, Unicode 把汉字资料整理得不错, 有个 Unihan Database 可以看
每个汉字的笔划数、各国写法 (简繁日韩)、各国发音 (广东,国语,唐朝,音读,训读)、
各国字典部首排序 (康熙,大汉和,汉语大字典)、汉字意义 ...
(例:
http://0rz.net/da16Z)
最重要的是 ... 有放公开下载, 而且是很容易用程式处理的格式!!! XD
书翻完之後就用这个来做 MySQL 的中文部首、拼音、笔划排序吧
(这个有没有人有兴趣? 有的话寄个站内信给我, 光写「有」一个字也好 XD?)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 211.74.178.119
1F:推 solaris10:请问什麽叫做「MySQL 的中文部首、拼音、笔划排序」? 03/04 13:53
3F:→ Tiberius:就是可以 ORDER BY 中文栏位, 依照笔画顺序显示资料 03/04 13:58
4F:→ Tiberius:您推的这个也是 Unihan Database 呀! XD 03/04 14:00
5F:推 solaris10:因为前两个礼拜刚好在研究 unihan,所以看了很多网站 03/04 14:03
6F:推 PsMonkey:..... [抬头] .... [抬头] .... [笔记ing] 03/04 14:11
7F:推 rockzero:推~~对号入座一下 :) 03/04 14:12
8F:推 bluepc:推~~ :P 03/04 14:35
※ 编辑: Tiberius 来自: 211.74.178.119 (03/04 15:19)
9F:推 blc:UTF-7的话,我的手机(k700i)有用到… 03/04 15:23
10F:推 ithinkurdumb:nice 03/04 17:47