[万能] UTF-8 与 Unicode

时间Sat Mar 4 13:32:26 2006

看到有些人混用 UTF-8 与 Unicode, 想想还是出来澄清一下「这两个东西是不一样的」 UTF-8 的 "UTF" 指的是 "Unicode Transformation Format", "Unicode 变换格式" 这是一种储存 Unicode 字元的编码方式 (下面为了说明方便起见, 以 U+ 开头的是 Unicode 的字码, 0x 开头的是一般的 bytes 编码) 为什麽要转换编码呢? 理由有好几个: 1. Unicode 一个字的字码长 32 bits, 拿来表示英文字太浪费了 (这是主要理由) 原本在 ASCII 范围内的字, Unicode 没有改变编码 0x00 到 0x7F 直接对应 U+00000000 到 U+0000007F 直接传 Unicode 的话, 就是一堆浪费空间的 0 ... 2. Unicode 字码在网路上传送的时候很难同步, 传烂一个 byte, 後面就全毁了因为每个 byte 都有可能是 0x00 到 0xFF (第一个 byte 例外, 0x00 - 0x7F) 只要错漏了一个 byte, 就不知道该从哪边开始抓 4 bytes 当成一个字解码啦因此後来发展出许多编码形式, 以便节省资料空间, 方便在网路上传送其中最常用到的编码方式是 UTF-8, 它受欢迎的原因有下列几个 1. 原本的 ASCII 范围字元 (U+0000 到 U+007F) 储存方法一样, 不必改变所以纯英文的 ASCII 文字档就是合法的 UTF-8 文字档 2. 编码结果里面不会用到 Null (0x00), \ (0x5C) 与 0xFF 有写程式的就知道这代表什麽意思 ... 3. UTF-8 可以看得出「哪边是一个字码的开始」，所以中间传烂的话不会坏一整串比如说, 0xC0 ~ 0xDF 代表这是 2 bytes 字码的第一个 byte 0xE0 ~ 0xEF 3 bytes 0xF0 ~ 0xF7 4 bytes 0xF8 ~ 0xFB 5 bytes 0xFC ~ 0xFD 6 bytes 然後呢, 0x80 ~ 0xBF 一定是长字码後面的 bytes 传烂的话, 很容易就能抓出下一个字从哪边开始上面有人拿 "史" 当例子, 它的 UTF-8 编码是 0xE58FB2, 解回 Unicode 就是 U+53F2 中文 (汉字) 编成 UTF-8 多半需要 3 bytes, 比以往 Big5 稍微肥一点但是就小弟翻译的经验来看 ... 同样的意义, 英文 (ASCII) 与中文 (UTF-8) 比较中文占用的储存空间还是比较小!! 某种角度来说, 可见中文博大精深啊! XD 感谢读完, 以後不要再把 Unicode 跟 UTF-8 搞混罗! 尤其是 Unicode (UTF-8) 这种写法, 很容易造成误会的. == 追伸 (写着写着变成进阶阅读了?) 除了 Unicode 官方文件之外, IETF 也以 RFC2044 -> RFC2279 -> RFC3629 规范 UTF-8. 为什麽要在 UTF-8 後面特别加上 "-8"? 当然是因为还有其它 UTF 啦! XD 比如说 UTF-7 (少用, 专门对付连 8-bit 都不能处理的终端机), UTF-16 (UCS-2), UTF-32 (UCS-4) 等等这边又出现新缩写了, UCS = "Universal Character Set" 指的是 ISO 10646 这个国际标准 ISO 10646 "不等於" Unicode, 两边有着错综复杂的历史渊源 ... 不过请有兴趣的人自己查吧, 这边不谈政治 XD 原本 UCS-2 可直接对应 ISO 10646 的第 0 面 (Plane 0) 不需再次编码也就是 "基本多语系字面" (BMP; Basic Multilingual Plane) 但是後来发现, 区区六万个码位根本不够用, 汉字之多啊 ... XD 随着 Unicode 扩充, ISO 10646-1:2000 / Unicode 3.0 / RFC2781 制定了 UTF-16 以便在大致相容 UCS-2 的情形下表示所有 Unicode 字元 (每字 31 bits) 不必编码的表示方式, 就由 UCS-4 (UTF-32) 负责承接了. 说到这个, Unicode 把汉字资料整理得不错, 有个 Unihan Database 可以看每个汉字的笔划数、各国写法 (简繁日韩)、各国发音 (广东,国语,唐朝,音读,训读)、各国字典部首排序 (康熙,大汉和,汉语大字典)、汉字意义 ... (例: http://0rz.net/da16Z) 最重要的是 ... 有放公开下载, 而且是很容易用程式处理的格式!!! XD 书翻完之後就用这个来做 MySQL 的中文部首、拼音、笔划排序吧 (这个有没有人有兴趣? 有的话寄个站内信给我, 光写「有」一个字也好 XD?) --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 211.74.178.119

1^F：推 solaris10:请问什麽叫做「MySQL 的中文部首、拼音、笔划排序」？ 03/04 13:53

2^F：→ solaris10:像这样的程式吗？ http://tinyurl.com/plfg3 03/04 13:55

3^F：→ Tiberius:就是可以 ORDER BY 中文栏位, 依照笔画顺序显示资料 03/04 13:58

4^F：→ Tiberius:您推的这个也是 Unihan Database 呀! XD 03/04 14:00

5^F：推 solaris10:因为前两个礼拜刚好在研究 unihan，所以看了很多网站 03/04 14:03

6^F：推 PsMonkey:..... [抬头] .... [抬头] .... [笔记ing] 03/04 14:11

7^F：推 rockzero:推~~对号入座一下 :) 03/04 14:12

8^F：推 bluepc:推~~ :P 03/04 14:35

※ 编辑: Tiberius 来自: 211.74.178.119 (03/04 15:19)

9^F：推 blc:UTF-7的话，我的手机(k700i)有用到… 03/04 15:23

10^F：推 ithinkurdumb:nice 03/04 17:47

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Key_Mou_Pad 板

[万能] UTF-8 与 Unicode

热门看板

赞助商连结