Key_Mou_Pad 板


LINE

看到有些人混用 UTF-8 与 Unicode, 想想还是出来澄清一下 「这两个东西是不一样的」 UTF-8 的 "UTF" 指的是 "Unicode Transformation Format", "Unicode 变换格式" 这是一种储存 Unicode 字元的编码方式 (下面为了说明方便起见, 以 U+ 开头的是 Unicode 的字码, 0x 开头的是一般的 bytes 编码) 为什麽要转换编码呢? 理由有好几个: 1. Unicode 一个字的字码长 32 bits, 拿来表示英文字太浪费了 (这是主要理由) 原本在 ASCII 范围内的字, Unicode 没有改变编码 0x00 到 0x7F 直接对应 U+00000000 到 U+0000007F 直接传 Unicode 的话, 就是一堆浪费空间的 0 ... 2. Unicode 字码在网路上传送的时候很难同步, 传烂一个 byte, 後面就全毁了 因为每个 byte 都有可能是 0x00 到 0xFF (第一个 byte 例外, 0x00 - 0x7F) 只要错漏了一个 byte, 就不知道该从哪边开始抓 4 bytes 当成一个字解码啦 因此後来发展出许多编码形式, 以便节省资料空间, 方便在网路上传送 其中最常用到的编码方式是 UTF-8, 它受欢迎的原因有下列几个 1. 原本的 ASCII 范围字元 (U+0000 到 U+007F) 储存方法一样, 不必改变 所以纯英文的 ASCII 文字档就是合法的 UTF-8 文字档 2. 编码结果里面不会用到 Null (0x00), \ (0x5C) 与 0xFF 有写程式的就知道这代表什麽意思 ... 3. UTF-8 可以看得出「哪边是一个字码的开始」,所以中间传烂的话不会坏一整串 比如说, 0xC0 ~ 0xDF 代表这是 2 bytes 字码的第一个 byte 0xE0 ~ 0xEF 3 bytes 0xF0 ~ 0xF7 4 bytes 0xF8 ~ 0xFB 5 bytes 0xFC ~ 0xFD 6 bytes 然後呢, 0x80 ~ 0xBF 一定是长字码後面的 bytes 传烂的话, 很容易就能抓出下一个字从哪边开始 上面有人拿 "史" 当例子, 它的 UTF-8 编码是 0xE58FB2, 解回 Unicode 就是 U+53F2 中文 (汉字) 编成 UTF-8 多半需要 3 bytes, 比以往 Big5 稍微肥一点 但是就小弟翻译的经验来看 ... 同样的意义, 英文 (ASCII) 与中文 (UTF-8) 比较 中文占用的储存空间还是比较小!! 某种角度来说, 可见中文博大精深啊! XD 感谢读完, 以後不要再把 Unicode 跟 UTF-8 搞混罗! 尤其是 Unicode (UTF-8) 这种写法, 很容易造成误会的. == 追伸 (写着写着变成进阶阅读了?) 除了 Unicode 官方文件之外, IETF 也以 RFC2044 -> RFC2279 -> RFC3629 规范 UTF-8. 为什麽要在 UTF-8 後面特别加上 "-8"? 当然是因为还有其它 UTF 啦! XD 比如说 UTF-7 (少用, 专门对付连 8-bit 都不能处理的终端机), UTF-16 (UCS-2), UTF-32 (UCS-4) 等等 这边又出现新缩写了, UCS = "Universal Character Set" 指的是 ISO 10646 这个国际标准 ISO 10646 "不等於" Unicode, 两边有着错综复杂的历史渊源 ... 不过请有兴趣的人自己查吧, 这边不谈政治 XD 原本 UCS-2 可直接对应 ISO 10646 的第 0 面 (Plane 0) 不需再次编码 也就是 "基本多语系字面" (BMP; Basic Multilingual Plane) 但是後来发现, 区区六万个码位根本不够用, 汉字之多啊 ... XD 随着 Unicode 扩充, ISO 10646-1:2000 / Unicode 3.0 / RFC2781 制定了 UTF-16 以便在大致相容 UCS-2 的情形下表示所有 Unicode 字元 (每字 31 bits) 不必编码的表示方式, 就由 UCS-4 (UTF-32) 负责承接了. 说到这个, Unicode 把汉字资料整理得不错, 有个 Unihan Database 可以看 每个汉字的笔划数、各国写法 (简繁日韩)、各国发音 (广东,国语,唐朝,音读,训读)、 各国字典部首排序 (康熙,大汉和,汉语大字典)、汉字意义 ... (例: http://0rz.net/da16Z) 最重要的是 ... 有放公开下载, 而且是很容易用程式处理的格式!!! XD 书翻完之後就用这个来做 MySQL 的中文部首、拼音、笔划排序吧 (这个有没有人有兴趣? 有的话寄个站内信给我, 光写「有」一个字也好 XD?) --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 211.74.178.119
1F:推 solaris10:请问什麽叫做「MySQL 的中文部首、拼音、笔划排序」? 03/04 13:53
2F:→ solaris10:像这样的程式吗? http://tinyurl.com/plfg3 03/04 13:55
3F:→ Tiberius:就是可以 ORDER BY 中文栏位, 依照笔画顺序显示资料 03/04 13:58
4F:→ Tiberius:您推的这个也是 Unihan Database 呀! XD 03/04 14:00
5F:推 solaris10:因为前两个礼拜刚好在研究 unihan,所以看了很多网站 03/04 14:03
6F:推 PsMonkey:..... [抬头] .... [抬头] .... [笔记ing] 03/04 14:11
7F:推 rockzero:推~~对号入座一下 :) 03/04 14:12
8F:推 bluepc:推~~ :P 03/04 14:35
※ 编辑: Tiberius 来自: 211.74.178.119 (03/04 15:19)
9F:推 blc:UTF-7的话,我的手机(k700i)有用到… 03/04 15:23
10F:推 ithinkurdumb:nice 03/04 17:47







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:iOS站内搜寻

TOP