作者rickhsu (TINNMINN/RBSAUD)
看板PCman
标题[转录]Re: 有关 PTT 是否能输入韩文的问题
时间Thu Feb 28 18:10:24 2008
※ [本文转录自 HANGUKMAL 看板]
作者: but (←杀千刀的UAO始作俑者) 看板: HANGUKMAL
标题: Re: 有关 PTT 是否能输入韩文的问题
时间: Thu Feb 28 10:28:04 2008
: 不过,BIG-5 的推出相当仓促,很多重要的问题完全没有考量到
: 例如:没有包含日文假名、没有包含简体字、没有包含许多人名用字等等
连台湾的地名用字都狂缺
日本制定JIS一、二水准时经过全国地理用字普查
BIG-5因为是民间制作,只能拿教育部公布常用、次常用字集参考
偏偏这两套字也是在办公室里做出来的理想标准
并不是实务用字范围
: 造成 Windows 系统上的 BIG-5 是无法处理日文、俄文等等文字码
: 这个问题,到了 Windows XP 甚至是 Vista 也仍然没有解决
即使Big5-2003公布了 微软还是不想理
不像中国有法令强制作业系统编码必须合乎国家标准
其实长痛不如短痛
我觉得Windows的ANSI状态实在该改用UTF-8......
就是不知道Windows为什麽一直要用Big5
才让事情一直无法解决
: 这个东西就是 Unicode 补完计画,它的原理很简单,就是去修改对照表
: 把原本微软没有放进去的日文假名的转换部分把它加上,这样 BIG-5 就多了日文了
: 而後,这些搞 Unicode 补完计画的人食髓知味,把脑筋又动到了简体字头上
这就是内部每个人主张不同了
本来是只有一个始作俑者,只想做日文假名
虽然并不常有加入简体字的需求
但许多人都在问能不能加入日本国字 (无中文对应的日本汉字)
以及喆、堃之类的汉字
後来加入中文化联盟後,每个人都有自己想法
有人主动就试作中国海字集版 一起解决汉字问题
反正那个年代中国海字集还满多人用,讨论後想想也好,就这样公开了
接下来因为太多单向对应的字,在档案系统造成很多难懂的现象
所以讨论决定减少单向对应
清点了以後,发现GB2312范围、SJIS范围内的汉字,已经只剩几百字了
索性就全部对应下去
做到 GB2312、SJIS、Big5-HKSCS 汉字部份全面一对一对应
: BIG-5 里面有留一些区域,称为「使用者造字区」,可以让人自行造字来用
本来造字区约 6000 字
到这个阶段已经剩下不到 1000 字了
: 你现在应该可以想到,PTT 使用的是 BIG-5 编码,为何你可以看到假名和简体字?
: 没错,就是 Unicode 补完计画作祟!什麽?你说没装过 Unicode 补完计画?
: 事实上,许多 BBS 连线软体,例如 Open PCMan、PieTTY 等,直接内建了补完计画
PTT 的 UTF-8 模式也是使用补完计画的 table 在转
(就是登入时加个 . 那种)
PTT 的资料还是都存成 Big5
所以就算用 UTF-8 模式登入 PTT
在补完计画里没有对应码位的字仍无法正常储存
: 方案一:要求 Unicode 补完计画加入韩文的对应
: 韩文很科学,只有 24 个字母,可惜它的编码一点也不科学
虽然听说常用韩字只有2600个
但 Unicode 1.0 就收了 6000 个韩字
在恶名昭彰的韩字大移动後
Unicode 2.0 整整收了 11172 个完整排列组合
日本JIS跟大陆GB2312收的汉字还没有这些韩字多
只有Big5 13060字有给他比较多一点
: 简单的排列组合可以算算,韩文需要的码很是惊人
: 少说五六千个码位是跑不掉的
: 但是呢,BIG-5 使用者造字区的位置有限
: 加上一堆简体字和日本国字已经占掉很多的位置了
: 目前看来,剩下的码位要能容纳可能使用到的韩文字是不大可能了
以目前剩余1000字不足来说,这显然是收不完
: 而且,要进行韩文对应的工作,可能也要许多熟悉韩文的人来参与
: 再者,改完编码之後,还得要更新 PCMan 等程式的内建对照表
: 这,不能不说是一个大工程
如果只要放入 U+1100~U+11FF 的 Hangul Jamo 是有可能
不过UAO 2.5稳定版已经维持多年
现在改版还有多少人愿意采用也是问题
尤其是 Firefox 这种改表格又要大费周章提案的.....
: 方案二:放弃 BIG-5,全面改用 UTF-8 (Unicode 衍生出的一种编码)
: 这是一劳永逸的方法,Unicode 本来就有包括中日韩文
: 不过,需要做二件事情才能办到
: 第一、PTT 要修改程式,全面改用 UTF-8 进行储存和传输
: 第二、所有的 PTT 使用者要改用全新的能够支援 UTF-8 的连线程式
: 第一点可能 PTT 有能力办到,第二点看起来是个不可能的任务
不然就让资料存 UTF-8
碰到 ANSI client 时用补完字码表去转 Big5 了
如果 PTT 愿意的话XD
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.132.164.65
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.105.201.25