作者Frozenmouse (*冰之鼠*)
看板Liu
标题Re: [讨论] 呒虾米规则和中文日文韩文大一统
时间Wed Jul 1 09:57:58 2015
来试试看用平板回文…XD
※ 引述《deltazone (洋葱)》之铭言:
: 没错! andriod手机的limd-hd输入法打呒虾米已经是这样了!
: 也就是我说的"大字库"概念,但没有(简日繁)模式可改变!
: 且limd-hd混杂了未完成码先出现的概念(如打lul後面选字会出现lulk "袭")
: 这个先不提,不要混淆了!
部分取码这个和我们现在讨论的的确比较没关系XD
不过既然提到 Lime HD,稍微提一下模式转换的问题
在 Windows 底下,有大家熟知的 ,,T ,,J 之类的方式可以切换模式
(Win8 的 TSF 版好像没有?待查证)
Android 虾也有左右滑动空白键的方式来切换
但是像 Lime HD、gcin、ibus 等等的通用输入法框架
则需要通过独立安装字码表,以各别独立的输入法看待
看起来通用输入法框架似乎比较弱
但我觉得只是 Win 版和 Android 版把问题隐藏起来了
所以就算「大字库」真的完成了,为了支援语言切换
还是会面临到同样的问题
你需要为各个语言模式提供尽尽排序不同的编码表
不过我个人很期待它的完成
现在生活中偶尔也会出现一些罕用字与和制汉字
为了它们,我得特地去切换输入法,输个一两字再回来
某方面来说也满累的
在 Unicode 当道的时代
我认为已经不适合再用语言模式去区分能输入的字了
像那个我们已经讲到烂了的「鱇」XD
: ======================================================================
: 最後提出当初想改变呒虾米,为何会想这麽改变的思路想法(除了推广呒虾米之外)
: 主要要说明的有下面两点:
: 一、大字库 和 大一统东亚文字
: 二、模式(日繁简韩)独立
: ==========================================================================
: 一、大字库 和 大一统东亚文字:
: 呒虾米是一个输入法!
: 那电脑文字内码,其实也是一种输入法
: (这里所说的电脑文字内码是如 GB 和 Big5 姑且称为 [电脑内码] )
: 为何说电脑内码是一种输入法?!
: 因有一种输入法是输入内码 (中文的电脑内码) 码号,然後就可以打出中文
: (我想这种输入法日常应该没人用,谁会去记无逻辑的电脑内码)
: 其实呒虾米的编码概念(或其他任何输入法皆相似)
: 可以把它类比成 "电脑内码"
: (如lul=龙,lul是"龙"的码)
大致是可以这样类比
其实内码输入是最极端的输入法了
对全文字提供绝对的支援,但前提是你要查得出编码…
: 最初"电脑内码"多是像 shift_jis(日文) big5(繁体) 和 GB(简体)等 一样
: *****一种语言文字,一种"电脑内码"去做对应*****
: 现今不同语言文字,有不同的输入法(如 日文 繁中 简中 等),也如上面一样
: 到此我的思路为:
: 类比: "不同语言文字的输入法" = "不同语言文字的电脑内码"
: 例如: (新注音输入法 vs 日文xx输入法) = (big5(繁中) vs shift_jis(日文) )
: 只使用中文的电脑内码(如:big5),无法解开日文的电脑内码(如shift_jis)的文字
: (不同语言的电脑内码,无法解开其他语言的电脑内码!!)
: 不同语言的输入法也一样,无法打出彼此的文字
: (如:注音输入法 无法打出韩文!)
: *****後来,电脑内码完善了 unicode ,且经过多次的修正
: 把全世界的各种文字和符号做大一统!!!!
: (虽然GB BIG5 等等的电脑内码还存在,但使用unicode编码(内码) 非常很盛行! )
: ////以上就是我想把呒虾米变成像unicode一样,做大一统的思路,所以才会有"大字库"
: 和"一统东亚文字"的想法
: ///电脑内码从每种文字一种字码(如:GB和big5),
: 到unicode大一统,所有语言文字全包
: ///灵感 就是想把呒虾米变成像unicode大一统的的概念
: 一定有人质疑把呒虾米变成大一统的好处呢?
: 那我想"假装质疑",为何unicode要大一统所有各国的文字?????? XD
: 以前那样分成GB big5 shift_jis等等各国不同的电脑内码,不是也可以阅读各国文字
: (类比成想打日文就用日文输入法,想打韩文就用韩文输入法)
: unicode何必如此大工程的搞一个大一统呢!?
来回答你的假质疑wwwwww
Unicode 要解决的是资料交换的问题
以前各国各文字都用不同的编码,在资料交换时还得经过对映的手续
你还得清楚知道你的来源编码、目标编码是什麽
就像你先前提的,编楼不对就解不对文字
明明是 big5 却用 latin-1 去解,那就会看到一堆乱码
平平都是日文,你用 euc-jp 解 sjis 的文件也还是会错
在近十几年来,中日逐渐交流频繁,在中文穿插日文的机会大幅上升
但自然是不可能在同一个文件中使用两种编码
於是就出现了「樱花输入法」
与「Unicode 补完计画(现有代码 big5-uao)」
这两个让人又爱又恨的东西
爱的是它确实解决了日文在繁中 big5 编码下的问题
恨的是它不是标准,它没有内建,就像户政造字自爽一样
假设全世界都用同样的编码交换资料,编码转换的问题也就消失了
我认为这是 Unicode 存在的意义,它把编码统一的理由在这
而且是国际标准,简单说就是放诸四海皆准
同时,在不同编码间转码的时候也能作为中介参照
原本的多对多关系,可以大量简化为多对一对多的两层对照关系
转码的工程就小很多了
(虽然说到这还是无法理解 Unicode 8.0 为何加入独角兽图案…)
而最近全球化的发展更让国与国之间的语言界线不再绝对
近几年 Unicode 已经足够流行了
在网路上若看到还维持大五码或 sjis 等本地编码的网页
大多不是食古不化的机关设置的,就是从以前沿用到现在的
而也像我之前说的,和制汉字有回流至中文的状况
一般使用中文也可能会不自觉要打那些汉字
基於以上理由,我认为无虾米现行的模式切换稍嫌与时代脱节
而你提出的「大字库」试图突破模式间的隔阂,我认为这是主要价值
: 有人一定会质疑,输入法和电脑内码还是有所不同,
: 但不想多讲了XD 因为会一直绕圈子!XD
: 思路如上!
那我再多嘴一下好了(遮脸)
输入法就是接受使用者的输入,经过转换之後输出成特定的字句
使用者的输入是有一定逻辑的,可想成是经过某种编码
就算是内码输入也是如此
就这点而言,把使用者的输入类比成对字的编码,我个人没什麽意见XD
: ===========================================================================
: 二、模式(日简繁)独立
: 而unicode有一个东西叫做 "中日韩统一表意文字"
: 其做法如何呢?! 如:户 户 戸(繁 简 日) 都把它的内码编为U+6236
: 因为都是同一个意思,所以订定为同一编码!
: 但是怎麽会看起来不一样,因为使用 "繁简日 各自的字型" 去区隔
: (大致是这样,细节其他先不要追究了!XD)
: 所以会有三种不同的 "户""户""戸"
虽然我懂你的意思,但歹势,这好是没统一到的反例XD
中文维基这里写得很矛盾,同时举它为统一和未统一的例字
事实上
户 = U+6236
户 = U+6237
戸 = U+6238
不过论述大致上无误
: 而我所想改变後的呒虾米,
: 其中"模式" 就类比为 "字型" ,有前面unicode的包山包海的概念,
: 然後使用一个东西独立去 "分野"各种不同的语言文字
: ///这里重点只有一个, "分野" 各种不同的语言文字
: ///我改变後的呒虾米,是以各种模式(日简繁)去分野不同语言文字的输入
: ///日文 繁中 简中 分别有三种不同的字型,去区隔,且字型间彼此独立,
: 但是其电脑内码 都在unicode的"大字库"中!
这类比我觉得 OK
「户」就放繁中第一顺位
「户」就放简中第一顺位
「戸」就放日文第一顺位
基本编码共享,唯排序根据语言做最佳化
而若我的认知没错,你的「大字库」概念是更进一步的
把「龙、竜、龙」一类的「多语同义汉字(暂称)」也做整合
考虑到的是更广的范围
: ==========================================================================
: 表达不是很好!
: 没有办法说服大家 呒虾米大一统东亚文字的野心和盼望XD,
: 但目前大家也都没办法说服我 大一统这个概念是个没必要的构想XD
: 这篇是以我想把呒虾米输入法做大一统的灵感来源之一
: 但还望呒虾米能大力推广 广泛流传下去XD
: 只是不想在推广上着墨了!说多了! 且一直打转! 等於没说! (泪)
我个人也是希望呒虾米更好
在电脑上、在行动装置上,它还有很多可以改进的地方
推广则涉及太多方面的因素,我想像力真的不太够 orz
-----
Sent from JPTT on my Htc Nexus 9.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.109.225
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Liu/M.1435715889.A.868.html
※ 编辑: Frozenmouse (122.116.109.225), 07/01/2015 10:03:03
1F:推 deltazone: 户户戸 的unicode编码的确如你说的 不同编码 07/01 16:44
2F:→ deltazone: 维基百科 有误?!XD 07/01 16:47
3F:→ deltazone: 当初unicode的字码 和 字型 概念不知从哪 爬文看到XD 07/01 16:48
4F:→ deltazone: 所以举了个烂例子XD 还是unicode後来的修订编码有改??? 07/01 16:49
5F:→ deltazone: 先不理这个了XD 但概念思路大致如上 07/01 16:50
6F:→ deltazone: 另外 你说的没错 是"编码共享"的概念 口拙还 是你高竿! 07/01 16:52
7F:推 deltazone: 另外你说的"多语同义汉字" 现在虾米已经有了 ! 07/01 16:54
8F:→ deltazone: 只是在编码上"多语同义汉字"重叠码,但选字方面没有 07/01 16:57
9F:→ deltazone: 另还有你说的缺口问题 07/01 16:58
10F:推 deltazone: 另外最开头的编码表问题 07/01 17:01
11F:→ deltazone: 其中说到编码表排序 我最开始想到的是 用资料库的样式 07/01 17:02
12F:→ deltazone: 只用一张编码表 然後表格後 标示 这个码为简繁日文 07/01 17:03
13F:→ deltazone: 标示 是否为常用字 去影响选字的排序 07/01 17:04
14F:→ deltazone: 还有其他的标示等去影响选自顺序 有点像 搜寻 的概念 07/01 17:06
15F:→ deltazone: 输入法实际是否可以或方便这麽做 还需要软体工程师 07/01 17:07
16F:→ deltazone: 如果有问题 就像你说的 每个模式 一个不同顺序的编码表 07/01 17:09
17F:推 deltazone: ================================================== 07/01 17:16
18F:→ deltazone: Frozenmouse大的叙述 比我好太多了! 就是我要表达的! 07/01 17:19
19F:推 deltazone: ================================================= 07/01 17:27
20F:→ Frozenmouse: 维基有错其实很常见…XD 07/01 18:48
21F:→ Frozenmouse: 还好没会错意,怕是我讲错搞错你的意思XD 07/01 18:52
22F:推 maply0703: 其实就我个人来说反而不太喜欢分字表或切换式方式 07/03 10:02
23F:→ maply0703: 因为本来就是以繁中为主,会打其它语字汉字不是常用 07/03 10:03
24F:→ maply0703: 所以反而是统一字码表,同码选字的方式比较适合我 07/03 10:04
25F:→ maply0703: 这样需要打这些少用字时反而方便 07/03 10:04
26F:→ deltazone: 嘿呀! 不影响平常打字速度的状态下! 选字有其方便性! 07/03 10:24