作者brendonfish (fish)
看板Cognitive
标题Re: [讨论] 数学,语言与脑
时间Fri Feb 5 14:57:02 2010
※ 引述《jokker (微雨从东来)》之铭言:
: ※ 引述《Wengboyu ( )》之铭言:
: : 不知道有没有相关的研究,但是
: : 所有的文字都是抽象的,没有一个文字是具体的
: : 中文跟现在其他的语言雷同,不具有象形功能
: : 中文的使用者并没有比英文使用者使用更多的视觉区
: : 你举的那个例子"马皇" 就跟英文的Impossible(I'm possible)一样
: : 没有比较特殊。
: : 大部分的字型已经看不出原型,研究上也没有发现在看这些字的时候
: : 会动用到较多的视觉区
: 再饶舌一下
: 我觉得这边推论有点不太理解
: 如果中文跟英文的辨识, 对人脑来说, 没有特殊的地方
: 为什麽对电脑来说, 两种是很不相同的??
: 举例来说, 每个中文字的像素都比较多
: 解晰完像素, 之後就要去查表, 找出字元来, 这边也要占用很多运算时间
: 找到中文的unicode之後, 这边还要自己稍微校正一下, 找出正确的字
: 但是英文的辨识率, 正确度就很高, 比中文高很多
: 把电脑当成很笨的单细胞生物好了, 它在处理中文字的效率上明显差很多
: 而且很大的资源是花在辨识字上面
: 也就是视觉处理上头
: 比照外国人学中文来说, 他们也是认汉字效率差很多
: 如果不必花比较多的视觉处理, 经过一段时间的学习
: 他们认英文字的速度, 应该跟中文很接近
: 人脑是用什麽技巧, 才可以让辨识英文跟中文是差不多的呢?
资讯科学上常希望用一套演算法,就区辨出所有的文字,
一般的原理,是分析比较文字与范本文字的相似度,然後选出最相似的字,
不同的演算法会根据文字的像素资讯,设计不同推算相似的的方法。
人脑不太一样的地方,在於它常会交叉采用许多策略,
举例来说,文字辨识器常傻傻分不清"间"、"问",
而人看到这两个字时,通常不会只看外型,还会细看门里是"口"还是"日",
考量这点,实务上,很多分类器也会采用不只一个方法了,
印象中现在印刷体、不考虑罕见字的话,
辨识率已经远超过 95% ,
书写体应该中英文都还不好辨认。
人还有另一个策略,就是能靠前後文的语意推算字,
因此,就算一段话的某个字 见了,你还是有机会猜出来。
这部分电脑还要多跟人类学。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 99.56.240.249
※ 编辑: brendonfish 来自: 99.56.240.249 (02/05 15:54)
1F:→ hermitwhite:我想英文以字母为单位作为辨识中心也是比较容易辨识的 02/07 13:39
2F:→ hermitwhite:原因之一;相较之下中文的辨识比较难采用这种切割开来 02/07 13:40
3F:→ hermitwhite:的策略(因为我们的中文编码系统中不包含字根),一次 02/07 13:41
4F:→ hermitwhite:要辨识整个字的难度就大为提高了。 02/07 13:42
5F:→ brendonfish:嗯!我看过某些中文辨识系统采用先断字再辨认的策略, 02/07 15:49
6F:→ brendonfish:而在断字的时候就错了。 02/07 15:50