作者secrob (错失)
看板HOT_Game
标题Re: [无用常识] 关於认证图的解码 - 相关系数
时间Sat Jun 23 18:01:35 2007
※ 引述《caeru (星羽)》之铭言:
: 继续无聊的骗钱讨论生涯吧Q_Q
: -----------------------------------------------------------------------------
: 所谓的相关系数,是指两笔数据其相关性,完全相同的相关系数为+1,完全相反的为-1
: 而一般使用的辨识法多半取0.5-1之间做为一个可靠度的区别
: 要使用相关系数方式,主要的机制在於使用者端,
: 也就是加载在阿发妻上的功能,如同望远镜似的辅助工具,
: 可利用资料库的内容、自己创造出来的字串图等等来做为相关性辨识的基底。
: 可由C3处取得认证图後,与手边的资料库作逐一比对的功能,
: 当两张图某种程度相似的时候,就认为他是那张图,这样可以避免randn(pix)的手段,
: 但是资料量大时速度很慢、相似门槛设定、错误率设定等等族繁不及备载的缺点,
: 导致没人想用这种方式。
: 但是就"自动化"而言,这仍是一种方式XD
: 同样的,对於自动辨识而言,或许这种想法可以引发其他更好的辨识法则也说不定(囧
: ------------------------------- 以下废屁 --------------------------------
: 真的有看完的人推个文吧 0.0
: 这样我再推出其他废屁文来娱乐(?)大众
终极的方法是,图型识别,大概可以分几步
1. 取得文字部分
可先算出图片的histogram,理论上会分成几群,每一群代表
一个字母、背景或做为杂讯的线,接着再分别对那几群做dilation後,
算出每群的左上角和右下角,如果长宽比很奇怪,例如某群的左上和右
下刚好是整张图,则知道那群颜色为背景,如果是那些杂讯线,则长宽
比会差很大,如果是字母,则比例会接近1:1。
2. 前处理
接下来把那几个认定为文字的那几群做二值化,也就是背景变
为黑,前景为白,只要找到一个threshold即可,前提是前景和背景色
彩差多一点会比较好
3. 特徵截取
把一个找到的图用线性代数的方法找其特徵值,PCA or LDA
or...但最好要有很多的图来做训练,把一些扭曲的字母都送进去做
训练是最好的,但这里要用人工切很多文字出来,如果是LDA则还要做
分类,需要大量人力
4. 辨识
经由特徵截取後会是一个较低维的数据,把这些数据送到
高斯Gaussian模型或高斯混合模型(GMM)中训练,因为有二十六个字
母,因此只需要训练二十六个model即可。
5. 语意分析
一般来说市面上的文字辨识会根据上下文来做自然语言语
意分析以提高正确率,但我们这里每个字母间没什麽意义,但是
有一个很棒的利用点 - 母音和子音,因为这个很单纯,所以就直接
假设母子母子或子母子母,例如有三个字
第一次
第一个字送 aeiouy 的model进去求机率,机率高者为辨识结果
第二个字送 子音 的model进去求机率,机率高者为辨识结果
...
第二次
第一个字送 子音 的model....
第二个字送 aeiouy的model....
...
到最後再把第一次和第二次机率高者视为辨识结果
=========================================
以上皆为嘴泡,且是直觉的做法,实际可能还有很多问题
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.139.62.246
1F:推 neoneon:泪推QQ 06/23 18:02
2F:推 Milk0210:很抱歉我看不懂..但还是给个推 06/23 18:02
3F:→ TIM751010:头推...很早开始就不是我懂的地方了 06/23 18:02
4F:推 wahaha99:高手出现了 XD 不过这个破了的话雅虎她们都要伤脑筋了 XD 06/23 18:03
5F:→ moara:台湾中情局解码部需要你 06/23 18:03
6F:推 lwei781:3 is a BIG step to take 06/23 18:05
7F:推 sunnysmart:说的简单做的难阿 06/23 18:05
8F:推 OrzGoodguy:看不懂推 打这麽多字 没有功劳也有苦劳 06/23 18:20
9F:推 karst10607:看不懂但感谢你的认真 推... 06/23 18:53
10F:推 airderek:非常难破 我对撷取部份有感觉.. 06/23 20:04
11F:→ airderek:影像处理 没有这麽简单的 光撷取建档 档案就超大的了 06/23 20:05
12F:→ airderek:撷取的速度也取决於设备.还有撷取程式的撰写品质 06/23 20:05