作者tonytonyjan (南洋大兜虫)
看板CSSE
标题Re: [问题] OCR(光学辨识)推荐书籍或函式库
时间Sat Nov 5 01:45:17 2011
我把我的问题贴在 Komica 得到的回覆贴在这里与大家分享:
无名氏: 这应该偏影像辨识的学门了 之前是有玩face Detection (rpJRwjDA 11/11/03
07:12)
无名氏: 不过那是辨识人脸的 (rpJRwjDA 11/11/03 07:12)
无名氏: 文字辨识英文的话到还好,如果你要做中文的。我想你会做到死..........
(aOLUs/V6 11/11/03 10:36)
无名氏: 中文光是常用的字,少说有5千字....... (aOLUs/V6 11/11/03 10:37)
无名氏: 不然就是要找人家做好的来套用了 (aOLUs/V6 11/11/03 10:38)
无标题 名称: 无名氏 [11/11/03(四)01:01 ID:jIVsifTM] No.6783 推
虽然我对OCR不熟,不过这个东西的确就是你的方向。
类似的应该还有车牌辨识/CAPTCHA破解之类的。
提到CAPTCHA破解我倒记得有一个很有趣的例子,
使用JavaScript实作类神经网路来破验证码。
http://ejohn.org/blog/ocr-and-neural-nets-in-javascript/
或许你也可以从这方面下手。
无标题 名称: 无名氏 [11/11/03(四)07:36 ID:OK9R6lHk] No.6784 推
http://www.google.com/insidesearch/searchbyimage.html
无标题 名称: 无名氏 [11/11/03(四)16:56 ID:a.T6EASg] No.6786 推
Google image search 是 content based 没错,但是和原 PO 的需求不同吧?
※ 引述《tonytonyjan (南洋大兜虫)》之铭言:
: 有监於在像 komica 这类的讨论版或论坛
: 回覆时都夹带图片,而图片上常常会有字幕或者是漫画角色的台词,笑果十足
: 但是要蒐集这些东西其实很累,於是我有个 idea:
: 我打算实做一个 content based image search engine
: 对图片上的文字,经过辨识之後做 indexing
: 如此只要把想要的话输入进去,就可以找到任何相关动漫或电影台词的引用图片
: (我 google 老半天发现这世界好像还没有这样的搜寻引擎,让我更想做了)
: 我有IR背景知识,但对於图形辨识完全不得其门而入
: 希望在图形辨识上有经验的人可以给我一些指引
: 我目前试过 tesseract, gocr
: 不过经过测试我发现他们似乎主力在「文件」,对於卡通图片中的文字辨识能力薄弱
: 问题:
: 1. 对於我的需求,我要找得技术是 OCR 没错吧?或者我弄错关键字了?
: 2. 如果关键字确实是 OCR,是否有其他适合辨识图画(非文件)的函式库?
: 3. 接续 2,有什麽推荐的书籍,可以学习如何实做一个 OCR system 呢?
: 感激不尽^_^
: PS.
: 这是自娱专案,有兴趣参与的人也可来信 XD
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.246.1