作者jikker (鲁蛇王)
看板DataScience
标题[情报] 手写数字资料集
时间Fri May 18 11:11:49 2018
[关键字]: 手写数字资料集
[出处]: 自己
[重点摘要]:
https://github.com/jikker/-2-digit-handwritten-number-data
自己蒐集的手写数字资料 目前已有13万张图片
MNIST的资料太漂亮了,不是真实世界会遇到的资料,
(杂讯处理的很好)
用MNIST来跑只是好看而已,辨识度99%,拿来套在真实世界,
有时连70%都达不到,这是我自己蒐集的手写数字资料,
大概有20个人左右的笔迹,持续增加中,分享给大家使用,
会有一些杂讯,但是我辨识的目标就是很容易有杂讯,
所以乾脆把杂讯也丢进去,让他自行产生抗体 XD
我目前的模型 辨识度约可达到 92%~95% (训练完,在这个资料集内随机取样辨识)
如果有大大用这些资料跑出更好的辨识度 拜托告诉我
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 219.87.162.162
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1526613112.A.233.html
1F:→ hsnuyi: 传统的DIP就可以处理"杂讯" 这年头都直接灌进CNN不预处理 05/18 13:11
2F:→ hsnuyi: 的就是了 05/18 13:11
3F:→ jikker: 我所谓的"杂讯" 是 手写文字超出格子 造成下一格会多一笔 05/18 13:46
5F:→ jikker: 请问这种的DIP要怎麽处理比较好? 05/18 13:50
6F:→ followwar: SVHN也很多这种的,就不理他 05/18 19:11
7F:推 acctouhou: Autoencoder不是可以降噪 那个套下去看看啊 05/18 21:19
8F:→ abc2090614: 感谢分享 05/19 22:18