作者jikker (魯蛇王)
看板DataScience
標題[情報] 手寫數字資料集
時間Fri May 18 11:11:49 2018
[關鍵字]: 手寫數字資料集
[出處]: 自己
[重點摘要]:
https://github.com/jikker/-2-digit-handwritten-number-data
自己蒐集的手寫數字資料 目前已有13萬張圖片
MNIST的資料太漂亮了,不是真實世界會遇到的資料,
(雜訊處理的很好)
用MNIST來跑只是好看而已,辨識度99%,拿來套在真實世界,
有時連70%都達不到,這是我自己蒐集的手寫數字資料,
大概有20個人左右的筆跡,持續增加中,分享給大家使用,
會有一些雜訊,但是我辨識的目標就是很容易有雜訊,
所以乾脆把雜訊也丟進去,讓他自行產生抗體 XD
我目前的模型 辨識度約可達到 92%~95% (訓練完,在這個資料集內隨機取樣辨識)
如果有大大用這些資料跑出更好的辨識度 拜託告訴我
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.162.162
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1526613112.A.233.html
1F:→ hsnuyi: 傳統的DIP就可以處理"雜訊" 這年頭都直接灌進CNN不預處理 05/18 13:11
2F:→ hsnuyi: 的就是了 05/18 13:11
3F:→ jikker: 我所謂的"雜訊" 是 手寫文字超出格子 造成下一格會多一筆 05/18 13:46
5F:→ jikker: 請問這種的DIP要怎麼處理比較好? 05/18 13:50
6F:→ followwar: SVHN也很多這種的,就不理他 05/18 19:11
7F:推 acctouhou: Autoencoder不是可以降噪 那個套下去看看啊 05/18 21:19
8F:→ abc2090614: 感謝分享 05/19 22:18