作者empireisme (empireisme)
看板DataScience
標題[問題]mini batch 和 SGD的一些問題
時間Wed Mar 25 12:27:11 2020
https://imgur.com/ZNJfGFm
最近在看 台大美女老師的TY頻道
看到的這張圖 覺得產生了以下疑惑
請問accuracy會隨mini batch 下降後又上升是甚麼原理
有任何理論闡述了為何會下降後又上升嗎
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.75.186 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1585110434.A.A8E.html
※ 編輯: empireisme (219.91.75.186 臺灣), 03/25/2020 12:29:50
1F:推 krusnoopy: 要搭配training time一起下去看 他意思是batch 10 03/25 13:27
2F:→ krusnoopy: 只要train 很少的時間 就可以達到跟SGD差不多的acc. 03/25 13:27
3F:→ krusnoopy: 後面因為size變大 矩陣的運算較久 就不能花很少的時間 03/25 13:28
4F:→ krusnoopy: 就達到跟SGD差不多的效果 03/25 13:28
5F:→ krusnoopy: 總結來說 batch size變大 你train很久的話 acc.還是 03/25 13:29
6F:→ krusnoopy: 可以達到一定水準 不是只單純說batch變大 準確率變低 03/25 13:29
7F:推 krusnoopy: 前面為什麼batch 10比SGD好的原因是: 如果算10個點的 03/25 13:37
8F:→ krusnoopy: gradient跟算1個點的gradient差不多快 那10一定比1好 03/25 13:37
9F:→ empireisme: 瞭解! 03/25 16:49
10F:推 OnePiecePR: 推 K 大 03/26 13:45