作者empireisme (empireisme)
看板DataScience
标题[问题]mini batch 和 SGD的一些问题
时间Wed Mar 25 12:27:11 2020
https://imgur.com/ZNJfGFm
最近在看 台大美女老师的TY频道
看到的这张图 觉得产生了以下疑惑
请问accuracy会随mini batch 下降後又上升是甚麽原理
有任何理论阐述了为何会下降後又上升吗
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 219.91.75.186 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1585110434.A.A8E.html
※ 编辑: empireisme (219.91.75.186 台湾), 03/25/2020 12:29:50
1F:推 krusnoopy: 要搭配training time一起下去看 他意思是batch 10 03/25 13:27
2F:→ krusnoopy: 只要train 很少的时间 就可以达到跟SGD差不多的acc. 03/25 13:27
3F:→ krusnoopy: 後面因为size变大 矩阵的运算较久 就不能花很少的时间 03/25 13:28
4F:→ krusnoopy: 就达到跟SGD差不多的效果 03/25 13:28
5F:→ krusnoopy: 总结来说 batch size变大 你train很久的话 acc.还是 03/25 13:29
6F:→ krusnoopy: 可以达到一定水准 不是只单纯说batch变大 准确率变低 03/25 13:29
7F:推 krusnoopy: 前面为什麽batch 10比SGD好的原因是: 如果算10个点的 03/25 13:37
8F:→ krusnoopy: gradient跟算1个点的gradient差不多快 那10一定比1好 03/25 13:37
9F:→ empireisme: 了解! 03/25 16:49
10F:推 OnePiecePR: 推 K 大 03/26 13:45