作者Bondrewd (The Novel)
看板DataScience
標題[問題] 請教關於Stochastic gradient descent
時間Tue Apr 3 23:54:53 2018
請教關於stochastic gradient descent
是不是batch size設越大越好? (只要在計算量 , 記憶體可負荷下)?
我有時候mini-batch SGD train的起來
有時候train不起來
我在猜是不是因為我batch size設太小的原因?
還是有可能是iteration (epoch) 次數不夠才會造成這種情況呢?
我還是新手 有google過資料 但還是不太明白這種有時候train的起來(accuration有上來
有時候train不起來 (acc上不來)
的現象的原因
先謝謝各位前輩了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.238.128.32
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1522770899.A.E47.html
1F:推 lucien0410: mini batch size 會影響acc 04/04 00:11
謝謝你的回覆
請問是batch size越大越好嗎? 我嘗試過把batch size加大
仍會有這種有時候train得起來 有時候train不起來的情況
※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:14:21
2F:推 lucien0410: 我的實驗 batch size128的時候 表現極差 但換成64後 04/04 00:14
3F:→ lucien0410: 表現好超多 04/04 00:14
你的例子是batch size比較小比較好?
我以為batch size 越小越不容易收斂? random的成分越大?
是我誤會了嗎?
4F:推 lucien0410: 我是新手小孬孬 很可能講錯 我說看看我的理解 你再跟 04/04 00:20
5F:→ lucien0410: 別人的說法交互比較 04/04 00:20
別這麼說 , 大家都是互相討論求進步 我也是新手 謝謝你願意分享
※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:24:56
6F:推 lucien0410: batch size n 就是一口氣抓n個樣本 然後根據這n個樣 04/04 00:24
7F:→ lucien0410: 本調參數 讓參數最適合這組樣本 04/04 00:24
對, 所以如果n越小 那n個樣本就比較難代表整體, 我想是這樣?
8F:推 hl4: batchsize越小隨機的成分越大,適當的隨機性質可以讓model不 04/04 00:27
9F:→ hl4: 容易困在平緩的地區,讓整體收斂速度快一點。印象中是這樣, 04/04 00:27
10F:→ hl4: 有錯麻煩糾正一下XD 04/04 00:27
h大的想法跟我的一樣(握手
※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:30:14
11F:推 lucien0410: 感覺就像圖片的畫素一樣 大batch =低畫素 04/04 00:30
12F:推 lucien0410: 所以n越大 越像母體 但犧牲掉隨機性質 04/04 00:38
13F:推 lucien0410: 但我們想要 像母體 又有適當的隨機性質 兩個相斥的願 04/04 00:40
14F:→ lucien0410: 望 04/04 00:40
15F:推 lucien0410: 有一招oversample 你可以試試 04/04 00:42
16F:推 lucien0410: 就是暴力的把所有樣本重複 我的實驗oversampling 後 04/04 00:45
17F:→ lucien0410: 模組的表現也提高很多 04/04 00:45
感謝l大的撇步分享! 我試試看
※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:53:03
18F:推 sean50301: batch size 設小一點可以避掉local minima trap 04/04 02:43
20F:→ followwar: 這篇有說一下batch size 04/04 02:59
21F:推 lucien0410: 推f大的好文分享 04/04 03:11
22F:推 hl4: 喔喔 好文好文 04/04 04:10
24F:→ lucien0410: 白話文圖解backpropagation 和stochastic gradient 04/04 11:37
25F:→ lucien0410: descent 推薦給入門的版友 (可是是英文講解) 04/04 11:38
26F:→ ssd860505da: 不同的問題適合不一樣的batch size大小 04/05 02:00
27F:推 geminitw: 你有在每個epoch 重新隨機重排你的batch 嗎? 04/05 07:07
28F:→ Bondrewd: 有 04/05 13:44