DataScience 板


LINE

想像一個極端的情況,你在做梯度修正時,如果每次都是拿所有數據餵進去,然後再做修正,這意味著你每次送進去的數據都是一樣的,沒有任何隨機性,所以你在N維空間中走向優化解的路徑會是一條確定的路徑,不存在隨機性。 深度學習的優化解本身是個非凸問題,本質上是NP hard,你能做的是盡可能走遍歷個空間來尋找相對最優解,所以如果你使用GD(即,使用全數據做修正),你對空間的探索性就等於0,你的模型會直直的奔向最靠近起始值的local min,所以除非你運氣很好,不然你自然很容易會陷入局域最優出不來。 另一個極端是,你每次只用一個sample來做修正,每次取那個sample做修正是隨機的,這好處是你會引入最多的隨機性,所以你可以想像成系統走向最優解的過程是類似布朗運動,大方向是往local min走,但是整個過程是搖搖晃晃的,如同醉漢走路,所以你比較有機會探索到較大的空間,這就是隨機梯度下降法,SGD。 事實上在沒有GPU的時代,大家都是用SGD的,但是GPU出來以後,為了盡可能利用GPU的優勢,大家才開始引入mini batch GD,犧牲掉一些隨機性換取效率。 至於batch size該用多少?目前的文獻大致的說法是,在訓練初期最好選擇2-32之間,透過較大的隨機性,讓系統盡可能搜索較大的空間,等系統開始傾向收斂,我們就不希望隨機性這麼大,免得模型又跳出去,變得很難收斂,所以會把batch size調大,降低隨機性,從數百到一兩千都是可接受的,看你的數據量而定。 其實透過隨機性來增加模型的泛化能力是深度學習裡常見的做法,例如添加noise layer,例如dropout,甚至引入L1, L2正規化某方面也可視為引入噪音,SGD自然也是在這個體系下的做法之一。 但說歸說,在真的數據量大的時候,為了加速訓練,在訓練初期就把batch size用上好幾千的文獻也不少,只是這樣做通常需要搭配其他精巧的設計來避免上述問題。 ----- Sent from JPTT on my Asus ASUS_Z017DA. --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 67.161.8.79
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1543717965.A.62A.html
1F:推 kumitang: 長知識 12/02 12:29
2F:推 michellehot: 推比喻 12/02 13:17
3F:推 y956403: 推 12/02 13:33
4F:推 youmehim: L1, L2 regularization跟引入noise的關係該怎麼理解? 12/02 15:26
5F:→ youmehim: 我的理解是 regularization可以使得學習的機制分散在各 12/02 15:28
6F:→ youmehim: neuron 不會押寶特定neuron 所以不容易被noise影響 12/02 15:29
7F:推 abc53: 推 12/03 01:58
8F:推 watashino: 優文 推 12/10 02:11
9F:→ Helala: 推 12/10 23:38
10F:→ kiazo: local min會很容易遇到嗎?之前聽過一個說法是在high dimen- 12/14 11:15
11F:→ kiazo: sion下,要遇到local min的機率好像不高 12/14 11:16
12F:→ pipidog: @kiazo,如果這個說法成立,意味著高維問題就不用處理過擬 12/15 16:59
13F:→ pipidog: 合了,我想簡單的試試看幾個數據集就知道答案了. 12/15 17:00
14F:→ pipidog: 非凸優化為何可行還是個謎,說法太多,很多說法聽聽就好. 12/15 17:06
15F:→ pipidog: 但對於訓練初期不要使用大batch,我認為學界應該算有共識. 12/15 17:07
16F:推 show19971025: 推 08/22 18:51







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:iOS站內搜尋

TOP