作者Haikyuu (孔文革)
看板DataScience
標題[問題] 分類問題最後的softmax前要activation嗎?
時間Mon Apr 23 21:07:20 2018
問題類別:DL
請問各位前輩
在分類的NN例如CNN+DNN 最後一層會接到softmax來map到0.0~1.0的output
那想請問最後一層(假設最後是DNN)(就是softmax前一層)
後面還要加activation function嗎?
有這個疑問是因為我想到softmax是用exponential
原本就有nonlinearity的作用
前面再先經過activation function(例如reLU)
好像是多此一舉?而且可能會把更多information丟掉(譬如reLU把<0的丟掉)
目前我自己實驗比較有加沒加在CNN實作上, 都是train的起來的
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.159.135
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1524488842.A.03F.html
1F:→ truehero: 同意 04/23 21:33
2F:推 bessgaga: 小於0的值對於softmax的值影響通常微乎其微,所以我覺得 04/23 22:15
3F:→ bessgaga: 加relu根本沒差 04/23 22:15
4F:→ TOEFLiBT100: 如果所有output都是小於0呢? 04/23 22:26
5F:→ TOEFLiBT100: softmax應該還是會選出一個最靠近0的 04/23 22:26
6F:推 EGsux: softmax本身就算是 activation的一種 只是 activate 最後 04/23 22:52
7F:→ EGsux: 的是class 沒有說不可以只是對結果不會有幫助 04/23 22:52
8F:推 yoyololicon: softmax只有兩個class的話跟sigmoid一模一樣 04/24 11:05
9F:→ yoyololicon: 你覺得呢^^ 04/24 11:05
可是無論如何你最後還是要經過softmax阿 這樣梯度消失的問題還是存在
還是你認為先經過ReLU再經過softmax會讓梯度消失的問題減少?
我可能不像你那麼聰明 我覺得我看不出來先經過ReLU再經過softmax對梯度消失有什麼
特別幫助
※ 編輯: Haikyuu (140.112.25.99), 04/24/2018 15:49:29
10F:推 KyotoAnime: 呃...只有最後一層softmax 應該不會有梯度消失的問題 04/24 19:00
11F:→ KyotoAnime: 吧 梯度消失是連續的sigmoid才會有吧 04/24 19:00
12F:→ TOEFLiBT100: 最後一層還是有可能梯度消失吧 如果最後都是很大的值 04/24 19:58
13F:→ TOEFLiBT100: 那gradient算出來就是0 若有錯請大家指正 04/24 19:59
14F:→ TOEFLiBT100: 我上面昰假設最後接sigmoid的activation的情況下 04/24 20:44
15F:推 chadcooper: 都是很大的值還是有gradient,手動微分你會發現 04/25 00:08
16F:→ chadcooper: gradeint只跟p有關,只有p跑到1或是0時才沒有gradeint 04/25 00:09
17F:推 OnePiecePR: 不用怕資訊流失,麻豆會因為relu 而找出最好的權位比 04/25 08:36
18F:→ OnePiecePR: 失去的資訊得到更好的結果。我感覺。 04/25 08:36
19F:推 h821231: 我記得softmax本身就是activation function了 04/27 02:26