作者Haikyuu (孔文革)
看板DataScience
标题[问题] 分类问题最後的softmax前要activation吗?
时间Mon Apr 23 21:07:20 2018
问题类别:DL
请问各位前辈
在分类的NN例如CNN+DNN 最後一层会接到softmax来map到0.0~1.0的output
那想请问最後一层(假设最後是DNN)(就是softmax前一层)
後面还要加activation function吗?
有这个疑问是因为我想到softmax是用exponential
原本就有nonlinearity的作用
前面再先经过activation function(例如reLU)
好像是多此一举?而且可能会把更多information丢掉(譬如reLU把<0的丢掉)
目前我自己实验比较有加没加在CNN实作上, 都是train的起来的
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.159.135
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1524488842.A.03F.html
1F:→ truehero: 同意 04/23 21:33
2F:推 bessgaga: 小於0的值对於softmax的值影响通常微乎其微,所以我觉得 04/23 22:15
3F:→ bessgaga: 加relu根本没差 04/23 22:15
4F:→ TOEFLiBT100: 如果所有output都是小於0呢? 04/23 22:26
5F:→ TOEFLiBT100: softmax应该还是会选出一个最靠近0的 04/23 22:26
6F:推 EGsux: softmax本身就算是 activation的一种 只是 activate 最後 04/23 22:52
7F:→ EGsux: 的是class 没有说不可以只是对结果不会有帮助 04/23 22:52
8F:推 yoyololicon: softmax只有两个class的话跟sigmoid一模一样 04/24 11:05
9F:→ yoyololicon: 你觉得呢^^ 04/24 11:05
可是无论如何你最後还是要经过softmax阿 这样梯度消失的问题还是存在
还是你认为先经过ReLU再经过softmax会让梯度消失的问题减少?
我可能不像你那麽聪明 我觉得我看不出来先经过ReLU再经过softmax对梯度消失有什麽
特别帮助
※ 编辑: Haikyuu (140.112.25.99), 04/24/2018 15:49:29
10F:推 KyotoAnime: 呃...只有最後一层softmax 应该不会有梯度消失的问题 04/24 19:00
11F:→ KyotoAnime: 吧 梯度消失是连续的sigmoid才会有吧 04/24 19:00
12F:→ TOEFLiBT100: 最後一层还是有可能梯度消失吧 如果最後都是很大的值 04/24 19:58
13F:→ TOEFLiBT100: 那gradient算出来就是0 若有错请大家指正 04/24 19:59
14F:→ TOEFLiBT100: 我上面昰假设最後接sigmoid的activation的情况下 04/24 20:44
15F:推 chadcooper: 都是很大的值还是有gradient,手动微分你会发现 04/25 00:08
16F:→ chadcooper: gradeint只跟p有关,只有p跑到1或是0时才没有gradeint 04/25 00:09
17F:推 OnePiecePR: 不用怕资讯流失,麻豆会因为relu 而找出最好的权位比 04/25 08:36
18F:→ OnePiecePR: 失去的资讯得到更好的结果。我感觉。 04/25 08:36
19F:推 h821231: 我记得softmax本身就是activation function了 04/27 02:26