作者PyTorch (屁眼火炬)
看板DataScience
标题[问题] Convolution层之间的activation function
时间Sat Apr 21 18:13:09 2018
问题类别:CNN
想请问一下convolution层之间加activation function的意义是什麽?
我不太清楚
如果两个convolution之间没有activation function不也可以运作吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.136.148.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1524305591.A.0A5.html
1F:推 seasa2016: 这个概念似乎是从神经科学来的? 04/21 18:38
2F:→ seasa2016: 没有activation function 那跟连续的矩阵乘法差在哪呢 04/21 18:40
3F:→ seasa2016: ? 04/21 18:40
4F:→ seasa2016: 或许是提供了非线性的概念吧 04/21 18:40
5F:推 goldflower: 这题目蛮有趣的耶 虽然conv间是线性 04/21 18:51
6F:→ goldflower: 但是max-pooling就提供了non-linear 我能想像的就是 04/21 18:52
7F:→ goldflower: 在cnn的概念上我们每一层都还是某种抽象程度的图像 04/21 18:53
8F:→ goldflower: 所以我们让每个"pixel"都还是>=0才有物理意义 04/21 18:53
9F:→ goldflower: 不知道有没有高手有更理论上的解释? 04/21 18:53
11F:→ goldflower: 以李弘毅这则影片的角度来看 似乎max在拟合函数的 04/21 19:04
12F:→ goldflower: 能力应该是弱於relu的 04/21 19:04
13F:推 lunashining: 先去看logistic regression.... 04/21 20:19
14F:推 yoyololicon: 同楼上,非线性是很重要的基本概念... 04/21 23:08
15F:→ yoyololicon: 真实世界的模型几乎不会有线性的 04/21 23:09
16F:推 johnny8376: 1楼是对的。把NN想成一连串的合成函数,也就是线性函 04/22 06:12
17F:→ johnny8376: 数->激活函数->线性函数->激活函数->...如果激活函数 04/22 06:12
18F:→ johnny8376: 都是线性,那NN拟合出来就是线性的。 04/22 06:12
20F:→ Kazimir: 各种结构的review 线性比非线性网路低了7%准确度 04/22 07:03
21F:推 goldflower: 没人能回答我问题吗QQ 04/22 11:54
22F:→ Mchord: deep learning是universal function approximator 04/22 14:22
23F:→ Mchord: 物理意义都是硬解释出来的比较多,倒回去找你觉得有意义的 04/22 14:22
24F:→ Mchord: 出来解释当然没问题,但我觉得还是不要过度解释比较好 04/22 14:25
26F:推 Kazimir: 我把影片看完了 可是没看到有提到mp提供非线性的证据啊? 04/22 14:54
27F:→ Kazimir: 而且每一层的feature map的确pca降维以後还是会有原来的 04/22 14:56
28F:→ Kazimir: 空间关系 04/22 14:56
29F:→ TOEFLiBT100: max out是非线性阿,ReLu就是maxout的一个特利 04/22 16:38
30F:→ TOEFLiBT100: *特例 04/22 16:39
31F:推 Kazimir: 我没有看过goodfellow那篇,不过里面有一段话 04/22 17:09
33F:→ Kazimir: mp+relu 约等於 = maxout 这样看来mp不见得有非线性吧? 04/22 17:13
34F:→ Mchord: 线性是有定义的,max pooling不满足f(x+y)=f(x)+f(y)吧 04/22 18:44
35F:推 goldflower: 我指依照那种证明方式 我觉得maxpooling并没办法提共 04/22 19:23
36F:→ goldflower: 高於relu的拟合度 04/22 19:23
37F:推 goldflower: 我也是觉得物理意义都是硬套居多 所以希望有更数学上 04/22 19:27
38F:→ goldflower: 推bound的方式 04/22 19:27
39F:推 goldflower: 我贴的那个影片完全没有要说明maxpooling是不是线性 04/22 19:35
40F:→ goldflower: 我想你找个例子代定义就会知道他不是线性 04/22 19:35
41F:推 goldflower: M大那个晚点来看看@@ 04/22 19:40
42F:推 Kazimir: 我那个时候疑惑的地方是当然max(x1,x2)是非线性 04/22 22:37
43F:→ Kazimir: 可是mp是在不同dim上 要怎麽套定义上去比较疑惑 04/22 22:38
44F:推 goldflower: 你先假设1x1 kernel 04/24 13:12
45F:→ goldflower: 这样不同层的运算就相当於对不同scale去做pooling 04/24 13:12
46F:→ goldflower: 那应该就能直接套定义了吧 04/24 13:13
47F:→ goldflower: 不过我是觉得直接算就非线性 不同层直接loss掉资讯 04/24 13:13
48F:→ goldflower: 很直觉的就更非线性了 04/24 13:13
49F:→ Mchord: max([1,-1]) + max([-1,1]) != max([1+(-1),-1+(1)]) 04/24 20:00
50F:推 windg: max pooling 虽是非线性的没错 但他不足以满足增加整个模 06/03 05:27
51F:→ windg: 型的非线性程度 他基本上是在每层之间放弃一些数字,可以 06/03 05:27
52F:→ windg: 想像是种非线性的down sampling. 他并没有真的帮模型增加 06/03 05:27
53F:→ windg: 非线性程度 06/03 05:27