作者bokxko1023 (bokxko1023)
看板DataScience
标题[问题] L1与L2正规化的差别
时间Thu Apr 5 15:44:44 2018
在网路上看了不少文章,但还是无法理解为何L1会具有稀疏的特性?这两者的具体差别到
底是什麽呢,能用gradient descent 在微分时的差别来解释吗?
另外想请问大家是怎麽选正规化的权重alpha的?虽说知道是用trial and error,但数字
范围这麽广,有没有限缩范围的方法呢?
感谢大家
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 110.50.162.168
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1522914287.A.5DE.html
1F:推 yoyololicon: 微分後的差别吧,L2会有w,L1只剩正负号 04/05 16:03
2F:→ AmibaGelos: L2指数衰减,w不会归0.L1则是定量减少,斜率不够就会归0 04/05 17:50
3F:推 sean50301: relularization的强度 l1 norm比较强 04/05 20:02
4F:推 KSWang: 宏毅的ML有解释 今天刚好听到 数学式上解释得很清楚 04/05 23:24
5F:推 bawd968: 请问楼上是哪一部影片谢谢 04/06 03:42
8F:推 yoyololicon: 楼上的图有印象 04/06 16:00
9F:→ kevin1ptt: 图画得有点丑哈哈,不过 norm regularization term 04/06 16:00
10F:→ kevin1ptt: 可以对应到一个等价的 norm-constrained problem 04/06 16:01
11F:→ kevin1ptt: 大概是 min_x f(x) + ||x||_p^p, p = 1 or 2 可以转成 04/06 16:03
12F:→ kevin1ptt: min_x f(x), subject to ||x||_p <= C 04/06 16:04
13F:→ kevin1ptt: 楼上上的忘了加权重了QQ,不过楼上的C会根据权重决定 04/06 16:04
14F:→ kevin1ptt: 然後回到那两张图XD 灰色是f的等高线,x = [x1, x2]^T 04/06 16:05
15F:→ kevin1ptt: 然後灰色中间是minimum(这样画是假设f是棒棒convex) 04/06 16:06
16F:→ kevin1ptt: 可以看出/想像在多数convex f的情况下,当我们从最小点 04/06 16:09
17F:→ kevin1ptt: 一圈圈往外面走、直到和norm ball相切,就是找到答案了 04/06 16:10
18F:→ kevin1ptt: 然後L2 ball因为是圆圆胖胖的,所以在任何点都一样容易 04/06 16:11
19F:→ kevin1ptt: 被圈圈碰到;但L1 ball是方方尖尖的,所以圈圈很容易 04/06 16:12
20F:→ kevin1ptt: 是切在顶点,就会造成稀疏的x啦~ 04/06 16:13
21F:→ kevin1ptt: 不过这个太直观了,而且实际上也不一定会真的转换问题 04/06 16:14
22F:→ kevin1ptt: 实际上有些L1-reg.问题的解法是「刻意」弄出0的 04/06 16:15
23F:→ kevin1ptt: 比如说OWLQN会在一个维度想要变号的时候不让他变号, 04/06 16:17
24F:→ kevin1ptt: 就让他撞到0的墙,如果下一步gradient够大才让他变过去 04/06 16:18
26F:→ kevin1ptt: 这样可以让很多gradient很小的维度都被「困在」0, 04/06 16:23
27F:→ kevin1ptt: 最後的x就会一堆0 耶~(又乱画图XD) 04/06 16:24
28F:推 KSWang: 那个图片可以在轩田基石看 我之前说的在第16堂影片 04/06 20:57
29F:→ KSWang: Youtube上的就有了 04/06 20:58