作者f496328mm (123)
看板DataScience
标题Re: [讨论] L1L2正规化的物理意义。
时间Thu Jan 10 13:54:03 2019
※ 引述《peter308 (pete)》之铭言:
: L1L2是一种常见的正规化技巧
: 用来降低过度拟和效应的程度
: 我最近发现其背後有非常深刻的物理意义
: 首先 我们通常都会定义一个loss function 并加上L1 L2项
: https://i.imgur.com/5OUdn1e.png
: 如果学过古典力学的同学 应该都知道有个Euler-Lagrange eq
: 而 λ1、λ2 分别对应Euler-Lagrange eq中的两个不同Lagrangian Multipliers
: 後面的加总项则称为L^1 、L^2 norm
: L^1 L^2 norm可以看成是两个个别的边界条件
: 所以前面那项loss function 可以看成是 δS 或是最小作用量 (least Action )
: S就是Action 通常会是Lagrangian L 的一个路径积分 S:=∫Ldt t:= time
: 因为很多我们感兴趣的系统都是很复杂的
: 所以我们根本无从得知其Action或是Lagrangian的实际数学表示式,
: 也就无法对其做变分来了解其动力学了。
: 所以只能用类神经网路模型或是其他的机器学习模型在数值上做逼近
: 但我觉得整个(minimize loss Function+L1L2)精神
: 和Euler-Lagrange variation Eq 是等价的
: L1 L2-norm 其实也可以推广到 L^p norm (P=0~Inf)
: L^p norm 的 L其实就是 Lebesgue (一个数学家的人名)
: 某个L^P 就定义出一个metric space (可以用来量测数据点之间的距离)
: L^2 就是欧式空间距离
: L^1 则叫做 Manhattan norm
: 所以各位可以把L1L2正规化看成是
: 引入两个L^1 metric space和 L^2 metric space边条件
: 加在原本loss function上的一种变分的数值方法
: 不过话说回来
: 怎麽知道数据点一定是在 L^1 space或是 L^2 space上呢?
: 它不能再其他的 L^p space上吗??
: 简单说
: 为啥边条件只假设设定在 L^1 space 或是 L^2 space上?
这要回到最基础的回归问题
我们希望找出 y = x1*beta1 + x2*beta2 ... 背後的多项式
解法就是最小化 y - sum( x_i*beta_i )
x 越多会 fit 的越准( train 的情况下 ),为了避免这种极端状况
要惩罚选太多变数(x) 的情况,所以变成这样
y - sum( x_i*beta_i ) + λ*sum( beta_i )
这样如果选太多 x ( 也就是 x 前的系数 beta_i 太多不为 0 )
会不容易让上面的式子最小化
这样的好处是,我们可以知道,选哪些变数,会最小化上面的式子,
也就是 variable selection
L1 norm, L2 norm 只是一开始的基础想法,
另外这样也不会使计算太复杂( 以前人没有电脑 )
而 L1 norm 最大的好处,可以参考下面这张图
https://pic4.zhimg.com/v2-81b39b76d0d43229f32b216c99287a3d_1200x500.jpg
q 代表次方数, x轴y轴代表你的变数 ( x1,x2... ) 的 beta
椭圆形是( y-x*beta )我们要逼近的式子( 这有点忘了QQ )
当椭圆与菱形交会点,就是最小化的点,也就是我们所求的多项式的 beta_i
L1 norm 可以更容易接触到 端点 ( 尖尖的部分 )
这好处是,可以让其中一个变数(x) beta 为0,不去选它,
这就是 variable selection 的重点,使用越少变数,去解释 model
这就是为什麽使用 L1 norm
你当然也可以用 L3,L4 等等,但其实到後面,意义就不大了
我们通常都希望,找出重要变数,用越少 X 去解释 model,所以 L1 比较常用
L1 norm 还有个特别的名称,
lasso
lasso 後面还有更多延伸,例如针对不同 beta 使用不同 lambda,逞罚程度不同
这方面有兴趣可以再 google
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.248.26.145
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1547099645.A.AE5.html
1F:推 peter308: 感谢分享! 不知道大大对於L1 L2 也是从metric space角度 01/11 15:26
2F:→ peter308: 思考的吗?? 01/11 15:27
3F:→ f496328mm: 我是数学系,所以上面是数学系教的XD 01/11 20:21
4F:→ YoursEver: 把lasso说成是L1-norm的另一个名称很怪,一般lasso是被 01/13 00:18
5F:→ YoursEver: 当成是某个solver的地位. 若要看一些和L1有关的, 01/13 00:20
6F:→ YoursEver: 建议可从sparse representation和soft-thresholding两 01/13 00:21
7F:→ YoursEver: 条路一起着手. M. Elad的书 & S. Mallat 的书都有提到 01/13 00:23
8F:推 peter308: XDD 01/13 12:33
9F:→ peter308: 不好意思 因为我是物理系 Euler-Lagrangian Eq太深植人 01/13 12:33
10F:→ peter308: 心了~ 不过 Loss function+L1L2在我来看就是E-L eq无误 01/13 12:34
11F:→ peter308: 如果用E-L eq去解释 真的很容易理解整个流程概念为何 01/13 12:35
12F:推 Etern: 请问 为什麽交点一定是最佳解呢 01/15 11:42
13F:→ f496328mm: 楼上你想想小时候学的,联立方程式 01/15 12:54
14F:→ f496328mm: 两条线的交点,就是解 一样的概念 01/15 12:54
15F:推 yiefaung: L2以上圆就往外凸 可以想像随着次方增长图形差距会越来 01/16 02:44
16F:→ yiefaung: 越小 到无限变成一个正方形 01/16 02:44
17F:推 yiefaung: 次数越高 等於倾向惩罚前几大的权重值 L无限就只看最大 01/16 02:52
18F:→ yiefaung: 的权重 01/16 02:52
19F:→ yiefaung: L无限应该满好实作的 有闲可以试试看看regularize效果如 01/16 02:54
20F:→ yiefaung: 何 01/16 02:54