Re: [讨论] L1L2正规化的物理意义。

时间Thu Jan 10 13:54:03 2019

※ 引述《peter308 (pete)》之铭言： : L1L2是一种常见的正规化技巧 : 用来降低过度拟和效应的程度 : 我最近发现其背後有非常深刻的物理意义 : 首先我们通常都会定义一个loss function 并加上L1 L2项 : https://i.imgur.com/5OUdn1e.png : 如果学过古典力学的同学应该都知道有个Euler-Lagrange eq : 而 λ1、λ2 分别对应Euler-Lagrange eq中的两个不同Lagrangian Multipliers : 後面的加总项则称为L^1 、L^2 norm : L^1 L^2 norm可以看成是两个个别的边界条件 : 所以前面那项loss function 可以看成是 δS 或是最小作用量 (least Action ) : S就是Action 通常会是Lagrangian L 的一个路径积分 S:=∫Ldt t:= time : 因为很多我们感兴趣的系统都是很复杂的 : 所以我们根本无从得知其Action或是Lagrangian的实际数学表示式， : 也就无法对其做变分来了解其动力学了。 : 所以只能用类神经网路模型或是其他的机器学习模型在数值上做逼近 : 但我觉得整个(minimize loss Function+L1L2)精神 : 和Euler-Lagrange variation Eq 是等价的 : L1 L2-norm 其实也可以推广到 L^p norm (P=0~Inf) : L^p norm 的 L其实就是 Lebesgue (一个数学家的人名) : 某个L^P 就定义出一个metric space (可以用来量测数据点之间的距离) : L^2 就是欧式空间距离 : L^1 则叫做 Manhattan norm : 所以各位可以把L1L2正规化看成是 : 引入两个L^1 metric space和 L^2 metric space边条件 : 加在原本loss function上的一种变分的数值方法 : 不过话说回来 : 怎麽知道数据点一定是在 L^1 space或是 L^2 space上呢? : 它不能再其他的 L^p space上吗?? : 简单说 : 为啥边条件只假设设定在 L^1 space 或是 L^2 space上? 这要回到最基础的回归问题我们希望找出 y = x1*beta1 + x2*beta2 ... 背後的多项式解法就是最小化 y - sum( x_i*beta_i ) x 越多会 fit 的越准( train 的情况下 )，为了避免这种极端状况要惩罚选太多变数(x) 的情况，所以变成这样 y - sum( x_i*beta_i ) + λ*sum( beta_i ) 这样如果选太多 x ( 也就是 x 前的系数 beta_i 太多不为 0 ) 会不容易让上面的式子最小化这样的好处是，我们可以知道，选哪些变数，会最小化上面的式子，也就是 variable selection L1 norm, L2 norm 只是一开始的基础想法，另外这样也不会使计算太复杂( 以前人没有电脑 ) 而 L1 norm 最大的好处，可以参考下面这张图 https://pic4.zhimg.com/v2-81b39b76d0d43229f32b216c99287a3d_1200x500.jpg

q 代表次方数, x轴y轴代表你的变数 ( x1,x2... ) 的 beta 椭圆形是( y-x*beta )我们要逼近的式子( 这有点忘了QQ ) 当椭圆与菱形交会点，就是最小化的点，也就是我们所求的多项式的 beta_i L1 norm 可以更容易接触到端点 ( 尖尖的部分 ) 这好处是，可以让其中一个变数(x) beta 为0，不去选它，这就是 variable selection 的重点，使用越少变数，去解释 model 这就是为什麽使用 L1 norm 你当然也可以用 L3,L4 等等，但其实到後面，意义就不大了我们通常都希望，找出重要变数，用越少 X 去解释 model，所以 L1 比较常用 L1 norm 还有个特别的名称， lasso lasso 後面还有更多延伸，例如针对不同 beta 使用不同 lambda，逞罚程度不同这方面有兴趣可以再 google --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.248.26.145 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1547099645.A.AE5.html

1^F：推 peter308: 感谢分享! 不知道大大对於L1 L2 也是从metric space角度 01/11 15:26

2^F：→ peter308: 思考的吗?? 01/11 15:27

3^F：→ f496328mm: 我是数学系，所以上面是数学系教的XD 01/11 20:21

4^F：→ YoursEver: 把lasso说成是L1-norm的另一个名称很怪,一般lasso是被 01/13 00:18

5^F：→ YoursEver: 当成是某个solver的地位. 若要看一些和L1有关的, 01/13 00:20

6^F：→ YoursEver: 建议可从sparse representation和soft-thresholding两 01/13 00:21

7^F：→ YoursEver: 条路一起着手. M. Elad的书 & S. Mallat 的书都有提到 01/13 00:23

8^F：推 peter308: XDD 01/13 12:33

9^F：→ peter308: 不好意思因为我是物理系 Euler-Lagrangian Eq太深植人 01/13 12:33

10^F：→ peter308: 心了~ 不过 Loss function+L1L2在我来看就是E-L eq无误 01/13 12:34

11^F：→ peter308: 如果用E-L eq去解释真的很容易理解整个流程概念为何 01/13 12:35

12^F：推 Etern: 请问为什麽交点一定是最佳解呢 01/15 11:42

13^F：→ f496328mm: 楼上你想想小时候学的，联立方程式 01/15 12:54

14^F：→ f496328mm: 两条线的交点，就是解一样的概念 01/15 12:54

15^F：推 yiefaung: L2以上圆就往外凸可以想像随着次方增长图形差距会越来 01/16 02:44

16^F：→ yiefaung: 越小到无限变成一个正方形 01/16 02:44

17^F：推 yiefaung: 次数越高等於倾向惩罚前几大的权重值 L无限就只看最大 01/16 02:52

18^F：→ yiefaung: 的权重 01/16 02:52

19^F：→ yiefaung: L无限应该满好实作的有闲可以试试看看regularize效果如 01/16 02:54

20^F：→ yiefaung: 何 01/16 02:54

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

Re: [讨论] L1L2正规化的物理意义。

热门看板

赞助商连结