作者peter308 (pete)
看板DataScience
标题[讨论] L1L2正规化的物理意义。
时间Wed Jan 9 14:32:49 2019
L1L2是一种常见的正规化技巧
用来降低过度拟和效应的程度
我最近发现其背後有非常深刻的物理意义
首先 我们通常都会定义一个loss function 并加上L1 L2项
https://i.imgur.com/5OUdn1e.png
如果学过古典力学的同学 应该都知道有个Euler-Lagrange eq
而 λ1、λ2 分别对应Euler-Lagrange eq中的两个不同Lagrangian Multipliers
後面的加总项则称为L^1 、L^2 norm
L^1 L^2 norm可以看成是两个个别的边界条件
所以前面那项loss function 可以看成是 δS 或是最小作用量 (least Action )
S就是Action 通常会是Lagrangian L 的一个路径积分 S:=∫Ldt t:= time
因为很多我们感兴趣的系统都是很复杂的
所以我们根本无从得知其Action或是Lagrangian的实际数学表示式,
也就无法对其做变分来了解其动力学了。
所以只能用类神经网路模型或是其他的机器学习模型在数值上做逼近
但我觉得整个(minimize loss Function+L1L2)精神
和Euler-Lagrange variation Eq 是等价的
L1 L2-norm 其实也可以推广到 L^p norm (P=0~Inf)
L^p norm 的 L其实就是 Lebesgue (一个数学家的人名)
某个L^P 就定义出一个metric space (可以用来量测数据点之间的距离)
L^2 就是欧式空间距离
L^1 则叫做 Manhattan norm
所以各位可以把L1L2正规化看成是
引入两个L^1 metric space和 L^2 metric space边条件
加在原本loss function上的一种变分的数值方法
不过话说回来
怎麽知道数据点一定是在 L^1 space或是 L^2 space上呢?
它不能再其他的 L^p space上吗??
简单说
为啥边条件只假设设定在 L^1 space 或是 L^2 space上?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.120.251.134
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1547015573.A.AA0.html
※ 编辑: peter308 (59.120.251.134), 01/09/2019 16:01:51
※ 编辑: peter308 (59.120.251.134), 01/09/2019 16:04:22
1F:推 robert780612: P>0就能做啊 01/13 01:09
3F:→ robert780612: s)#Generalizations_of_lasso 01/13 01:09