作者VIATOR (阿布拉卡达不拉)
看板DataScience
标题Re: [讨论] L1L2正规化的物理意义。
时间Fri Feb 1 02:27:39 2019
※ 引述《peter308 (pete)》之铭言:
: L1L2是一种常见的正规化技巧
: 用来降低过度拟和效应的程度
: 我最近发现其背後有非常深刻的物理意义
: 首先 我们通常都会定义一个loss function 并加上L1 L2项
: https://i.imgur.com/5OUdn1e.png
: 如果学过古典力学的同学 应该都知道有个Euler-Lagrange eq
: 而 λ1、λ2 分别对应Euler-Lagrange eq中的两个不同Lagrangian Multipliers
: 後面的加总项则称为L^1 、L^2 norm
: L^1 L^2 norm可以看成是两个个别的边界条件
: 所以前面那项loss function 可以看成是 δS 或是最小作用量 (least Action )
: S就是Action 通常会是Lagrangian L 的一个路径积分 S:=∫Ldt t:= time
: 因为很多我们感兴趣的系统都是很复杂的
: 所以我们根本无从得知其Action或是Lagrangian的实际数学表示式,
: 也就无法对其做变分来了解其动力学了。
: 所以只能用类神经网路模型或是其他的机器学习模型在数值上做逼近
: 但我觉得整个(minimize loss Function+L1L2)精神
: 和Euler-Lagrange variation Eq 是等价的
: L1 L2-norm 其实也可以推广到 L^p norm (P=0~Inf)
: L^p norm 的 L其实就是 Lebesgue (一个数学家的人名)
: 某个L^P 就定义出一个metric space (可以用来量测数据点之间的距离)
: L^2 就是欧式空间距离
: L^1 则叫做 Manhattan norm
: 所以各位可以把L1L2正规化看成是
: 引入两个L^1 metric space和 L^2 metric space边条件
: 加在原本loss function上的一种变分的数值方法
: 不过话说回来
: 怎麽知道数据点一定是在 L^1 space或是 L^2 space上呢?
: 它不能再其他的 L^p space上吗??
: 简单说
: 为啥边条件只假设设定在 L^1 space 或是 L^2 space上?
想深入探讨的话可以参考这本书"Statistical Learning with Sparsity"
这本书是由lasso的开发者之一,R glmnet package的作者写的,
可以google到,而且免费。
书中的图2.2即就是用Lagrangian 形式说明lasso(L1 norm)和ridge(L2 norm)背後的意义
图2.6有提到,边界条件可以有其他形式,他也说明lasso很特别,
因为lasso接近best subset selection 。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 68.181.115.215
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1548959275.A.632.html
1F:推 peter308: 推推!! 谢谢分享这本书 02/01 10:25