作者znmkhxrw (QQ)
看板Math
标题Re: [微积] 关於Lagrange multiplier的课文内容
时间Tue Nov 22 12:07:30 2022
※ 引述《attack2000 (柏修斯)》之铭言:
: 以下是课文内容:
: https://i.imgur.com/OKQhYhj.jpg
: https://i.imgur.com/MjdheK4.jpg
: 我看了半天,还是不知道这个部份的数学式想表达什麽
: 因为这本课本只是把Lagrange multiplier当成一种工具介绍,所以没有对它进行详细的说
: 明。
: 希望板友能告诉我,课文的这部份主要是在写些什麽,谢谢。
:
想了很久要怎麽切入以及顺序, 最後决定用以下这几个段落说明
重点在【定理步骤解释】, 只是怕里面有些名词看不懂所以建议照顺序阅读
【前言】
Lagrange乘数法最粗浅的理解就是会算就好, 最深的理解就是高微的隐函数定理去叙述
与证明。而过渡的理解包括: (1) n=2,m=1 或是 n=3,m=1的等高线示意图
(2) 泰勒展开式的简易忽略
(3) any other...
只要某个理解是读者的数学背景可以接受的, 那对他而言就是好的理解方式
不过过渡的理解方式都有不严谨的地方, 视个人感受度忽略即可
这篇是采取严谨的叙述加入几何的概念, 算是非常逼近最深的理解方式
不过强调一点是, 严格证明仍是
避不开隐函数定理, 因为几何性质就是由隐函数定理得到
只是几何(切平面)有图形比较容易接受, 有这图形当桥梁就可忽略隐函数定理
【切入步骤】
Step1: 从原PO图片的结果(即L乘数的计算方式)看似单纯只会偏导数即可
Step2: 引入线性代数的概念, f的梯度▽f可写成▽g_k的线性组合
Step3: 引入切平面的概念, 与坊间的等高线解释方式是相容的
因此, L乘数的严格几何解释即是高微+几何+线代的综合体罢了
【先备知识】
(1) 令S是R^n的集合, p€S
在p点的切平面
T_p(S)定义为
在p点的所有切线成的集合
即 T_p(S) := {α'(0)│α:(-a,a)→S, α(0)=p, α在0可微}
P.S. T_p(S)很可能因为S在p点附近长的很崎岖而导致所有切线都不存在
不过L乘数的条件会让这种事不会发生
(2) 令A是mxn的矩阵
A^t:= A的转置
R(A):= A的值域, range
N(A):= A的零域, null space
rank(A):= dim(R(A)), 值域的维度
nullity(A):= dim(N(A)), 零域的维度
则 (a) n = rank(A) + nullity(A) (维度定理)
(b) N(A)^⊥ = R(A^t), ⊥为垂直记号
至於维度、span与线性组合/相依、垂直空间...这些东西不赘述
(W的垂直空间W^⊥是收集所有跟W垂直的向量)
(3) 令g:V→R^m为一函数, V是包含某点p€R^n的开集合(不知道的话当成子集合即可)
定义
g连续可微为g的
在各分量的各阶偏导数都是连续的
并且定义在p点的微分矩阵为Dg(p) = [▽g_1 ▽g_2 ... ▽g_m]^t
此矩阵为mxn的矩阵
(4) Chain rule, D(f。g)(x) = Df(g(x)) Dg(x), 两矩阵相乘
【L乘数法之定理叙述】
令f:U→R, g:V→R^m为两函数, U,V都是R^n的开集合
g=(g_1,...,g_k)
a=(a_1,...,a_m)€R^m为一定点
S={x€V│g(x)=a}, 即
约束条件g_k=a_k所形成集合
若p€S满足 (1) f与g在p附近皆连续可微
(2) rank(Dg(p)) = m
(3) f约束在S时, 在p上有区域极值
则存在
唯一的λ_k, k=1~m, 使得▽f(p) = Σ_{k=1~m}λ_k*▽g_k(p)
P.S. (1) 定理叙述为极值的必要条件, 并非充分条件
也就是说, 方程组解出来的是所有可能的极值点, 但不是每个都是甚至都没有
不过题目通常会设计让你解出来就是极值点
(2) rank(Dg(p)) = m 极为重要, 不过通常题目设计都会满足这条件
(3) 定理无法判断是极大还是极小
【定理步骤解释】
Step1: T_p(S) = N(Dg(p)), 即在p点的切平面为矩阵Dg(p)的零空间
(解释: 在S上通过p点的曲线α都有g(α(t)) = a
因此Chain rule後取t=0得到
Dg(p)α'(0) = 0
因此切向量α'(0)在Dg(p)的零空间
至於另外一个方向需要隐函数定理, 忽略
因此可以说只要你
接受T_p(S)就可忽略隐函数定理)
Step2: ▽f(p)€T_p(S)^⊥, 即▽f(p)落在切平面的垂直空间上
(解释: 因为f约束在S上在p点有极值
所以f约束在S的通过p点的曲线也会有极值
即在
较大范围有极值的话, 较小范围也会是极值
因此对於任何切线α'(0)€T_p(S), 考虑f(α(t)), 知道在t=0有极值
因此Chain rule後取t=0得到
Df(p)α'(0) = 0
回顾Df(p) = ▽f(p)^t, 我们有
<▽f(p), α'(0)> = 0
也就是说, ▽f(p)垂直於T_p(S)的所有向量, 即
▽f(p)€T_p(S)^⊥)
Step3: 结合Step1,2以及
rank(Dg(p)) = m以及【先备知识】, 我们有
T_p(S)^⊥ = N(Dg(p))^⊥ = R(Dg(p)^t) = R([▽g_1 ▽g_2 ... ▽g_m])
因此, ▽f(p)€T_p(S)^⊥ = R([▽g_1(p) ▽g_2(p) ... ▽g_m(p)])
即
▽f(p)是column vector ▽g_k(p) 的唯一系数线性组合, 证毕
简洁来说, 是证明▽f(p), ▽g_k(p)共n+1条向量都垂直於切平面T_p(S)
而刚好▽g_k(p)共n条向量就是垂直空间T_p(S)^⊥的基底
因此▽f(p)就是▽g_k(p)的线性组合
【rank未满的情况】
若rank(Dg(p)) < m, 则只有得到{▽g_k(p)│k=1~m} in T_p(S)^⊥
接着考虑▽f(p)€T_p(S)^⊥,
▽f(p)可能不落在column vector ▽g_k(p)所展开的空间
因此L乘数法一定要求rank(Dg(p)) = m才能找到
所有极值可能
【补充】
dim(T_p(S)) = dim(N(Dg(p))) = n-m
因此坊间n=3, m=1的状况下, dim(T_p(S)) = 2, 画出来就确实是
二维平面的切平面
而在
m=1(一个约束条件)的状况下, 垂直空间dim(T_p(S)^⊥) = 1
因此在只有一个约束条件时就会有常看到的
▽f(p)= λ*▽g(p)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.102.225.191 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1669090052.A.40B.html
1F:推 daoeasy : 出书较实在 11/23 02:34
2F:推 attack2000 : 感谢回覆 11/24 03:31
※ 编辑: znmkhxrw (59.102.225.191 台湾), 11/24/2022 13:23:53