作者yhliu (老怪物)
看板trans_math
标题Re: [微分] 连锁法则的证明
时间Wed Aug 15 12:12:09 2012
※ 引述《Edward56 (白面书生段誉 )》之铭言:
: 我看不太懂chain rule的证明所使用的概念
既然你的问题出自於 chain rule 的证明, 就谈一下这个
证明好了.
设 y=f(x), x=g(t), 所以 y=f(g(t))
The chain rule 说:
若 g 在 t=a 可微, f 在 x=b=g(a) 可微,
则 f(g(t)) 在 t=a 可微, 且
(d/dt)f(g(t)) = f'(g(a))g'(a)
依 "单变数可微就是导数存在" 的结论, 要证明 f(g(t))
在 t=a 可微, 要考虑的是
Δy/Δt ≡ (f(g(a+Δt))-f(g(a)))/Δt
= Δy/Δx.Δx/Δt
≡ (f(g(a+Δt))-f(g(a)))/(g(a+Δt)-g(a)).
(g(a+Δt)-g(a))/Δt
在非正式推导时, 就是利用这个关系, 让 Δt→0 取极限.
然而, 在正式证明中会发现: 这式会发生问题, 因为我们
无法保证 Δt≠0 时 g(a+Δt)≠g(a). 也就是说,上列将
Δy/Δt 表示成 Δy/Δx.Δx/Δt 有可能第一项会出现
"除以 0" 这种不被允许的算式.
因此, 要证明单变数的 chain rule, 有两个方式, 一是:
将分解式的第一项用另一个函数取代:
h(Δt) = f'(g(a)) if g(a+Δt)=g(a)
= (f(g(a+Δt))-f(g(a)))/(g(a+Δt)-g(a))
if g(a+Δt)≠g(a)
得 Δy/Δt = h(Δt).Δx/Δt, 而後让 Δt→0 取极限.
另一种方法可以同时适用於多变数函数, 那就是重新定义
"可微分". 这个新定义对多变数函数同时也适用, 那就是:
将 Δy=f(x+Δx)-f(x) 表示成:
Δy = A(x).Δx + ξ(x,Δx).Δx
在定义中考虑的是单点 x, 例如 x=a. 因此可以简化上式:
Δy = A.Δx + ξ(Δx).Δx
其中 A 是常数 (意思是: A 与 Δx 无关). 而 "可微分"
的定义是: 有一个常数 A 使得上列右式中
ξ(Δx)→0 当 Δx→0
很容易证明这个定义 (在单变数实数函数中) 与导数存在
是等价的, 而且符合可微分定义的 A(x)=f'(x).
回到 chain rule, 显然我们要证明
f(g(a+Δt))-f(g(a)) = f'(g(a))g'(a)Δt+ξ(Δt)Δt
而且 ξ(Δt)→0 当Δt→0. 而我们知道的是 f 在 g(a)
可微以及 g 在 a 可微. 就第一点, 可望得
f(g(a+Δt))-f(g(a))
= f'(g(a))g'(a)(g(a+Δt)-g(a))
+ δ.(g(a+Δt)-g(a))
其中 δ→0 当 g(a+Δt)-g(a)→0.
可是, 前面提过的问题又出现了: 若 g(a+Δt)-g(a) = 0
怎麽办? 因为考虑 g(a+Δt)-g(a)→0 时的极限必须它不
为 0. 所以, 你所疑惑的 "补点" 定义出现了:
定义 δ(0) = 0.
把这 "补点" 的想法带回原来的可微分定义中, 就是
Δy ≡ f(a+Δx)-f(a)
= f'(a).Δx + ξ(Δx).Δx
其中
ξ(Δx) = (f(a+Δx)-f(a))/Δx - f'(a) 当 Δx≠0
= 0 当 Δx=0
在 f'(a) 存在的前提下, 显然 lim ξ(Δx) = 0. 因此,
Δx→0
如上定义 ξ(0) 使得 ξ 在 0 连续 (并非 ξ 处处连续,
除非 f 本身是处处连续).
由此可知: 上述 ξ(0)=0 的定义, 是在证明 chain rule
时必要的一个小程序, 但不是定义 "可微分" 这概念时必
要的; 至於 ξ 在 0 连续, 只是上述定义的一个小结论,
或者说叙述较方便?其实它并不是很重要---看看如何完成
chain rule 证明, 就知道所谓 "ξ连续" (在以下证明中
用 δ) 这概念是否重要了.
[Chain rule 之证明]
设
f(b+Δx)-f(b)=f'(b)Δx+δ(Δx).Δx, δ(0)=0
g(a+Δt)-g(a)=g'(a)Δt+η(Δt).Δt
又: b=g(a), Δx=g(a+Δt)-g(a).
则得:
f(g(a+Δt))-f(g(a))
= f'(g(a)).Δx + δ(Δx).Δx
= f'(g(a))(g(a+Δt)-g(a))+δ(Δx).Δx
= f'(g(a))(g'(a)Δt+η(Δt)Δt)+δ(Δx).Δx
= f'(g(a))g'(a).Δt + f'(g(a)).η(Δt).Δt
+δ(Δx).(Δx/Δt).Δt
= f'(g(a))g'(a).Δt +
(f'(g(a)).η(Δt)+δ(Δx).(Δx/Δt)).Δt
取 ξ(Δt) = f'(g(a)).η(Δt)+δ(Δx).(Δx/Δt),
则
f(g(a+Δt))-f(g(a)) = f'(g(a))g'(a).Δt + ξ(Δt).Δt
而 Δt→0 时:
(1) η(Δt) → 0, 因此 f'(g(a)).η(Δt) → 0.
(2) Δx→0 (或等於0), 因此 δ(Δx)→0 或等於 0;
且Δx/Δt = (g(a+Δt)-g(a))/Δt →g'(a). 故
δ(Δx).(Δx/Δt) → 0.
因此, ξ(Δt)→0, 当 Δt→0.
▌
注意在 (2) 中考虑了 Δx=0 定义此时 δ(Δx)=0. 我们
可以不谈及δ在0连续; 也可以直用 "δ在0连续" 来说明
δ(Δx).(Δx/Δt) → 0 当 Δt→0.
--
嗨! 你好! 祝事事如意, 天天 happy! 有统计问题? 欢迎光临统计专业版! :)
交大资讯次世代 telnet://bs2.twbbs.org Statistics (统计与机率)
成大计中站 telnet://bbs.ncku.edu.tw Statistics (统计方法及学理讨论区)
盈月与繁星 telnet://ms.twbbs.org Statistics (统计:让数字说话)
我们强调专业的统计方法、实务及学习讨论, 只想要题解的就抱歉了!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.41.98.234
1F:推 BaBi:详细推~ 36.234.226.200 08/15 12:15
2F:推 suhorng:推 118.166.46.246 08/15 12:30
3F:推 goshfju:推 111.251.81.92 08/15 15:35