作者yhliu (老怪物)
看板Math
标题Re: [机统] 自由度的意义
时间Thu Nov 24 10:54:19 2022
※ 引述《attack2000 (柏修斯)》之铭言:
: 感谢之前许多乡民回覆关於我Lagrange Multiplier的问题
: 甚至还有人寄信到我的信箱,真的非常感谢
: 这次要问的是关於自由度(the degree of freedom)的问题
: 我们课本中只有告诉我们取变异数时要引用自由度的概念
: 却没有详细告诉我们为什麽要有自由度
: 因为我们的课本是分析相关的,而非专业的统计课本
: 所以许多统计的概念会写的比较简略
:
: 关於自由度,我只能大概知道它是样本中独立或自由变化的数据的个数
: 却不太能理解它在统计上的意义为何
: 希望板友能尽可能简单地告诉我,谢谢。
: 另外,还请板友推荐我一些比较基础的统计课本
: 不然我念我那本分析课本真的觉得念不太下去
: 感谢板友
统计上 "自由度" 来源自卡方分布。卡方变量的定义是
X^2 = Σ_{i=1~r} Zi^2
其中 Zi, i=1,...,r, 是 r 个相互独立的标准常态变量,
这样的 X^2 是具有 r 个自由度的卡方变量 (具卡方分布)。
其次看样本变异数 s^2 = Σ(Xi-Xbar)^2/(n-1), 其中 Xi
是 i.i.d. N(μ,σ^2) 变量。则
(n-1)s^2/σ^2 = Σ(Xi-Xbar)^2/σ^2
可以经线性转换变成 n-1 个 i.i.d. 标准常态变量的平方
和,所以说样本变异数有 n-1 个自由度。
统计上很常用的 t 统计量,其最简单形式是
t = (Xbar - μ)/√(s/n)
自由度 r 的 t 变量的数学定义是
T = Z/√(w/r)
其中 Z 是标准常态变量,与卡方变量 W 机率独立。而前
面的 t 可以表示成
t = (√n(Xbar - μ)/σ)/√((Σ(Xi-Xbar)^2/σ^2)/(n-1))
可证得在常态群体, Xbar 与 s^2 独立,也就是说 "/"
的左边 (是一个标准常态变量) 与右边根号内 (是一个卡
方变量除以其自由度) 相互独立, 所以是 n-1 自由度的 t
变量。
F 变量是 (X^2/r1)/(Y^2/r2) 其中 X^2 与 Y^2 独立,
分别 r1, r2 自由度的卡方。所以 F 分布会有两个自由
度数值,因为它是由两个卡方变量所决定的。
再深一层看,如果 Y 是一个具多变量常态分布 N(0,V)
的随机向量,一个二次式 Y'AY (其中 A 是非负碓定对称
矩阵) 若满足
VAVAV = VAV
将具有自由度 rank(VA) 的卡方分布。这是线性模型 (含
回归模型,实验设计楔型) 里常需要的基本定理;此外还
有两二次式相互独立的条件: VAVBV = 0. 在前述 i.i.d.
诸 Xi 的例子,V=(σ^2)I, Xbar-μ = (J/n)'(X-μJ),
式中 J 是元素都是 1 的行向量 (J' 就是列向量),而
Σ(Xi-Xbar)^2 = (X-μJ)'(I-JJ'/n)(X-μJ)
可以得
(J/n)'(I-JJ'/n) = 0 且 (I-JJ'/n)^2 = (I-JJ'/n),
前者是 Xbar 与 Σ(Xi-Xbar)^2 独立的条件,後者是
Σ(Xi-Xbar)^2/σ^2 服从卡方分布的条件,而
rank(I-JJ'/n) = n-1.
至於列联表的卡方统计量,在大样本时能应用卡方检定,
是缘於二项分布渐近常态分布,多项分布渐近多变量常态
分布。而其自由度的决定,亦如同前述多变量常态分布二
次式与卡方分布的关系一般。
上面 "自由度" 被矩阵的 rank 所定义,但实际上它就是:
二次式中自由变量的个数。如样本变异数的核心 Σ(Xi-Xbar)^2
虽有 n 个组成二次式的变量 Xi-Xbar, 但因有 Σ(Xi-Xbar) = 0
的 "限制", 所以其实只有 n-1 个独立变量,也就是譇
Xi-Xbar 其中 n-1 个决定了,第 n 个也就决定了。又如
二变项列联表独立性检定卡方统计量
ΣΣ(n(ij)-m(ij))^2/m(ij)
有 rc 个二次项,但因
Σ_i (n(ij)-m(ij)) = 0 for all j
Σ_j (n(ij)-m(ij)) = 0 for all i
共有 r+c-1 个实质的限制,因此这 rc 个二次项实际只有
rc-(r+c-1) = (r-1)(c-1)
个自由度。
对数概度比 (log likelihood ratio) 检定统计量在大样
本也涉及卡方,其实也是中央极限定理的应用。设
H0: test model M0, H1: whole model M
两者各以其参数的 MLE 代入计算概似度,求比,然後转
成对数。这就是对数概度比统计量,可以渐近等同 M 中
m 个参数 MLE 与参数值离差 (渐近 m 变量常态) 的二次
式,但因有 M0 中实质 k 个参数之 MLE 的抵消,相当於
有 k 个实质限制式,所以最後概度比统计量有 m-k 个自
由度,也就是 M 比 M0 实际多出的参数。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.224.131.124 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1669258462.A.312.html
1F:推 attack2000 : 感谢回覆 11/25 08:51
2F:推 recorriendo : 推 老师这篇太专业 11/25 17:10
※ 编辑: yhliu (61.224.129.62 台湾), 11/27/2022 08:02:13