作者microball (老公公鼠...)
看板Math
标题Re: 请问标准差分母的n和相关系数分母的n?
时间Fri Jun 24 20:05:13 2005
以下 是以前写的文章
有错请指正^^b 多谢
作者 microball (研究院路的紫薇花)
标题 [统计] 标准差的无偏估值(unbias estimate)
时间 Sat Nov 6 01:01:45 2004
───────────────────────────────────────
一. 基本观念
统计学的重要功用之一,就是从局部推测全体的性质
局部的资料,我们称为 "样本(sample)"
全体的资料,我们称为 "族群(population)"
通常全体的资料是无法取得的,
我们希望从一小部份的样品,推测全体的性质,是需要理论基础的。
我们把样品的值,称做 「估计量(estimate)」
也就是用来估计「全体性质」的量。
在我们进入理论推导前,还要说明「取样」的方式
最常见的就是「随机取样」(simple random sampling, s.r.s)
简单的说,就是母群体中每个资料点被取到机率相同。
最後说明一下notation:
μ:母体平均 σ:母体标准差
X:样本平均 λ:样本的标准差 S^2:母体标准差的unbias estimate
P(X=k) 随机变数X 等於k的机率
E(X): 随机变数X 的期望值
Var(X):随机变数X 的变方 = E(X^2) - [E(X)]^2
*
我们先做个简单的例子,说明如何估计母体的平均值μ
假设群体可能很多资料点,称做p1, p2,...pn (n通常很大)
这些资料点的值可以相同或不同,
取样的结果,呈现某个机率分布。
我们现在从n个资料中,取出 k 个来作为样品 (k远小於n)
每个取样的值都是随机变数,称做 X1,X2,...Xk
[Lemma 01] E(Xi)=μ, V(Xi)=σ^2
pf : (我们证离散的情形,连续的情形其证明差不多)
假设母体中,有些资料点p的值可能是相同的,
我们把不同的值,称做 u1,u2,...um (m<=n 因为有些值可能是相同的)
等於 ui 的资料点有 vi个, (vi总合为n)
P(Xi = uj) = vj/n 因为机率均等。
因此,E(Xi) = Σ uj* P(Xi=uj) = (1/n)* Σ uj*vj = (1/n)* nμ = μ
j=1~m j=1~m
(上式最後一个Σ,会等於母群体所有的值相加,也就是nμ)
使用刚刚推导的结果,
Var(Xi) = E(Xi^2) - [E(Xi)]^2
= (1/n)* Σ uj*(vj)^2 - μ^2
j=1~m
= (1/n)* Σ(pj)^2 - μ^2 (注意:把uj,vj用pj代替)
j=1~n
= σ^2 (上式就是σ^2的一种定义) QED
我们证明了,对於随机取样的「一个」随机变数 Xi,
它的平均跟标准差,都跟母体相同
但是我们不可能只取一次 (所谓的平均、标准差,都是多次取样的结果)
这里要说清楚一点:随机取样的 Xi,是个随机变数
它一旦取样,确定了它的值後,就不是随机变数了。
虽然今天知道 Xi平均、标准差的理论值,
但我们不能藉由把它「取出来」後的值,去「得知」μ和σ
因为我们确定这个值的同时,它也不再是随机变数了。
*
那要怎麽估计μ和σ呢? 当然就要靠多次的取样。 我们先讲估计μ的方法。
=======================================================================
[Lemma 02] 我们取了k个样本,令 Y = (X1+...+Xk)/k 是个随机变数。
则 E(Y) =μ 。
n-k
若每个取样视为不相等的,Var(Y) = (σ^2) * ------------
n*(n-1)
若每个取样视为相等的, Var(Y) = (σ^2) /n
========================================================================
你会问说,为什麽取样有没有视为相等,会造成不同的结果...?
是这样的:当我们取样,但不放回去时,每个取样不能视为相等的。
如果是取样,然後放回,再取下一次样,每个取样就是相等的了。
如果n很大的时候,放不放回都差不多,
所以可以把取样都视为相等的。
pf: (同样,我们证离散的情形)
E(Y) = (1/k)* Σ E(Xi) = (1/k)* kμ = μ
i=1~k
(第一个等号,请查看期望值的定义,是满足分配率,可以拆开的)
若每个取样视为不相等的,Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj)
i=1~k, j=1~k
Cov(Xi,Xj) = E(XiXj)- E(Xi)*E(Xj),是变方Var 在多个随机变数时的推广。
因为我们假设不同的Xi,不是相等的,所以要用Cov
当Xi,Xj是同一个随机变数时,Cov(Xi,Xj) = Var(Xi)。
*
我们一步一步来算 Cov(Xi,Xj):考虑跟 Lemma 01 中一样的母群体
先算 E(XiXj) = ΣΣ ui*vj* P(Xi=ui且 Xj=uj)
i=1~m, j=1~m
= Σ ui*P(Xi=ui) Σ vj* P(Xj=uj│Xi=ui) 由贝式定律
i=1~m j=1~m
P(Xj=uj│Xi=ui) = vj /n-1 ,若i≠j (n-1是因为先取了Xi
= (vj-1)/n-1 ,若i=j 取Xj时,母群体少了一个)
接下来是代数运算对决!
ΣΣ ui*vj* P(Xi=ui且 Xj=uj)
i=1~m, j=1~m
vj ui 注意:後面的Σ加总後,
= Σui*(vi/n) { Σ uj*----- - ----- } ꄠ 还有留下含i的项,
i=1~m j=1~m n-1 n-1 给前面的Σ加总。
这里把i=j时, uj*{(vj-1)/n-1} 写成 ujvj/(n-1) - uj/(n-1)
接着把後面这项的 uj 巧妙地改成 ui
前面这项 ujvj/(n-1) 是不管i有没有等於j,都有的
後面减掉的 uj/(n-1) 只有当i=j时才要减去。
我们放了ui在这里,只有当i=j时,这个对j的Σ,才会把ui算进去。
= Σui*(vi/n) * (nμ -ui)/n-1
i=1~m
1 1
= ------- * { Σ ui*vi*(nμ -ui) } = -------{(nμ)^2 - Σvi*(ui)^2 }
n(n-1) i=1~m n(n-1) i=1~m
(nμ)^2 1
= ------- - -------{(μ^2) + (σ^2)} 这个等式用了 E(X^2) =σ^2-μ^2
n(n-1) n(n-1)
σ^2
= μ^2 - ------
n-1
我们刚刚算的是 E(XiXj),又E(Xi) = E(Xj) = μ
所以 Cov(Xi,Xj) = (-σ^2)/ n-1
*
辛辛苦苦算了Cov(Xi,Xj),要把它加总才得到 Var(Y):
Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj)
i=1~k, j=1~k
= (1/k^2)* Σ Var(Xi) + (1/k^2)* Σ Σ Cov(Xi,Xj)
i=1~k i=1~k, j≠i
(这里单纯是用Cov的性质,当 i=j时,Cov = Var)
= (k*σ^2)/ k^2 + {(-σ^2)/ n-1} /k^2
n-k
= (σ^2)* ------- QED
n(n-1)
当每个取样视为相等时,我们只要去掉Cov项就是结果了。
我们先summery上一篇的结果:由Lemma 02,
设母体有p1,p2,...pn个资料点,平均为μ,标准差为σ。
我们用随机取样取了k个样,分别用随机变数 X1,X2,...Xk代表
现在令随机变数 Y =(X1+X2+...+Xk)/k
则 E(Y)=μ Var(Y)= (σ^2)*(n-k) / n(n-1)
*
我们的目标,是求母体标准差的估计值
而且是要「没有偏差」的估计值(unbias estimate)
那麽,跟我们该如何使用上面做的取样,来推得σ呢?
一个直观的想法是:
既然对於随机变数而言,样品的平均 = 母体的平均
那麽样品的标准差(也是随机变数),会不会等於母体的标准差呢?
答案是:不会。动点脑筋就会发现:
一般而言,取样越多,总体偏离中心的值就越大,样品的标准差也越大
极端的case是,当取样数=1 的时候,样品标准差 = 0
那麽要怎麽从样品的标准差,推得母体的标准差呢?
我们先令样品标准差为λ,定义如下:
λ = (1/k)* Σ(Xi-Y)^2 注意:这个公式很像是一般我们在算母体标准差
i=1~k 但是这里的Xi和Y,都是随机变数,不是定值。
因此,λ也是随机变数。
===================================================================
(k-1)*n
Lemma 03 : E(λ) = (σ^2) ---------
k*(n-1)
===================================================================
E(λ)可以想像成是:我现在做了很多次的取样,每次都随机取了 k个,
那麽每次取样 X1,X2...Xk 去算出的λ,都会不一样,
但是λ的期望值,会如 Lemma 03 所述。
pf: 先把λ写成 [(1/n)* Σ(Xi)^2] - Y^2 (这是标准差的另一种形式)
i=1~k
E(λ) = [(1/n)* Σ E(Xi^2)] - E(Y^2)
i=1~k
先算 E(Xi^2) = Var(Xi) + [E(Xi)]^2 (这个公式我们多次使用)
= σ^2 + μ^2 (由Lemma 01 !)
再算 E(Y^2) = Var(Y) + [E(Y)]^2
(σ^2)*(n-k)
= -------------- + μ^2 (由Lemma02 !)
n(n-1)
最後把 E(Xi^2)和 E(Y^2) 代入E(λ),就得到 Lemma03 的结果。 QED
========================================================================
Theorem 01:母体标准差的无偏估值,
以简单随机取样的随机变数 X1,X2,...Xk表示如下
1
S^2 = ----- Σ(Xi-Y)^2
k-1 i=1~k
========================================================================
pf: 由刚刚推得的 Lemma 03,
其实我们已经发现 E(λ)跟σ^2,是成一个比例关系...
那麽,做个简单的移项,我们就可以用
(n-1)k
S^2 = ---------* E(λ) 来估计σ^2
n(k-1)
(n-1)k 1
写得更清楚一点 S^2 = -------- * --- Σ(Xi-Y)^2
n(k-1) k i=1~k
当n很大时,(n-1)和 n消去,得到定理中的结果。 QED
**
所以你会说:「啊...所以还是要做个近似的(n趋近於无限大)」
别忘了我们是做统计,n趋近无限大,是一个很合理的假设
在这个假设下,由以上的推导,我们知道S^2还是要除以「k-1」
才能最没有偏差的估计σ^2。
(当然,我们也可以有其他的方式估计σ^2,
如果我们觉得偏差可以接受,但是我们要有最大的可能性去估计σ^2
那麽就要除以k,这是用 most likelihood estimate等方法的估计
在这里就不多提了。)
**
在高中或大学,常常听到一个「除以k-1的理由」
是因为样本的标准差,只有 k-1个自由度,
最後我们补充一个定理,说明自由度的问题
证明就省略,有兴趣的人可以参考数理统计的书。
=============================================================
Thoerem 02:以简单随机取样的随机变数 X1,X2,...Xk
定义两个统计量 Y 和 S^2 (都是随机变数):
Y = (X1+X2+...+Xk)/k
1
S^2 = ----- Σ(Xi-Y)^2
k-1 i=1~k
则 Y 和 S^2 为互相独立的随机变数。
=============================================================
--
这是你吗 你要这样的过吗
这是你吗 你错过了自己吧
就这样吗 把你自己信仰 来换别人所谓的天堂
这是你吗 是谁给了你框框
这是你吗 把你自己都遗忘
你的心 毕竟是你自己的地方
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.109.32.9
※ 编辑: microball 来自: 140.109.32.9 (06/24 20:07)
1F:推 sendohandy:看一半先推221.169.163.121 06/24
2F:推 jencheng:本期(113期) '数学传播' 有这方面的讨论 218.166.68.66 06/24
3F:推 gary27:收到精华统计区140.134.242.144 06/24
4F:推 yhliu:若要计算 "标准差的不偏估计", 必须先知道群体分布 140.116.52.117 06/25