Re: 请问标准差分母的n和相关系数分母的n？

时间Fri Jun 24 20:05:13 2005

以下是以前写的文章有错请指正^^b 多谢作者 microball (研究院路的紫薇花) 标题 [统计] 标准差的无偏估值(unbias estimate) 时间 Sat Nov 6 01:01:45 2004 ─────────────────────────────────────── 一. 基本观念统计学的重要功用之一，就是从局部推测全体的性质局部的资料，我们称为 "样本(sample)" 全体的资料，我们称为 "族群(population)" 通常全体的资料是无法取得的，我们希望从一小部份的样品，推测全体的性质，是需要理论基础的。我们把样品的值，称做「估计量(estimate)」也就是用来估计「全体性质」的量。在我们进入理论推导前，还要说明「取样」的方式最常见的就是「随机取样」(simple random sampling, s.r.s) 简单的说，就是母群体中每个资料点被取到机率相同。最後说明一下notation： μ：母体平均 σ：母体标准差 X：样本平均 λ：样本的标准差 S^2：母体标准差的unbias estimate P(X=k) 随机变数X 等於k的机率 E(X)：随机变数X 的期望值 Var(X)：随机变数X 的变方 = E(X^2) - [E(X)]^2 * 我们先做个简单的例子，说明如何估计母体的平均值μ 假设群体可能很多资料点，称做p1, p2,...pn (n通常很大) 这些资料点的值可以相同或不同，取样的结果，呈现某个机率分布。我们现在从n个资料中，取出 k 个来作为样品 (k远小於n) 每个取样的值都是随机变数，称做 X1,X2,...Xk [Lemma 01] E(Xi)=μ， V(Xi)=σ^2 pf : (我们证离散的情形，连续的情形其证明差不多) 假设母体中，有些资料点p的值可能是相同的，我们把不同的值，称做 u1,u2,...um (m<=n 因为有些值可能是相同的) 等於 ui 的资料点有 vi个， (vi总合为n) P(Xi = uj) = vj/n 因为机率均等。因此，E(Xi) = Σ uj* P(Xi=uj) = (1/n)* Σ uj*vj = (1/n)* nμ = μ j=1~m j=1~m (上式最後一个Σ，会等於母群体所有的值相加，也就是nμ) 使用刚刚推导的结果， Var(Xi) = E(Xi^2) - [E(Xi)]^2 = (1/n)* Σ uj*(vj)^2 - μ^2 j=1~m = (1/n)* Σ(pj)^2 - μ^2 (注意：把uj，vj用pj代替) j=1~n = σ^2 (上式就是σ^2的一种定义) QED 我们证明了，对於随机取样的「一个」随机变数 Xi，它的平均跟标准差，都跟母体相同但是我们不可能只取一次 (所谓的平均、标准差，都是多次取样的结果) 这里要说清楚一点：随机取样的 Xi，是个随机变数它一旦取样，确定了它的值後，就不是随机变数了。虽然今天知道 Xi平均、标准差的理论值，但我们不能藉由把它「取出来」後的值，去「得知」μ和σ 因为我们确定这个值的同时，它也不再是随机变数了。 * 那要怎麽估计μ和σ呢? 当然就要靠多次的取样。我们先讲估计μ的方法。 ======================================================================= [Lemma 02] 我们取了k个样本，令 Y = (X1+...+Xk)/k 是个随机变数。则 E(Y) =μ 。 n-k 若每个取样视为不相等的，Var(Y) = (σ^2) * ------------ n*(n-1) 若每个取样视为相等的， Var(Y) = (σ^2) /n ======================================================================== 你会问说，为什麽取样有没有视为相等，会造成不同的结果...? 是这样的：当我们取样，但不放回去时，每个取样不能视为相等的。如果是取样，然後放回，再取下一次样，每个取样就是相等的了。如果n很大的时候，放不放回都差不多，所以可以把取样都视为相等的。 pf: (同样，我们证离散的情形) E(Y) = (1/k)* Σ E(Xi) = (1/k)* kμ = μ i=1~k (第一个等号，请查看期望值的定义，是满足分配率，可以拆开的) 若每个取样视为不相等的，Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k Cov(Xi,Xj) = E(XiXj)- E(Xi)*E(Xj)，是变方Var 在多个随机变数时的推广。因为我们假设不同的Xi，不是相等的，所以要用Cov 当Xi,Xj是同一个随机变数时，Cov(Xi,Xj) = Var(Xi)。 * 我们一步一步来算 Cov(Xi,Xj)：考虑跟 Lemma 01 中一样的母群体先算 E(XiXj) = ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m = Σ ui*P(Xi=ui) Σ vj* P(Xj=uj│Xi=ui) 由贝式定律 i=1~m j=1~m P(Xj=uj│Xi=ui) = vj /n-1 ，若i≠j (n-1是因为先取了Xi = (vj-1)/n-1 ，若i=j 取Xj时，母群体少了一个) 接下来是代数运算对决！ ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m vj ui 注意：後面的Σ加总後， = Σui*(vi/n) { Σ uj*----- - ----- } ꄠ 还有留下含i的项，　　　　 i=1~m j=1~m n-1 n-1 给前面的Σ加总。这里把i=j时， uj*{(vj-1)/n-1} 写成 ujvj/(n-1) - uj/(n-1) 接着把後面这项的 uj 巧妙地改成 ui 前面这项 ujvj/(n-1) 是不管i有没有等於j，都有的後面减掉的 uj/(n-1) 只有当i=j时才要减去。我们放了ui在这里，只有当i=j时，这个对j的Σ，才会把ui算进去。 = Σui*(vi/n) * (nμ -ui)/n-1 i=1~m 1 1 = ------- * { Σ ui*vi*(nμ -ui) } = -------{(nμ)^2 - Σvi*(ui)^2 } n(n-1) i=1~m n(n-1) i=1~m (nμ)^2 1 = ------- - -------{(μ^2) + (σ^2)} 这个等式用了 E(X^2) =σ^2-μ^2 n(n-1) n(n-1) σ^2 = μ^2 - ------ n-1 我们刚刚算的是 E(XiXj)，又E(Xi) = E(Xj) = μ 所以 Cov(Xi,Xj) = (-σ^2)/ n-1 * 辛辛苦苦算了Cov(Xi,Xj)，要把它加总才得到 Var(Y)： Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k = (1/k^2)* Σ Var(Xi) + (1/k^2)* Σ Σ Cov(Xi,Xj) i=1~k i=1~k, j≠i (这里单纯是用Cov的性质，当 i=j时，Cov = Var) = (k*σ^2)/ k^2 + {(-σ^2)/ n-1} /k^2 n-k = (σ^2)* ------- QED n(n-1) 当每个取样视为相等时，我们只要去掉Cov项就是结果了。我们先summery上一篇的结果：由Lemma 02，设母体有p1,p2,...pn个资料点，平均为μ，标准差为σ。我们用随机取样取了k个样，分别用随机变数 X1,X2,...Xk代表现在令随机变数 Y =(X1+X2+...+Xk)/k 则 E(Y)=μ Var(Y)= (σ^2)*(n-k) / n(n-1) * 我们的目标，是求母体标准差的估计值而且是要「没有偏差」的估计值(unbias estimate) 那麽，跟我们该如何使用上面做的取样，来推得σ呢? 一个直观的想法是：既然对於随机变数而言，样品的平均 = 母体的平均那麽样品的标准差(也是随机变数)，会不会等於母体的标准差呢? 答案是：不会。动点脑筋就会发现：一般而言，取样越多，总体偏离中心的值就越大，样品的标准差也越大极端的case是，当取样数=1 的时候，样品标准差 = 0 那麽要怎麽从样品的标准差，推得母体的标准差呢? 我们先令样品标准差为λ，定义如下： λ = (1/k)* Σ(Xi-Y)^2 注意：这个公式很像是一般我们在算母体标准差 i=1~k 但是这里的Xi和Y，都是随机变数，不是定值。因此，λ也是随机变数。 =================================================================== (k-1)*n Lemma 03 ： E(λ) = (σ^2) --------- k*(n-1) =================================================================== E(λ)可以想像成是：我现在做了很多次的取样，每次都随机取了 k个，那麽每次取样 X1,X2...Xk 去算出的λ，都会不一样，但是λ的期望值，会如 Lemma 03 所述。 pf: 先把λ写成 [(1/n)* Σ(Xi)^2] - Y^2 (这是标准差的另一种形式) i=1~k E(λ) = [(1/n)* Σ E(Xi^2)] - E(Y^2) i=1~k 先算 E(Xi^2) = Var(Xi) + [E(Xi)]^2 (这个公式我们多次使用) = σ^2 + μ^2 (由Lemma 01 ！) 再算 E(Y^2) = Var(Y) + [E(Y)]^2 (σ^2)*(n-k) = -------------- + μ^2 (由Lemma02 ！) n(n-1) 最後把 E(Xi^2)和 E(Y^2) 代入E(λ)，就得到 Lemma03 的结果。 QED ======================================================================== Theorem 01：母体标准差的无偏估值，以简单随机取样的随机变数 X1,X2,...Xk表示如下 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k ======================================================================== pf: 由刚刚推得的 Lemma 03，其实我们已经发现 E(λ)跟σ^2，是成一个比例关系... 那麽，做个简单的移项，我们就可以用 (n-1)k S^2 = ---------* E(λ) 来估计σ^2 n(k-1) (n-1)k 1 写得更清楚一点 S^2 = -------- * --- Σ(Xi-Y)^2 n(k-1) k i=1~k 当n很大时，(n-1)和 n消去，得到定理中的结果。 QED ** 所以你会说：「啊...所以还是要做个近似的(n趋近於无限大)」别忘了我们是做统计，n趋近无限大，是一个很合理的假设在这个假设下，由以上的推导，我们知道S^2还是要除以「k-1」才能最没有偏差的估计σ^2。 (当然，我们也可以有其他的方式估计σ^2，如果我们觉得偏差可以接受，但是我们要有最大的可能性去估计σ^2 那麽就要除以k，这是用 most likelihood estimate等方法的估计在这里就不多提了。) ** 在高中或大学，常常听到一个「除以k-1的理由」是因为样本的标准差，只有 k-1个自由度，最後我们补充一个定理，说明自由度的问题证明就省略，有兴趣的人可以参考数理统计的书。 ============================================================= Thoerem 02：以简单随机取样的随机变数 X1,X2,...Xk 定义两个统计量 Y 和 S^2 (都是随机变数)： Y = (X1+X2+...+Xk)/k 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k 则 Y 和 S^2 为互相独立的随机变数。 ============================================================= -- 这是你吗你要这样的过吗这是你吗你错过了自己吧就这样吗把你自己信仰来换别人所谓的天堂这是你吗是谁给了你框框这是你吗把你自己都遗忘你的心毕竟是你自己的地方 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 140.109.32.9 ※ 编辑: microball 来自: 140.109.32.9 (06/24 20:07)

1^F：推 sendohandy:看一半先推221.169.163.121 06/24

2^F：推 jencheng:本期(113期) '数学传播' 有这方面的讨论 218.166.68.66 06/24

3^F：推 gary27:收到精华统计区140.134.242.144 06/24

4^F：推 yhliu:若要计算 "标准差的不偏估计", 必须先知道群体分布 140.116.52.117 06/25

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Math 板

Re: 请问标准差分母的n和相关系数分母的n？

热门看板

赞助商连结