Math 板


LINE

以下 是以前写的文章 有错请指正^^b 多谢 作者 microball (研究院路的紫薇花) 标题 [统计] 标准差的无偏估值(unbias estimate) 时间 Sat Nov 6 01:01:45 2004 ─────────────────────────────────────── 一. 基本观念 统计学的重要功用之一,就是从局部推测全体的性质 局部的资料,我们称为 "样本(sample)" 全体的资料,我们称为 "族群(population)" 通常全体的资料是无法取得的, 我们希望从一小部份的样品,推测全体的性质,是需要理论基础的。 我们把样品的值,称做 「估计量(estimate)」 也就是用来估计「全体性质」的量。 在我们进入理论推导前,还要说明「取样」的方式 最常见的就是「随机取样」(simple random sampling, s.r.s) 简单的说,就是母群体中每个资料点被取到机率相同。 最後说明一下notation: μ:母体平均 σ:母体标准差 X:样本平均 λ:样本的标准差 S^2:母体标准差的unbias estimate P(X=k) 随机变数X 等於k的机率 E(X): 随机变数X 的期望值 Var(X):随机变数X 的变方 = E(X^2) - [E(X)]^2 * 我们先做个简单的例子,说明如何估计母体的平均值μ 假设群体可能很多资料点,称做p1, p2,...pn (n通常很大) 这些资料点的值可以相同或不同, 取样的结果,呈现某个机率分布。 我们现在从n个资料中,取出 k 个来作为样品 (k远小於n) 每个取样的值都是随机变数,称做 X1,X2,...Xk [Lemma 01] E(Xi)=μ, V(Xi)=σ^2 pf : (我们证离散的情形,连续的情形其证明差不多) 假设母体中,有些资料点p的值可能是相同的, 我们把不同的值,称做 u1,u2,...um (m<=n 因为有些值可能是相同的) 等於 ui 的资料点有 vi个, (vi总合为n) P(Xi = uj) = vj/n 因为机率均等。 因此,E(Xi) = Σ uj* P(Xi=uj) = (1/n)* Σ uj*vj = (1/n)* nμ = μ j=1~m j=1~m (上式最後一个Σ,会等於母群体所有的值相加,也就是nμ) 使用刚刚推导的结果, Var(Xi) = E(Xi^2) - [E(Xi)]^2 = (1/n)* Σ uj*(vj)^2 - μ^2 j=1~m = (1/n)* Σ(pj)^2 - μ^2 (注意:把uj,vj用pj代替) j=1~n = σ^2 (上式就是σ^2的一种定义) QED 我们证明了,对於随机取样的「一个」随机变数 Xi, 它的平均跟标准差,都跟母体相同 但是我们不可能只取一次 (所谓的平均、标准差,都是多次取样的结果) 这里要说清楚一点:随机取样的 Xi,是个随机变数 它一旦取样,确定了它的值後,就不是随机变数了。 虽然今天知道 Xi平均、标准差的理论值, 但我们不能藉由把它「取出来」後的值,去「得知」μ和σ 因为我们确定这个值的同时,它也不再是随机变数了。 * 那要怎麽估计μ和σ呢? 当然就要靠多次的取样。 我们先讲估计μ的方法。 ======================================================================= [Lemma 02] 我们取了k个样本,令 Y = (X1+...+Xk)/k 是个随机变数。 则 E(Y) =μ 。 n-k 若每个取样视为不相等的,Var(Y) = (σ^2) * ------------ n*(n-1) 若每个取样视为相等的, Var(Y) = (σ^2) /n ======================================================================== 你会问说,为什麽取样有没有视为相等,会造成不同的结果...? 是这样的:当我们取样,但不放回去时,每个取样不能视为相等的。 如果是取样,然後放回,再取下一次样,每个取样就是相等的了。 如果n很大的时候,放不放回都差不多, 所以可以把取样都视为相等的。 pf: (同样,我们证离散的情形) E(Y) = (1/k)* Σ E(Xi) = (1/k)* kμ = μ i=1~k (第一个等号,请查看期望值的定义,是满足分配率,可以拆开的) 若每个取样视为不相等的,Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k Cov(Xi,Xj) = E(XiXj)- E(Xi)*E(Xj),是变方Var 在多个随机变数时的推广。 因为我们假设不同的Xi,不是相等的,所以要用Cov 当Xi,Xj是同一个随机变数时,Cov(Xi,Xj) = Var(Xi)。 * 我们一步一步来算 Cov(Xi,Xj):考虑跟 Lemma 01 中一样的母群体 先算 E(XiXj) = ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m = Σ ui*P(Xi=ui) Σ vj* P(Xj=uj│Xi=ui) 由贝式定律 i=1~m j=1~m P(Xj=uj│Xi=ui) = vj /n-1 ,若i≠j (n-1是因为先取了Xi = (vj-1)/n-1 ,若i=j 取Xj时,母群体少了一个) 接下来是代数运算对决! ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m vj ui 注意:後面的Σ加总後, = Σui*(vi/n) { Σ uj*----- - ----- } ꄠ 还有留下含i的项,      i=1~m j=1~m n-1 n-1 给前面的Σ加总。 这里把i=j时, uj*{(vj-1)/n-1} 写成 ujvj/(n-1) - uj/(n-1) 接着把後面这项的 uj 巧妙地改成 ui 前面这项 ujvj/(n-1) 是不管i有没有等於j,都有的 後面减掉的 uj/(n-1) 只有当i=j时才要减去。 我们放了ui在这里,只有当i=j时,这个对j的Σ,才会把ui算进去。 = Σui*(vi/n) * (nμ -ui)/n-1 i=1~m 1 1 = ------- * { Σ ui*vi*(nμ -ui) } = -------{(nμ)^2 - Σvi*(ui)^2 } n(n-1) i=1~m n(n-1) i=1~m (nμ)^2 1 = ------- - -------{(μ^2) + (σ^2)} 这个等式用了 E(X^2) =σ^2-μ^2 n(n-1) n(n-1) σ^2 = μ^2 - ------ n-1 我们刚刚算的是 E(XiXj),又E(Xi) = E(Xj) = μ 所以 Cov(Xi,Xj) = (-σ^2)/ n-1 * 辛辛苦苦算了Cov(Xi,Xj),要把它加总才得到 Var(Y): Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k = (1/k^2)* Σ Var(Xi) + (1/k^2)* Σ Σ Cov(Xi,Xj) i=1~k i=1~k, j≠i (这里单纯是用Cov的性质,当 i=j时,Cov = Var) = (k*σ^2)/ k^2 + {(-σ^2)/ n-1} /k^2 n-k = (σ^2)* ------- QED n(n-1) 当每个取样视为相等时,我们只要去掉Cov项就是结果了。 我们先summery上一篇的结果:由Lemma 02, 设母体有p1,p2,...pn个资料点,平均为μ,标准差为σ。 我们用随机取样取了k个样,分别用随机变数 X1,X2,...Xk代表 现在令随机变数 Y =(X1+X2+...+Xk)/k 则 E(Y)=μ Var(Y)= (σ^2)*(n-k) / n(n-1) * 我们的目标,是求母体标准差的估计值 而且是要「没有偏差」的估计值(unbias estimate) 那麽,跟我们该如何使用上面做的取样,来推得σ呢? 一个直观的想法是: 既然对於随机变数而言,样品的平均 = 母体的平均 那麽样品的标准差(也是随机变数),会不会等於母体的标准差呢? 答案是:不会。动点脑筋就会发现: 一般而言,取样越多,总体偏离中心的值就越大,样品的标准差也越大 极端的case是,当取样数=1 的时候,样品标准差 = 0 那麽要怎麽从样品的标准差,推得母体的标准差呢? 我们先令样品标准差为λ,定义如下: λ = (1/k)* Σ(Xi-Y)^2 注意:这个公式很像是一般我们在算母体标准差 i=1~k 但是这里的Xi和Y,都是随机变数,不是定值。 因此,λ也是随机变数。 =================================================================== (k-1)*n Lemma 03 : E(λ) = (σ^2) --------- k*(n-1) =================================================================== E(λ)可以想像成是:我现在做了很多次的取样,每次都随机取了 k个, 那麽每次取样 X1,X2...Xk 去算出的λ,都会不一样, 但是λ的期望值,会如 Lemma 03 所述。 pf: 先把λ写成 [(1/n)* Σ(Xi)^2] - Y^2 (这是标准差的另一种形式) i=1~k E(λ) = [(1/n)* Σ E(Xi^2)] - E(Y^2) i=1~k 先算 E(Xi^2) = Var(Xi) + [E(Xi)]^2 (这个公式我们多次使用) = σ^2 + μ^2 (由Lemma 01 !) 再算 E(Y^2) = Var(Y) + [E(Y)]^2 (σ^2)*(n-k) = -------------- + μ^2 (由Lemma02 !) n(n-1) 最後把 E(Xi^2)和 E(Y^2) 代入E(λ),就得到 Lemma03 的结果。 QED ======================================================================== Theorem 01:母体标准差的无偏估值, 以简单随机取样的随机变数 X1,X2,...Xk表示如下 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k ======================================================================== pf: 由刚刚推得的 Lemma 03, 其实我们已经发现 E(λ)跟σ^2,是成一个比例关系... 那麽,做个简单的移项,我们就可以用 (n-1)k S^2 = ---------* E(λ) 来估计σ^2 n(k-1) (n-1)k 1 写得更清楚一点 S^2 = -------- * --- Σ(Xi-Y)^2 n(k-1) k i=1~k 当n很大时,(n-1)和 n消去,得到定理中的结果。 QED ** 所以你会说:「啊...所以还是要做个近似的(n趋近於无限大)」 别忘了我们是做统计,n趋近无限大,是一个很合理的假设 在这个假设下,由以上的推导,我们知道S^2还是要除以「k-1」 才能最没有偏差的估计σ^2。 (当然,我们也可以有其他的方式估计σ^2, 如果我们觉得偏差可以接受,但是我们要有最大的可能性去估计σ^2 那麽就要除以k,这是用 most likelihood estimate等方法的估计 在这里就不多提了。) ** 在高中或大学,常常听到一个「除以k-1的理由」 是因为样本的标准差,只有 k-1个自由度, 最後我们补充一个定理,说明自由度的问题 证明就省略,有兴趣的人可以参考数理统计的书。 ============================================================= Thoerem 02:以简单随机取样的随机变数 X1,X2,...Xk 定义两个统计量 Y 和 S^2 (都是随机变数): Y = (X1+X2+...+Xk)/k 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k 则 Y 和 S^2 为互相独立的随机变数。 ============================================================= -- 这是你吗 你要这样的过吗 这是你吗 你错过了自己吧 就这样吗 把你自己信仰 来换别人所谓的天堂 这是你吗 是谁给了你框框 这是你吗 把你自己都遗忘 你的心 毕竟是你自己的地方 --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.109.32.9 ※ 编辑: microball 来自: 140.109.32.9 (06/24 20:07)
1F:推 sendohandy:看一半先推221.169.163.121 06/24
2F:推 jencheng:本期(113期) '数学传播' 有这方面的讨论 218.166.68.66 06/24
3F:推 gary27:收到精华统计区140.134.242.144 06/24
4F:推 yhliu:若要计算 "标准差的不偏估计", 必须先知道群体分布 140.116.52.117 06/25







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP