看板Statistics
标 题[批] "重要观念---中央极限定理 (CLT)"
发信站无名小站 (Tue Dec 13 08:17:22 2005)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!wretch
http://tw.club.yahoo.com/clubs/education-psy/
重要观念---中央极限定理 (CLT) 辅导老师李上
中央极限定理为推论统计中最重要的定理之一,推论统计想要
学的好,此CLT的观念势必要有完整的了解。
[老怪物批] 说得是没错; 问题是连作者本身都没弄清楚!
CLT为由母群一次抽取N个样本将形成一个样本平均数,如此不
断地抽取将形成一样本平均数的次数分配,此分配
[老怪物批] 不能说 "错", 但实在有点语焉不详!
1. 平均数等於母群平均数
2. 变异数为母群变异数除以N
3. 当N>30时无论母群为何分配,皆为常态分配
[老怪物批] 前两项是样本平均数基本结果, 与 CLT 无关!
而且既是有限次抽样的 "次数分布", 只是抽
样分布之近似, 其平均数/标准差, 也只能近
似理论值!
至於第3项结论, 完全是观念不清楚又未做实
证的猜测!
看两个例子吧!
| OOOO Pareto(1,3) 群体
.10+ OOOO n=100 时样本平均数之分布
| OOOOOOOO
| OOOOO@@@@@*
| OOOO@OOOOO *
.08+ OOO@OOOOOO *
| OO@OOOOOOOOO *
| O@OOOOOOOOOO *
| OO@OOOOOOOOOOOOO *
.06+ OOOOOOOOOOOOOOOO
| O@OOOOOOOOOOOOOOOO*
| OO@OOOOOOOOOOOOOOOOO *
| O@OOOOOOOOOOOOOOOOOO *
.04+ @OOOOOOOOOOOOOOOOOOOOO *
| *OOOOOOOOOOOOOOOOOOOOOO *
| OOOOOOOOOOOOOOOOOOOOOOOOOO
| *@OOOOOOOOOOOOOOOOOOOOOOOOOO@*
.02+ * OOOOOOOOOOOOOOOOOOOOOOOOOOOO *
| *OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO*
| ** OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@*
| **** OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@@@@OOOOO
.00+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
1.26 1.36 1.46 1.56 1.66 1.76
对数常态群体, 参数 (0,1),
| n=100
.12+
| OOO@@@*
| OO@OOOO@
| O@OOOOOO*
| OO@OOOOOOOO@
.08+ O@OOOOOOOOOO*
| OO@OOOOOOOOOOO *
| O@OOOOOOOOOOOOOO*
| @OOOOOOOOOOOOOOO *
| O@OOOOOOOOOOOOOOOOOO*
.04+ @OOOOOOOOOOOOOOOOOOO *
| *OOOOOOOOOOOOOOOOOOOOOO*
| @OOOOOOOOOOOOOOOOOOOOOOOO@
| **OOOOOOOOOOOOOOOOOOOOOOOOOO@@
| ****OOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@@@@OO
.00+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
.96 1.26 1.56 1.86 2.16 2.46
[老怪物白] 闭着眼睛你不妨忽视右偏的事实,而说它们都
接近常态! 这还是 n=100, 远大於 "30"!
ˇ 定理一的重要性为可以由样本去对母群的平均数做点估计,
样本平均数为母群平均数最好的不偏估计值。
[老怪物批] 不偏是不偏, 那 "最好" 的根据何在?
ˇ 定理二的重要性为可以决定母群的区间估计。当N愈大时估计
母群平均数的区间会愈来愈小即母群平均数可以被愈精准的
估计,此定理又再一次地表现出推论母群中最重要的参数为
样本数,当样本数愈多的情况下对母群有最多的了解!
[老怪物批] ....
ˇ 定理三的重要性为常态分配!因为无论母群分配长什麽样子,
只要N大於三十以上大家都会形成常态分配,所以可以站在同
一个基准点去互相比较。
[老怪物批] 胡说八道!
ˇ 举例如下,假如有个箱子里面有一百颗球每颗球上都有编号
1~100,注意!此为一矩形分配的母群(因为每一颗球被抽出
的机率相等),平均数为50,当我一次抽取一颗球时会形成怎
样的分配(N=1)?一次抽取两颗球平均(N=2)之後再抽取,这
样许许多多的平均数又会形成怎样的分配?若一次抽取5颗
(N=5)呢?同理若一次抽取30颗,甚至100颗呢?在各种不同
的样本数下,他们的平均数(定理一)、变异数(定理二)还有
分配形态(定理三)会有什麽样的不同呢?这个题目如果可以
弄清楚的话,相信中央极限定理您一定会有很好的了解!
[老怪物批] discrete uniform distribution ≠ rectangular distribution!
後者是连续型均匀分布的别名, 是因其 p.d.f.
而名的。
更重要的, 从有限群体以不放还法抽样,连样
本平均数的标准差都不再是 σ/√n, 更甭说
其 likelihood 很多人写不出来!
再者, 要谈中央极限定理,一无数理推证二无
模拟结果, 所谓 "弄清楚", 不外强记硬背吧?
由CLT可由样本去估计母群的平均数的信赖区间、假设考验(母群
参数已知为z检定、若未知则为单一样本t检定)、可由CLT推导出
两母群间平均数的差异情形(独立t或相依t )、可由CLT推导出组
间变异与组内变异的差异情形藉此去比较三母群平均数以上的差
异(F检定)。当抽样分配为z分数时,还可以去推导出卡方分配, = 。
[老怪物批] 乱七八糟! t 检定怎麽来的, CLT在谈甚麽都
搞不清楚! 既云根据 CLT 做近似, 既云推适,
又何来群体参数已知/未知之说?
其余诸言, 不足论也!
β、power、p-value也是由CLT下的样本平均数的次数分配所求
出。这点也就是为什麽样本数愈大的情况下,前三者会有所变化,
因为N愈大样本平均数的次数分配的变异数就会愈小,愈小的情
形下就容易显着power较大、 β变小、p-value变小。
[老怪物批] 难道没有 CLT, 就没有
"样本数愈大, power 愈高"
之类结果?
再者, 甚麽是 p-value, 把书好好地读一读吧!
--
夫兵者不祥之器物或恶之故有道者不处君子居则贵左用兵则贵右兵者不祥之器非君子
之器不得已而用之恬淡为上胜而不美而美之者是乐杀人夫乐杀人者则不可得志於天下
矣吉事尚左凶事尚右偏将军居左上将军居右言以丧礼处之杀人之众以哀悲泣之战胜以
丧礼处之道常无名朴虽小天下莫能臣侯王若能守之万物将自宾天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦将知止知止可以不殆譬道之在天 163.15.188.87海