作者b1c5h4s7 (Olivia baby)
看板Statistics
标题[问题] 推论统计考题
时间Fri Aug 22 06:26:24 2014
我觉得我的基本观念不是很清楚(可我有翻了好几遍讲义还是无法融会贯通阿!!!><)
所以才写不出这样的题目,虽然杀鸡焉用牛刀,但还是希望能得到版上大大的指点><
【题目】
在修习统计学时,有一个理论一定是最早会被提到,这个理论影响了推论统计法的发展。
(1)请说明是哪个理论?
我猜是中央极限定理。
但刚开始我是想到描述统计,因为我记得描述统计是推论统计的基础,推论统计是透过
整理过的样本资料去推估母群资料。
但他说影响推论统计法发展又觉得应该是中央极限定理。
(2)说明此理论如何影响推论统计法的发展?
我想问t、卡方检定的假设都是母群为常态对不对??(昨天有点被同学搞混了)
像t虽然n<30时抽样分配长得不像常态,
但它的基本假定还是母群被假设为常态对吗??
(中央极限定理1可以算是在讲这句吗??另卡方有用到中央极限定理吗?)
如果是的话这题我可以朝这个方向写吗?
>>如果没有中央极限定理的假设,
那麽这些检定就没有一个可对照的比例分配(根据中央极限定理1),
也无法推估母群参数(根据中央极限定理2和3)。
※下一题一直在考虑要不要放上来问,可是这题跟心理学有很大的关系吗?
(3)请以「心理学」的研究为例,来说明此理论在什麽情况下应该不可以被用?
我想说第一个步骤是不是要知道在统计上有哪些情况不能用这个理论,
第二步才是去想心理学有哪些不能用?
目前想到在统计上不能用的可能有母群本身不被假定为常态,或是个案研究(样本=1)?
(我同学有人说回归和无母数统计)
((小滴咕
每次来这个高手集散地问初统都好窘哦...
问述过程哪里不好请各位大大鞭小力一点,我下次会改进
也希望有人可以理我一下 ((戳戳T_T
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.159.140.188
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Statistics/M.1408659987.A.476.html
1F:→ yhliu: (1) 我猜是中央极限定理没错. 08/23 01:45
2F:→ yhliu: (2) 由於中央极限定理, 因此早期统计推论只考虑大样本. 08/23 01:47
3F:→ yhliu: 至 t 分布的提出, 统计推论才转向小样本理论. 此时的小样本 08/23 01:48
4F:→ yhliu: 推论是建立在 常态群体 的假设之下 --- 这就与中央极限定理 08/23 01:49
5F:→ yhliu: 是两回事了. 又, t 分布在 d.f. 大时接近常态分布, 与中央 08/23 01:50
6F:→ yhliu: 极限定理不相干, 倒是与大数法则比较有关. 08/23 01:50
7F:→ yhliu: 卡方检定, 如果是指列联表检定、配适度检定, 那确实是中央 08/23 01:51
8F:→ yhliu: 极限定理的结果, 所以是 大样本方法. 08/23 01:52
9F:→ yhliu: (3) 如果 (1) 的答案是中央极限定理没错, 那麽, 不适用的 08/23 01:53
10F:→ yhliu: 情况也就是不宜引用中央极限定理, 也就是样本不够大的情况. 08/23 01:54
11F:→ b1c5h4s7: 感谢yhliu大大>< 08/23 21:50
12F:→ kerwinhui: 也有可能(1)是大数法测 08/24 01:59
13F:→ kerwinhui: (2)就可能是说用大数法则定义机率的死循环,直到上世纪 08/24 02:02
14F:→ kerwinhui: 发展出 frequentist 和 Bayesian 两种不同的统计学 08/24 02:04
15F:→ kerwinhui: (3)除了yhliu上述的答案,还有就是样本之间独立的问题 08/24 02:13
16F:→ yhliu: 我也思考过题意是否问大数法则. 不过, 细思觉得大数法则不 08/24 17:04
17F:→ yhliu: 是用在 "推论". 大数法则讲的是例如 样本平均≒群体平均, 08/24 17:06
18F:→ yhliu: 换言之, 就是 样本≒群体, 根本无需 "推论" 了. 08/24 17:07
19F:→ yhliu: 至於样本中观测值之间的相互独立性, 这不只涉及中央极限定 08/24 17:08
20F:→ yhliu: 理适用与否, 而是所有统计推论程序的适用性问题. 直言之, 08/24 17:09
21F:→ yhliu: 观测值间相互不独立, 依其关联结构, 需要特殊的统计程序. 08/24 17:11
22F:→ kerwinhui: 看你怎样定义"推论"。大数法则拿来堆论是 Bernoulli 08/24 22:25
23F:→ kerwinhui: 1713 年开始,Laplace 的 direct probabilty 是 1774 08/24 22:26
24F:→ kerwinhui: 高斯正态分布的推论(finite variance)是 1809 年, 08/24 22:28
25F:→ kerwinhui: 高斯拿小样本是1823-28 年,所以除非你把之前一百多年 08/24 22:32
26F:→ kerwinhui: 的统计学都不算(那贝叶斯就肯定不关推论统计什麽事了) 08/24 22:34
27F:→ kerwinhui: 大数法则不需要样本≒群体,在没有Kolmogorov/Salvage/ 08/24 22:37
28F:→ kerwinhui: ...的机率论之前就已经在用了 08/24 22:39
29F:→ kerwinhui: 比如说 Bernoulli 自己就有推论 Bernoulli trial 的 p 08/24 22:43
30F:→ kerwinhui: 会在 N 越大时越稳定,也给了一个 lower bound 08/24 22:45
31F:→ kerwinhui: 感觉若然答案是CLT的话,则出题者必为 frequentist… 08/24 22:52
32F:→ yhliu: 我说 "大数法则" 就是直接说 样本≒群体, 我可没说基於大样 08/25 17:36
33F:→ yhliu: 本的统计推论不算推论. 小样本跟中央极限定理什麽关系? 小 08/25 17:37
34F:→ yhliu: 样本推论就是基於 "正确" 分布的扭推论, 就是不依赖中央极 08/25 17:38
35F:→ yhliu: 限定理的推论. 08/25 17:38
36F:→ yhliu: 当然要说基於大数法则 "样本≒群体" 的统计分析是推论也无 08/25 17:39
37F:→ yhliu: 不可, 毕竟还是从样本猜群体. 只是这已经说 样本≒群体 了, 08/25 17:40
38F:→ yhliu: 还有什麽好讨论的? 就像说用样本平均数估计群体平均数, 基 08/25 17:41
39F:→ yhliu: 於大数法则就是把样本平均数算出, 而後说群体平均数大概就 08/25 17:42
40F:→ yhliu: 是这个值. 而基於中央极限定理的推论, 不仅算出点估计值(样 08/25 17:43
41F:→ yhliu: 本平均数), 还算出样本平均数之标准差或标准误, 并可依此建 08/25 17:44
42F:→ yhliu: 立信赖区间, 或做关於群体平均数之假说检定. 所谓统计推论, 08/25 17:45
43F:→ yhliu: 通常包括 点估计+抽样误差计算, 区间估计, 假说检定, 预测. 08/25 17:46
44F:→ yhliu: 只算出点估计值而不考虑其误差, 这样的推论太粗糙. 08/25 17:47
45F:→ yhliu: 这还能扯到 frequentist 与 Bayesian 的问题? 08/25 17:48
46F:→ kerwinhui: Bernoulli也有估计误差啊,怎麽能说太粗糙?当然,他给 08/26 11:51
47F:→ kerwinhui: 的误差现在看来是很粗糙的。 08/26 11:52
48F:→ kerwinhui: 我想我们的分歧是在於『推论统计』的定义上,若你把它 08/26 11:55
49F:→ kerwinhui: 定义成 R.A.Fisher 的那一套上,当然可以说CLT是始祖 08/26 11:58
50F:→ kerwinhui: 但若是定义广泛一点,像 Cox 的 Principles of Stat. 08/26 11:59
51F:→ kerwinhui: Inferences 的那样,那麽weak LLN是第一步 08/26 12:05
52F:→ kerwinhui: 因为它给了plug-in principle作为parameter estimation 08/26 12:07
53F:→ kerwinhui: 然後才是『这个估算有多好?』的CLT,Edgeworth,... 08/26 12:08
54F:→ kerwinhui: 能够扯出 frequentist vs Bayesian 是因为 Bayesian 的 08/26 12:09
55F:→ kerwinhui: 几个中央极限定理在历史上出现的时间都是颇後期的 08/26 12:10
56F:→ kerwinhui: 而且Bayesian推论是根本可以不用asymptotics的 08/26 12:12
不好意思,我想打个岔问一个问题(两位大大的讨论有点深澳我看不太懂^^")
我想再问~只有母群体是常态或被假设为常态才能使用中央极限定理吗?
57F:→ kerwinhui: 不用,CLT只要有独立+有限一、二次矩都可以用,也有 08/26 23:20
58F:→ kerwinhui: 非同分布的版本、非独立但相距"不远"也可以在2+delta次 08/26 23:24
59F:→ kerwinhui: 矩有限时用 08/26 23:25
感谢kerwinhui大大的回答(不过我看不太懂有限一、二次矩之後那些东西..)
60F:→ yhliu: 劝君多读书 --- 请读教本! 会误以为群体是常态才适用中央极 08/28 09:29
61F:→ yhliu: 限定理, 这基础实在太薄弱! 若已知群体是常态, 几乎已不需 08/28 09:30
62F:→ yhliu: 要中央极限定理了. 基本的东西不了解, 来这里问也没用, 因 08/28 09:31
63F:→ yhliu: 为你根本不可能判断别人给的说法是对是错, 届时以讹为正, 08/28 09:32
64F:→ yhliu: 考试失分还只是小事, 用於实务问题, 造成大灾难也未可知. 08/28 09:33
大大您误会了,我并不是贪图方便而偷懒不去看书,就如原文所说,我已经看好几遍了,
(讲义、课本、上网查)但还是不清楚,林清山对於CLT的定义是:
「若我们重复从母群抽取样本大小为N的许多样本,则所得到的这许多样本平均数将成为
常态分配,这些样本平均数将等於Mu,标准差等於标准误」
这段解释让我认为是不是母群要是常态或被假定为常态,接下来才能用样本=母群平
均数和变异误这两个东西。
然後多数在讲CLT(指我手边有的书和所查网路资料)都只有讲样本大於30可为常态、
样本平均数=母群平均数、变异误这三样东西,并没有详加叙述其他部分
※ 编辑: b1c5h4s7 (49.159.158.211), 08/28/2014 16:37:47
65F:→ yhliu: 却不知你如何看出群体要是常态? 09/01 11:51
66F:→ yhliu: 我是建议你 "多看教本", 并没说你不看书. 事实上你是不懂什 09/01 11:53
67F:→ yhliu: 麽是中央极限定理, 所以从网路上看到的东西根本无法分辨何 09/01 11:54
68F:→ yhliu: 者正确何者错误. 09/01 11:54
69F:→ yhliu: 简单随机样本的平均数几乎不可能等於群体平均数, 是假设能 09/01 11:55
70F:→ yhliu: 重复做抽样, 那麽重复无穷多次结果得到的无穷多个大小为 n 09/01 11:56
71F:→ yhliu: 的样本平均数的平均数 (注意: 是许多样本平均数的平均, 不 09/01 11:57
72F:→ yhliu: 是一个样本的平均值), 会等於群体平均数. 这与中央极限定理 09/01 11:58
73F:→ yhliu: 无关! 中央极限定理说的是: 在简单的条件下, 如果上述样本 09/01 11:59
74F:→ yhliu: 大小 n 够大, 那麽这许多样本平均数构成的分布, 会接近常态 09/01 12:00
75F:→ yhliu: 分布. 再强调一次: E[Xbar] = μ, Var(Xbar) = σ^2/n 这与 09/01 12:00
76F:→ yhliu: 中央极限定理无关, 那是简单随机样本必有的结果. 09/01 12:01
77F:→ yhliu: 至於中央极限定理所谓 "n 够大", 并不是 "n 大於 30", 这是 09/01 12:02
78F:→ yhliu: 不懂的人以讹传讹的结果! 09/01 12:02
79F:→ yhliu: "n 够大" 的 n 要多少, 与群体分布的特性有关, 也与能容忍 09/01 12:03
80F:→ yhliu: 的误差有关. 因此, 我无法给你 n 要多大才算 "够大" 的具体 09/01 12:04
81F:→ yhliu: 数字. 以前我曾做过一些模拟, 可惜所放的 bbs 站已关了! 09/01 12:07
82F:→ yhliu: 以 "n 大於 30" 或 "大於或等於30" 的由来, 应是来自一般统 09/01 12:08
83F:→ yhliu: 计教本都有的 t 分布在自由度 30 以上时可用标准常态分布近 09/01 12:09
84F:→ yhliu: 似. 很多人误以为这就是中央极限定理, 大谬! t 分布在自由 09/01 12:10
85F:→ yhliu: 度大时接近常态分布的根源是 "大数法则", 是 样本标准差 09/01 12:11
86F:→ yhliu: 近似群体标准差 的结果, 与中央极限定理是两回事. 09/01 12:11
87F:→ kerwinhui: 的确,Wilcox好像出过几份paper说明这个n>30仍然是不够 09/03 17:03
88F:→ kerwinhui: 大,主要原因是不知道σ的情况下s^2会偏离χ^2分布 09/03 17:05
89F:→ kerwinhui: 忘了说,30这个神奇的数字其实是来自於Student(t分布的 09/03 17:22
90F:→ kerwinhui: 那个)曾经说过他自己的经验是correlation correction 09/03 17:24
91F:→ kerwinhui: factor在两个独立抽样, n=30时大概没影响了,之後就被 09/03 17:26
92F:→ kerwinhui: 人误用至今… 09/03 17:26