看板Statistics
标 题Re: [问题] 请问样本数太大所造成统计显着问题
发信站无名小站 (Fri Jul 21 05:04:17 2006)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!wretch
※ 引述《[email protected] (我是鱼)》之铭言:
> 我的研究样本数太大2000多份
> 原本设p<.05
> 在t-test和anova分析的时候
> 很容易就达到显着性差异
> 那如果我设p<.01的话
> 是不是可以解决掉样本数太大易达显着的问题?
> 拜托各位大大帮我回答一下
> 或是有哪个学者有说过样本数太大易达显着的问题
> 和解决的方法?
> 感谢各位大大
样本 "太大" 的问题, 是贝氏学派攻击 N-P test 理论的
论点之一. 除了贝氏学者以具氏方法 "解决" 此问题之外,
非贝氏学者也有从 "indifference zone" 观点寻求解决.
可查阅贝氏分析的书, 或研究所层级的数理统计教本. 网
路搜寻可试试 "Lindley's paradox" 或 "Jeffreys' paradox".
以下转贴一篇旧文, 算是个人对此问题的看法.
[转自 telnet://bbs.ncku.edu.tw 的 Statistics 版]
标题 统计与机率的诡论 --- Lindley's paradox (大样本的困境)
时间 Sun Apr 1 18:29:36 2001
统计上能称得上 "诡论" 的, 常涉及深层的统计基础
理论或思想, Lindley 诡论就是这样一个例子。
Lindley 诡论, 是 1957 年 Lindley 在 Biometrika
所发表的; 不过, 彼所描述的现象, Jeffreys 在其
1939 年的专着 Theory of Probabilities 就提到了,
所以有时也称之为 Jeffreys' paradox, 只是 Jeffreys
并未称之为 "诡论"。
Lindley 诡论涉及 Bayesian (贝氏学派) 和 frequentist
(频率论者) 的争议。以我之不学无术, 若介入其中马
上要被批死斗垮, 因此在这里将只谈及 Neyman-Pearson
检定之大样本困境及其解套, 而避免涉及贝氏观点 ----
虽然, 其实认真说起来这个诡论根本离不开贝氏/非贝氏
之争....有兴趣的读者可参考
Lee, P. M. (1989)
Bayesian Statistics: an introduction,
New York: Oxford University Press,
pp.134-143
及其中所提及的原始文献。
考虑一个统计假说检定
H0: θ=θ0 对 H1: θ<>θ0
例如常态群体平均数检定 (其他检定结果也一样)。
在样本数 n 及显着水准固定时, 可找到一个临界值,
与样本统计量比较, 做成决策; 或者, 可计算 p 值,
和显着水准比较。
问题是: 当样本数 n 很大时, 实务上可能发现几乎
都会弃绝虚无假说 H0。因此, 有所谓
"统计学家 (或: Neyman-Pearson 学派的统计
学家) 可以证明任何事"
的批评。
也许这样讲大家不会明白有何不对? 举两个例子:
(1) 在办理抽样调查时, 我们希望样本能代表群体。
但若样本数很大, 可能我们会得到不希望见到的
结果: 卡方适合度检定显示样本和群体不一致!
(2) 在一些统计资料分析中常有常态性条件 (normality
assumption), 因此分析者会做常态性检定。如
果你的样本数很大, 例如5000甚至上万个观测值,
可能各种数值性 (即: 不是看图说话) 的常态性
检定都很无情地告诉你: 这个样本不是来自常态
群体!
问题何在? 我们几乎不可能得到真正的 "θ=θ0" 的
结果; 我们面对的几乎都不是百分之百的常态群体;
我们的抽样程序加上调查回覆率, 几乎不可能得到百
分之百的完全具代表性的样本。换言之, θ 和 θ0
之间可能有一点点差距; 调查时不同特性的对像回覆
率多少有些差异; 我们的资料背後的群体和完美的常
态群体虽然很像却不完全相同。然而, 这些差距重要
吗?
从纯粹 Neyman-Pearson 观点, 其实不难解决上述问
题。如果θ和θ0确实不同, 即使差异极微, 只要样本
够大, 统计人员应该很容易发现, 也就是检定力 (power
of the test) 要够大, 否则就不是好的检定。然而,
实际问题并不需要 "θ=θ0" 这麽数学化的严苛要求!
我们要的是 "θ0-h<=θ<=θ0+h" 而已, "h" 的差距
并不造成结果应用的差异。例如: 一种药品的有效率
是 80% 或 81% 并无实质差异, 甚至 80%(+/-)5% 都
可认为是一样的。因此, 所谓 "θ=θ0" 这个假说只
是 "θ0-h<=θ<=θ0+h" 的简化形式罢了!
如果目标值是 θ0, 当 n 很大时虚无假说用 "θ=θ0"
会发生问题, 改用 "θ0-h<=θ<=θ0+h", 表示实际上
从 θ0-h 到 θ0+h 都可认为是和 θ0 无差别, 则不
会不适切地弃绝合适的假说。
但 n 小时以 "θ0-h<=θ<=θ0+h" 取代 "θ=θ0", 将
不必要地过度保护 H0 (θ=θ0)。那麽, 多大的 n 才
适合用区间型的虚无假说取代单点虚无假说? 其实, 也
不一定要更动虚无假说, 或降低显着水准! "实质显着性"
的概念, 即是传统方法的解答。对任一检定问题, 如上
述 "θ0-h<=θ<=θ0+h" 的问题, θ的点估计量T和θ0
的差, 是 θ-θ0 的估计量。当样本数 n 很大时, 它足
以代表 θ-θ0。只当 |T-θ0|>h 时, 才认为这项显着
性有实质意义, 称为 "实质显着性"。
采用 "统计显着性" 搭配 "实质显着性"
(1) 未达统计显着性 (即: 统计检定不显着)
==> 不弃绝 H0
(2) 达统计显着性, 但不具实质显着性
==> 忽略统计显着性
只当统计显着性及实质显着性都达到时, 才认为应接受
对立假说 (alternative hypothesis)。那麽, 还需为
Lindley's paradox 而烦恼吗?
--
嗨! 你好! 祝事事如意, 天天 happy! 统计专业版, 需要你的支持! :)
无名小站 telnet://wretch.twbbs.org Statistics (统计方法讨论区)
盈月与繁星 telnet://ms.twbbs.org Statistics (统计:让数字说话)
成大计中站 telnet://bbs.ncku.edu.tw Statistics (统计方法及学理讨论区)
交大资讯次世代 telnet://bs2.twbbs.org Statistics (统计与机率)
★本文未经本人同意请勿转载; 回覆请勿全文引用, 请仅留下直接涉及部分。
--
夫兵者不祥之器物或恶之故有道者不处君子居则贵左用兵则贵右兵者不祥之器非君子
之器不得已而用之恬淡为上胜而不美而美之者是乐杀人夫乐杀人者则不可得志於天下
矣吉事尚左凶事尚右偏将军居左上将军居右言以丧礼处之杀人之众以哀悲泣之战胜以
丧礼处之道常无名朴虽小天下莫能臣侯王若能守之万物将自宾天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦将知止知止可以不殆譬道之在天 163.15.188.87海