作者saltlake (SaltLake)
看板Statistics
标题[问题] 样本数越大越好吗
时间Mon Sep 24 21:13:15 2018
一般提到统计常常会想到样本数,给定一个统计实验
的设计方式之後,要增加统计检定力(Power)的方式似
乎就是增加样本数。
且不论多收样本会增加成本等实务因素,理论上,增加
样本数是否就单纯让统计结果更可信,不会有负面影响?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.44.193.228
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1537794798.A.EFF.html
1F:→ andrew43: 现实世界的采样有成本。 09/24 22:38
2F:→ nefele: 样本能跟母体一样当然最好 09/25 10:11
3F:推 allen63521: 是 09/25 12:23
4F:推 ww770829: 如果你的样本不是有偏的就好 09/25 15:06
5F:推 LiamIssac: $$$$$$$ 09/25 17:21
6F:推 mrecct: 好奇一问 因样本太大造成统计上显着该怎麽办 09/25 22:30
意思是真正应该是不显着但却表现得显着? 这不就是伪阳性(第I型误差)吗?
伪阳性会因为样本变大而"更可能"发生?
7F:→ andrew43: 「我很有把握说H0错了,即使H0只错了一点点而已。」 09/25 23:21
厄,支持楼上的"把握"之证据怎来? 所谓"只错了一点点而已"是错多少?
估计的方式是? 得到该估计值的方法是?
※ 编辑: saltlake (114.44.193.96), 09/26/2018 04:35:05
8F:推 j401f2: 怎麽可能会有负面影响 最极端状况就是样本数=母体 09/26 10:31
9F:→ andrew43: 例如事实上为p=0.501的不公平铜板但你可以投掷一亿次 09/26 11:00
10F:→ andrew43: 仍会能够指出H0:p=0.5是有问题的 09/26 11:01
11F:推 Vulpix: 楼上这个问题可以用模糊逻辑来修理吧?接受0,1以外的真值 09/26 19:19
12F:推 henry7448: 这必需取决於你使用什麽样的模型与什麽样的估计量与检 09/26 20:07
13F:→ henry7448: 定量 09/26 20:07
14F:推 henry7448: 在比较复杂的模型中,你的样本增加,待估参数也会增加 09/26 20:09
15F:→ henry7448: ,如何有效的降维度又是另一门学问了 09/26 20:09
楼上能给具体实例吗? 光看目前上述抽象写法无法理解这主张的合理性。
抽样是为了对母体作近似,而在母体不变且原本所取的估计参数不变下,
怎麽会单纯因为对同一母体取更多样本而出现更多的参数来影响原本所要
的估计参数之结果?
比方说要探讨某治疗乳癌的新药的药效,确实倘原本只对女人抽样,之後
增加样本时也对男人抽样,会因为男女人罹患乳癌的机制和机转的差异而
对药效的估计产生差异。但这现象症结在於对於评估乳癌药效而言,因为
男女人本质的差异,自始就应该把男人和女人区分成不同的母体而分别做
抽样和估计。
※ 编辑: saltlake (114.44.244.2), 09/26/2018 21:17:37
16F:推 henry7448: 你所提的这个例子,一般会使用ANOVA来分析是吗? 如果 09/27 00:50
17F:→ henry7448: 是,那你是对的,样本数多多益善 09/27 00:50
18F:推 henry7448: 如果考虑的是因子模型或面版模型……那就要考虑很多情 09/27 00:53
19F:→ henry7448: 况了 09/27 00:53
20F:→ yhliu: 原本只对女性抽样, 改成对男女性都抽样, 这是群体变化了, 09/27 06:05
21F:→ yhliu: 无法用来谈 "样本增大是否有利无害". 要谈, 就在同一群体上 09/27 06:06
22F:→ yhliu: 谈. 09/27 06:07
23F:→ yhliu: 样本增大除了成本增加外, 还有许多问题, 包括增大非抽样误 09/27 06:09
24F:→ yhliu: 差. 单以抽样误差来说, 确实样本愈大抽样误差愈小, 极致就 09/27 06:11
25F:→ yhliu: 是 样本 = 群体, 即普查, 没有抽样误差. 就统计假说检定而 09/27 06:13
26F:→ yhliu: 言就是很容易推翻 H0 而接受 Ha. 这种容易接受 H1 并不是 09/27 06:15
27F:→ yhliu: 型I误机率增大所致, 型I误机率, 也就是 H0 成立却被推翻 09/27 06:17
28F:→ yhliu: 的机率永远受制於显着水准. 这种容易接受 Ha 往好处看是检 09/27 06:20
29F:→ yhliu: 定力的提高, 也就是减低型II误机率, 往坏处看就是吹毛求疵 09/27 06:23
30F:→ yhliu: (说好听点是明察秋毫), 也就是和 H0 稍有差异, H0 就被推翻 09/27 06:25
31F:→ yhliu: 这 "稍有差异" 如果有实质用处, 就是敏感度好; 如果是无伤 09/27 06:27
32F:→ yhliu: 大雅的差异, 就可以说是 "过敏" 了. 因此, 实务统计上除了 09/27 06:29
33F:→ yhliu: 检定程序上探问是否具备统计显着性(是否 reject H0)以外, 09/27 06:31
34F:→ yhliu: 也耍评估 "实质显着性", 也就是评估真实差异是否具实际意义 09/27 06:33