作者saltlake (SaltLake)
看板Statistics
標題[問題] 樣本數越大越好嗎
時間Mon Sep 24 21:13:15 2018
一般提到統計常常會想到樣本數,給定一個統計實驗
的設計方式之後,要增加統計檢定力(Power)的方式似
乎就是增加樣本數。
且不論多收樣本會增加成本等實務因素,理論上,增加
樣本數是否就單純讓統計結果更可信,不會有負面影響?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.193.228
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1537794798.A.EFF.html
1F:→ andrew43: 現實世界的採樣有成本。 09/24 22:38
2F:→ nefele: 樣本能跟母體一樣當然最好 09/25 10:11
3F:推 allen63521: 是 09/25 12:23
4F:推 ww770829: 如果你的樣本不是有偏的就好 09/25 15:06
5F:推 LiamIssac: $$$$$$$ 09/25 17:21
6F:推 mrecct: 好奇一問 因樣本太大造成統計上顯著該怎麼辦 09/25 22:30
意思是真正應該是不顯著但卻表現得顯著? 這不就是偽陽性(第I型誤差)嗎?
偽陽性會因為樣本變大而"更可能"發生?
7F:→ andrew43: 「我很有把握說H0錯了,即使H0只錯了一點點而已。」 09/25 23:21
厄,支持樓上的"把握"之證據怎來? 所謂"只錯了一點點而已"是錯多少?
估計的方式是? 得到該估計值的方法是?
※ 編輯: saltlake (114.44.193.96), 09/26/2018 04:35:05
8F:推 j401f2: 怎麼可能會有負面影響 最極端狀況就是樣本數=母體 09/26 10:31
9F:→ andrew43: 例如事實上為p=0.501的不公平銅板但你可以投擲一億次 09/26 11:00
10F:→ andrew43: 仍會能夠指出H0:p=0.5是有問題的 09/26 11:01
11F:推 Vulpix: 樓上這個問題可以用模糊邏輯來修理吧?接受0,1以外的真值 09/26 19:19
12F:推 henry7448: 這必需取決於你使用什麼樣的模型與什麼樣的估計量與檢 09/26 20:07
13F:→ henry7448: 定量 09/26 20:07
14F:推 henry7448: 在比較複雜的模型中,你的樣本增加,待估參數也會增加 09/26 20:09
15F:→ henry7448: ,如何有效的降維度又是另一門學問了 09/26 20:09
樓上能給具體實例嗎? 光看目前上述抽象寫法無法理解這主張的合理性。
抽樣是為了對母體作近似,而在母體不變且原本所取的估計參數不變下,
怎麼會單純因為對同一母體取更多樣本而出現更多的參數來影響原本所要
的估計參數之結果?
比方說要探討某治療乳癌的新藥的藥效,確實倘原本只對女人抽樣,之後
增加樣本時也對男人抽樣,會因為男女人罹患乳癌的機制和機轉的差異而
對藥效的估計產生差異。但這現象癥結在於對於評估乳癌藥效而言,因為
男女人本質的差異,自始就應該把男人和女人區分成不同的母體而分別做
抽樣和估計。
※ 編輯: saltlake (114.44.244.2), 09/26/2018 21:17:37
16F:推 henry7448: 你所提的這個例子,一般會使用ANOVA來分析是嗎? 如果 09/27 00:50
17F:→ henry7448: 是,那你是對的,樣本數多多益善 09/27 00:50
18F:推 henry7448: 如果考慮的是因子模型或面版模型……那就要考慮很多情 09/27 00:53
19F:→ henry7448: 況了 09/27 00:53
20F:→ yhliu: 原本只對女性抽樣, 改成對男女性都抽樣, 這是群體變化了, 09/27 06:05
21F:→ yhliu: 無法用來談 "樣本增大是否有利無害". 要談, 就在同一群體上 09/27 06:06
22F:→ yhliu: 談. 09/27 06:07
23F:→ yhliu: 樣本增大除了成本增加外, 還有許多問題, 包括增大非抽樣誤 09/27 06:09
24F:→ yhliu: 差. 單以抽樣誤差來說, 確實樣本愈大抽樣誤差愈小, 極致就 09/27 06:11
25F:→ yhliu: 是 樣本 = 群體, 即普查, 沒有抽樣誤差. 就統計假說檢定而 09/27 06:13
26F:→ yhliu: 言就是很容易推翻 H0 而接受 Ha. 這種容易接受 H1 並不是 09/27 06:15
27F:→ yhliu: 型I誤機率增大所致, 型I誤機率, 也就是 H0 成立卻被推翻 09/27 06:17
28F:→ yhliu: 的機率永遠受制於顯著水準. 這種容易接受 Ha 往好處看是檢 09/27 06:20
29F:→ yhliu: 定力的提高, 也就是減低型II誤機率, 往壞處看就是吹毛求疵 09/27 06:23
30F:→ yhliu: (說好聽點是明察秋毫), 也就是和 H0 稍有差異, H0 就被推翻 09/27 06:25
31F:→ yhliu: 這 "稍有差異" 如果有實質用處, 就是敏感度好; 如果是無傷 09/27 06:27
32F:→ yhliu: 大雅的差異, 就可以說是 "過敏" 了. 因此, 實務統計上除了 09/27 06:29
33F:→ yhliu: 檢定程序上探問是否具備統計顯著性(是否 reject H0)以外, 09/27 06:31
34F:→ yhliu: 也耍評估 "實質顯著性", 也就是評估真實差異是否具實際意義 09/27 06:33