作者Kinght ( ̄▽ ̄)
看板Statistics
標題[問題] 卡方獨立性檢定 細格有0
時間Tue Aug 30 15:31:07 2011
拜託不要看到標題就先推Yate's Correction for Continuity或
Fisher's exact probability test
說來慚愧 接觸統計將近8年…
最近才聽說卡方檢定中細格不能有零這件事Orz
上網google 「卡方 0」也只有看到一筆資料有提到
而且只剩庫存頁面…
資料有幾個變項 有很多的變數 雖然樣本有超過2000
但是因為資料的特性 往往有一個變項很大 但是其他細格都是0
例如
甲 乙 丙 丁 戊 己 庚
A 280 1 10 0 0 0 2
B 12 5 0 380 5 3 1
C 0 181 3 1 0 2 5
D 1 3 0 21 89 40 20
E 9 20 18 50 150 0 0
類似這樣的狀況
如果併項到沒有0
1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers’V變小
請問有什麼方法解決嗎?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.29.135.126
1F:推 gsuper:我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資 08/31 02:00
2F:→ gsuper:料併項 整體的算法就不統一..很苦惱 08/31 02:01
3F:→ bmka:那為什麼不用Fisher's exact test? 08/31 09:44
4F:→ bmka:你知道為什麼要避免small cells嗎? 08/31 09:46
5F:→ Kinght:Fisher's是"期望值"小於5 因為會讓檢定值變高 08/31 12:30
6F:推 laba1014:請問有甚麼ref.提到細格"觀察值"不能為0的限制? 08/31 14:20
7F:→ laba1014:大部分書提到的只有對"期望值"的限制不是嗎 08/31 14:21
8F:→ bmka:Kinght大你記錯了,那不是Fisher exact的限制 08/31 19:13
9F:→ bmka:主要原因也不是檢定值(mistaken for power?) 的問題 08/31 19:14
10F:→ bmka:引一段 R. A. Fisher在書裡講的話 08/31 19:22
11F:→ bmka:"The treatment of frequencies by means of chi-square is 08/31 19:23
12F:→ bmka:an approximation, which is useful for the comparative 08/31 19:23
13F:→ bmka:simplicity of the calculations. The exact treatment is 08/31 19:23
14F:→ bmka:somewhat more laborious, though necessary in cases of 08/31 19:24
15F:→ bmka:doubt.” -- Statistical Methods for Research Workers 08/31 19:24
16F:→ bmka:他這裡指的statement of doubt就是"期望值"小於五 08/31 19:26
17F:→ bmka:這種情況下chi-square test statistic"很可能"不是卡方分佈 08/31 19:27
18F:→ bmka:(修正,"很可能"長得不像卡方分佈, chi-sq test 只是 08/31 19:29
19F:→ bmka:approximation test) 08/31 19:29
20F:→ bmka:所以,不好意思,還是請你用Fisher exact test吧 08/31 19:42
21F:→ yhliu:5×7 table, 要做 exact test? 不知多少時間能算出來? 08/31 21:20
22F:→ yhliu:卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的. 08/31 21:20
23F:→ yhliu:因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的 08/31 21:21
24F:→ yhliu:數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell 08/31 21:22
25F:→ yhliu:數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦! 08/31 21:23
26F:→ yhliu:另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值 08/31 21:24
27F:→ yhliu:相差太懸殊, 卡方近似還是有疑問的. 08/31 21:25
28F:→ yhliu:至於 cell observations 是 0 的問題, 很久很久以前看過一篇 08/31 21:26
29F:→ yhliu:文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是 08/31 21:27
30F:→ yhliu:負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過, 08/31 21:28
31F:→ yhliu:事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法 08/31 21:29
32F:→ yhliu:對付, 我無法肯定. 原文出處也沒有印象了. 08/31 21:30
33F:→ bmka:y大第一點指的是這篇 Koehler and Larntz (1980). An 08/31 21:48
34F:→ bmka:An empirical investigation of goodness-of-fit statistics 08/31 21:49
35F:→ bmka:for sparse multinomials. JASA, 75, 336-344. 08/31 21:49
36F:→ bmka:至於5X7的fisher exact 對現在的電腦來說算是小case啦 08/31 21:50
37F:→ bmka:如果是更大的table,R的function裡面還有用simulation來 08/31 21:53
38F:→ bmka:得到p-value這個選項(真的想省時間的話) 08/31 21:53
39F:推 gsuper:推一個 09/01 02:54
40F:→ Kinght:所以bmka大認為"即使細格有0 只要期望值<5的格數少於20% 09/01 08:48
41F:→ Kinght:仍不用做Fisher exact test"? 09/01 08:49
42F:→ bmka:我的中文有那麼差嗎....請多愛用Fisher's exact test. 09/01 11:11
43F:→ Kinght:所以你只是來推廣Fisher exact test? 09/01 15:41
44F:→ ADORIAN:b 大是說放心使用 Fisher's exact test 09/01 19:38
45F:→ bmka:謝謝A大翻譯 :) 09/01 19:57