作者huggie (huggie)

站內Statistics

標題

[問題] ANOVA 有常態分佈的假設嗎?

時間Fri Apr 15 12:30:22 2011

我想知道我有 n > 100 的資料， (EDIT: 實際數目為四組, 數目分別為 509, 237, 168, 63) Normality test (Anderson–Darling) 得知分佈非常態 (很多是零) 我想分析的資料有兩個 independent variables，如果是常態其實我就可以用 ANOVA 直接檢定。但現在它是非常態我就有點疑惑。我想問 ANOVA 有常態分佈的 assumption 嗎? 因為 t-test 有原始資料呈常態分佈的假設，我以為 ANOVA 為 t-test 對多個 sample 的 "擴充" 所以也有這個假設有，但是我的書似乎沒有寫得很清楚。 Wikipedia 上面則說: "Normality – the distributions of the residuals are normal." 我一直以為 ANOVA 有原始資料(非 residuals) 須呈常態分佈的假設所以才會須要 Kruskal-Wallis test 等無母數的 "one-way ANOVA" test。所以我的問題是:是原本資料就要成常態，還是 residual 才要是常態? 還是這兩者之間有一定的關係? 原始資料非常態的時候會直接代表 residual 沒有常態嗎?還是要真的做過 regression才知道? Edit 補充:我上面指的 "原始資料" 是我的 samples，並非母體另外我現在覺得因為我的n>100所以可以適用中央極限定律(對吧?) 但我還是想問 ANOVA residual normality assumption 的問題. --

※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.126.38.177 ※ 編輯: huggie 來自: 120.126.38.177 (04/15 12:31) ※ 編輯: huggie 來自: 120.126.38.177 (04/15 12:31)

1^F：→ huggie:但是根據中央極限定律其實我不用管是否常態? 04/15 12:45

2^F：推 kazuki:CLT不是這樣用的，搜集100萬筆卡方隨機變數，這100萬筆 04/15 12:53

3^F：→ kazuki:就會變成常態隨機變數?! 你的問題書上都有，翻翻書吧 04/15 12:54

4^F：→ huggie:k大可以詳細說明一下嗎? 我的書我看不太出來..XD 04/15 13:09

5^F：→ huggie:CLT是說母體非常態可是sample夠多，mean呈常態所以可檢定 04/15 13:10

6^F：→ huggie:不知道為何不適用? 04/15 13:10

7^F：→ huggie:關於ANOVA assumption我還是很疑惑 04/15 13:11

※ 編輯: huggie 來自: 120.126.38.177 (04/15 13:15)

8^F：推 gsuper:我記得 2-way ANOVA 的假設 , 需要在 r*k 的 table 中 04/15 14:17

9^F：→ gsuper:直的看每條都要常態 , 橫的看也都要常態 , 全部打散一起看 04/15 14:17

10^F：→ gsuper:仍然要常態 , 如果太不像常態分部 , 有時候 F會小於1 04/15 14:18

11^F：推 gsuper:SStotal(全)=SSblock(橫)+SStreat(直)+SSresidual(殘) 04/15 14:22

12^F：→ gsuper:照這邏輯來看,殘差也要是常態分部based on全橫直三項的運算 04/15 14:23

13^F：→ huggie:你的意思是全橫直都常態分佈的話，殘差看來就要是常態了? 04/15 16:26

14^F：→ gsuper:恩,就是前三項符合常態,殘差自然就是常態 04/15 16:36

15^F：→ yhliu:因為 mean 不同, 因此所謂 "常態性條件" 指的是 error term 04/15 16:43

16^F：→ yhliu:為 i.i.d. 常態. 但 error term 是看不到的, 只能以殘差去 04/15 16:44

17^F：→ yhliu:近似. 所以一般在 regression, ANOVA 或其他模型, 都是 fit 04/15 16:45

18^F：→ yhliu:一個適當模型之後, 看殘差項是否具有該模型要求的誤差項應有 04/15 16:45

19^F：→ yhliu:的分布特性. 至於你的資料是否能用基於常態性條件的 ANOVA, 04/15 16:46

20^F：→ yhliu:我無法回答, 因為一則 "樣本數100" 是總樣本數或是分組樣本 04/15 16:47

21^F：→ yhliu:數我不清楚, 再者你說 "很多0", 猜測原各組資料分布可能有嚴 04/15 16:49

22^F：→ yhliu:重偏斜, 那麼 n>100 也不見得能支持引用中央極限定理來支持 04/15 16:50

23^F：→ yhliu:你進行普通的 ANOVA. 更糟糕的是, 或許各組資料的分散程度也 04/15 16:51

24^F：→ yhliu:有不小差貫, 那麼 ANOVA 所需要的假設之一, 變異數均質性, 04/15 16:52

25^F：→ yhliu:並不滿足. 但你的資料適合用甚麼方法分析, 一則限於我對資料 04/15 16:53

26^F：→ yhliu:不了解, 再則因我所學淺薄, 無法給予具體建議. 04/15 16:53

※ 編輯: huggie 來自: 120.126.38.177 (04/15 17:02) ※ 編輯: huggie 來自: 120.126.38.177 (04/15 17:06)

27^F：→ huggie:我補充了n的資料了，var是否均質我是還沒檢查。假如均質， 04/15 17:11

28^F：→ huggie:CLT只說sampling大時，mean的分佈呈常態，嚴重偏斜會有很大 04/15 17:13

29^F：→ huggie:影響嗎?沒有很清楚。依理解思考來說，母體應是非常態， 04/15 17:14

30^F：→ huggie:數字全為正數，越趨近於零的數字越多 04/15 17:15

31^F：→ huggie:我是要講說 "我"沒有很清楚..我不太懂 04/15 17:15

32^F：→ huggie:這趨近於零多的資料可能可以做個transform吧，可是我還有 04/15 17:16

33^F：→ huggie:資料我就不是很確定分佈應該是如何了 04/15 17:16

34^F：→ huggie:^ 其他 (一直漏打，讀起來有點辛苦，抱歉) 04/15 17:17

35^F：→ huggie:假使變異數均質，假如我套用model之後殘差呈常態，這樣不論 04/15 17:19

36^F：→ huggie:我的sample如何，我的ANOVA assumption都有，就OK對吧? 04/15 17:20

37^F：推 gsuper:不然你要不要找找看 robust ANOVA 的用法 ,[R]::robande 04/15 21:59

38^F：→ yhliu:CLT 講的是 n→∞ 樣本平均數經標準化後其極限分布是常態. 04/15 22:23

39^F：→ yhliu:用於實務, 是 "如果 n 夠大, 則樣本平均數的分布接近常態." 04/15 22:24

40^F：→ yhliu:但甚麼時候可以說 "n 夠大"? 抱歉! 沒有標準! 04/15 22:25

41^F：→ yhliu:千萬別誤信一些以訛傳訛的說法! 04/15 22:25

42^F：→ yhliu:如果不談群體分布的特性就任意定個界限說 n 多少以上就可以, 04/15 22:26

43^F：→ yhliu:那一定是錯的! 群體分布的偏態、峰度都會影響平均數分布接近 04/15 22:27

44^F：→ yhliu:常態的速度. 04/15 22:27

45^F：→ yhliu:你說數據都非負, 越接近 0 越多, 這不待做甚麼檢定就可判定 04/15 22:28

46^F：→ yhliu:群體分布不是常態了! 至於那樣的樣本數夠不夠引用 CLT, 我仍 04/15 22:29

47^F：→ yhliu:不能說甚麼....因為, 如果是接近指數分布, 可能那樣的樣本數 04/15 22:30

48^F：→ yhliu:可以了; 但同樣這種反J形分布, Pareto分布群體要適用CLT可能 04/15 22:31

49^F：→ yhliu:樣本數要比指數分布大些; 而對數常態分布可能要很大的 n 才 04/15 22:32

50^F：→ yhliu:足夠引用 CLT 來做推論. 有一些模擬結果請參考: 04/15 22:33

51^F：→ yhliu:telnet://bbs.ncku.edu.tw 之 Statistics 版(按z進入) 04/15 22:33

52^F：→ yhliu:→7→11→8 04/15 22:34

53^F：→ yhliu:做變數變換後再做 ANOVA, 這應該可以改善分布的偏態, 加速 04/15 22:35

54^F：→ yhliu:(變數變換後)樣本平均數之分布接近常態分布的速度. 平方根 04/15 22:36

55^F：→ yhliu:變換、對數變換都是可考慮的. 但因 "有很多0" 會造成兩個問 04/15 22:36

56^F：→ yhliu:題:(1) 0 無法取對數. 因此, 所有資料應加一常數再取對數. 04/15 22:37

57^F：→ yhliu:(2) 一堆0不管如何轉仍是同一個值. 也就是說經變數轉換可能 04/15 22:38

58^F：→ yhliu:是改變了數值之間的間隔而已...如果你的數據都只是少數幾個 04/15 22:39

59^F：→ yhliu:可能值的話. 不過, 就引用 CLT 做推論而言, 這變換應該仍是 04/15 22:40

60^F：→ yhliu:有益的. 04/15 22:40

61^F：→ bmka:Google bootstrap ANOVA if you are concerned about 04/16 12:23

62^F：→ bmka:normality. In fact, I would be more concerned about 04/16 12:27

63^F：→ bmka:over power than normality in your case. 04/16 12:27

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Statistics 板

[問題] ANOVA 有常態分佈的假設嗎?

熱門看板

贊助商連結