Statistics 板


LINE

我想知道我有 n > 100 的资料, (EDIT: 实际数目为四组, 数目分别为 509, 237, 168, 63) Normality test (Anderson–Darling) 得知分布非常态 (很多是零) 我想分析的资料有两个 independent variables, 如果是常态其实我就可以用 ANOVA 直接检定。 但现在它是非常态我就有点疑惑。 我想问 ANOVA 有常态分布的 assumption 吗? 因为 t-test 有原始资料呈常态分布的假设,我以为 ANOVA 为 t-test 对多个 sample 的 "扩充" 所以也有这个假设有,但是我的书 似乎没有写得很清楚。 Wikipedia 上面则说: "Normality – the distributions of the residuals are normal." 我一直以为 ANOVA 有原始资料(非 residuals) 须呈常态分布的假设 所以才会须要 Kruskal-Wallis test 等无母数的 "one-way ANOVA" test。 所以我的问题是:是原本资料就要成常态,还是 residual 才要是常态? 还是这两者之间有一定的关系? 原始资料非常态的时候会直接代表 residual 没有常态吗?还是要真的做过 regression才知道? Edit 补充:我上面指的 "原始资料" 是我的 samples,并非母体 另外我现在觉得因为我的n>100所以可以适用中央极限定律(对吧?) 但我还是想问 ANOVA residual normality assumption 的问题. --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 120.126.38.177 ※ 编辑: huggie 来自: 120.126.38.177 (04/15 12:31) ※ 编辑: huggie 来自: 120.126.38.177 (04/15 12:31)
1F:→ huggie:但是根据中央极限定律其实我不用管是否常态? 04/15 12:45
2F:推 kazuki:CLT不是这样用的,搜集100万笔卡方随机变数,这100万笔 04/15 12:53
3F:→ kazuki:就会变成常态随机变数?! 你的问题书上都有,翻翻书吧 04/15 12:54
4F:→ huggie:k大可以详细说明一下吗? 我的书我看不太出来..XD 04/15 13:09
5F:→ huggie:CLT是说母体非常态可是sample够多,mean呈常态所以可检定 04/15 13:10
6F:→ huggie:不知道为何不适用? 04/15 13:10
7F:→ huggie:关於ANOVA assumption我还是很疑惑 04/15 13:11
※ 编辑: huggie 来自: 120.126.38.177 (04/15 13:15)
8F:推 gsuper:我记得 2-way ANOVA 的假设 , 需要在 r*k 的 table 中 04/15 14:17
9F:→ gsuper:直的看每条都要常态 , 横的看也都要常态 , 全部打散一起看 04/15 14:17
10F:→ gsuper:仍然要常态 , 如果太不像常态分部 , 有时候 F会小於1 04/15 14:18
11F:推 gsuper:SStotal(全)=SSblock(横)+SStreat(直)+SSresidual(残) 04/15 14:22
12F:→ gsuper:照这逻辑来看,残差也要是常态分部based on全横直三项的运算 04/15 14:23
13F:→ huggie:你的意思是全横直都常态分布的话,残差看来就要是常态了? 04/15 16:26
14F:→ gsuper:恩,就是前三项符合常态,残差自然就是常态 04/15 16:36
15F:→ yhliu:因为 mean 不同, 因此所谓 "常态性条件" 指的是 error term 04/15 16:43
16F:→ yhliu:为 i.i.d. 常态. 但 error term 是看不到的, 只能以残差去 04/15 16:44
17F:→ yhliu:近似. 所以一般在 regression, ANOVA 或其他模型, 都是 fit 04/15 16:45
18F:→ yhliu:一个适当模型之後, 看残差项是否具有该模型要求的误差项应有 04/15 16:45
19F:→ yhliu:的分布特性. 至於你的资料是否能用基於常态性条件的 ANOVA, 04/15 16:46
20F:→ yhliu:我无法回答, 因为一则 "样本数100" 是总样本数或是分组样本 04/15 16:47
21F:→ yhliu:数我不清楚, 再者你说 "很多0", 猜测原各组资料分布可能有严 04/15 16:49
22F:→ yhliu:重偏斜, 那麽 n>100 也不见得能支持引用中央极限定理来支持 04/15 16:50
23F:→ yhliu:你进行普通的 ANOVA. 更糟糕的是, 或许各组资料的分散程度也 04/15 16:51
24F:→ yhliu:有不小差贯, 那麽 ANOVA 所需要的假设之一, 变异数均质性, 04/15 16:52
25F:→ yhliu:并不满足. 但你的资料适合用甚麽方法分析, 一则限於我对资料 04/15 16:53
26F:→ yhliu:不了解, 再则因我所学浅薄, 无法给予具体建议. 04/15 16:53
※ 编辑: huggie 来自: 120.126.38.177 (04/15 17:02) ※ 编辑: huggie 来自: 120.126.38.177 (04/15 17:06)
27F:→ huggie:我补充了n的资料了,var是否均质我是还没检查。假如均质, 04/15 17:11
28F:→ huggie:CLT只说sampling大时,mean的分布呈常态,严重偏斜会有很大 04/15 17:13
29F:→ huggie:影响吗?没有很清楚。依理解思考来说,母体应是非常态, 04/15 17:14
30F:→ huggie:数字全为正数,越趋近於零的数字越多 04/15 17:15
31F:→ huggie:我是要讲说 "我"没有很清楚..我不太懂 04/15 17:15
32F:→ huggie:这趋近於零多的资料可能可以做个transform吧,可是我还有 04/15 17:16
33F:→ huggie:资料我就不是很确定分布应该是如何了 04/15 17:16
34F:→ huggie:^ 其他 (一直漏打,读起来有点辛苦,抱歉) 04/15 17:17
35F:→ huggie:假使变异数均质,假如我套用model之後残差呈常态,这样不论 04/15 17:19
36F:→ huggie:我的sample如何,我的ANOVA assumption都有,就OK对吧? 04/15 17:20
37F:推 gsuper:不然你要不要找找看 robust ANOVA 的用法 ,[R]::robande 04/15 21:59
38F:→ yhliu:CLT 讲的是 n→∞ 样本平均数经标准化後其极限分布是常态. 04/15 22:23
39F:→ yhliu:用於实务, 是 "如果 n 够大, 则样本平均数的分布接近常态." 04/15 22:24
40F:→ yhliu:但甚麽时候可以说 "n 够大"? 抱歉! 没有标准! 04/15 22:25
41F:→ yhliu:千万别误信一些以讹传讹的说法! 04/15 22:25
42F:→ yhliu:如果不谈群体分布的特性就任意定个界限说 n 多少以上就可以, 04/15 22:26
43F:→ yhliu:那一定是错的! 群体分布的偏态、峰度都会影响平均数分布接近 04/15 22:27
44F:→ yhliu:常态的速度. 04/15 22:27
45F:→ yhliu:你说数据都非负, 越接近 0 越多, 这不待做甚麽检定就可判定 04/15 22:28
46F:→ yhliu:群体分布不是常态了! 至於那样的样本数够不够引用 CLT, 我仍 04/15 22:29
47F:→ yhliu:不能说甚麽....因为, 如果是接近指数分布, 可能那样的样本数 04/15 22:30
48F:→ yhliu:可以了; 但同样这种反J形分布, Pareto分布群体要适用CLT可能 04/15 22:31
49F:→ yhliu:样本数要比指数分布大些; 而对数常态分布可能要很大的 n 才 04/15 22:32
50F:→ yhliu:足够引用 CLT 来做推论. 有一些模拟结果请参考: 04/15 22:33
51F:→ yhliu:telnet://bbs.ncku.edu.tw 之 Statistics 版(按z进入) 04/15 22:33
52F:→ yhliu:→7→11→8 04/15 22:34
53F:→ yhliu:做变数变换後再做 ANOVA, 这应该可以改善分布的偏态, 加速 04/15 22:35
54F:→ yhliu:(变数变换後)样本平均数之分布接近常态分布的速度. 平方根 04/15 22:36
55F:→ yhliu:变换、对数变换都是可考虑的. 但因 "有很多0" 会造成两个问 04/15 22:36
56F:→ yhliu:题:(1) 0 无法取对数. 因此, 所有资料应加一常数再取对数. 04/15 22:37
57F:→ yhliu:(2) 一堆0不管如何转仍是同一个值. 也就是说经变数转换可能 04/15 22:38
58F:→ yhliu:是改变了数值之间的间隔而已...如果你的数据都只是少数几个 04/15 22:39
59F:→ yhliu:可能值的话. 不过, 就引用 CLT 做推论而言, 这变换应该仍是 04/15 22:40
60F:→ yhliu:有益的. 04/15 22:40
61F:→ bmka:Google bootstrap ANOVA if you are concerned about 04/16 12:23
62F:→ bmka:normality. In fact, I would be more concerned about 04/16 12:27
63F:→ bmka:over power than normality in your case. 04/16 12:27







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Gossiping站内搜寻

TOP