作者yummybron (好吃布朗)
看板Statistics
标题[问题] 大样本非常态
时间Fri Mar 1 09:42:48 2019
大家好,最近在跑作业的时候遇到一个问题,目前有一组资料大约五千多笔,预计先跑常态性检定,若符合常态分配的话会使用t检定,若非则用无母数检定。
我的问题是,目前用SPSS跑出来发现这些资料拒绝常态分配的假说,我了解CLT的大样本没有一定的标准,需要视收敛速度决定,但五千多笔还没有收敛这是有可能的吗?
这样的情况我要用无母数检定还是t检定?
统计观念没有很好,还请各位多指教。
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.140.13.182
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1551404570.A.FB4.html
1F:→ Pieteacher: CLT 不是只有样本大的条件, 还有moment的一些条件 03/01 12:15
2F:→ Pieteacher: 虽然不好 verify, 要就事做无母数 不然就透过转换 03/01 12:15
3F:→ Pieteacher: 让他像 normal 一点 03/01 12:15
4F:推 celestialgod: CLT是对平均值的分配 而非观察值.... 03/01 20:02
5F:推 Vulpix: 观察值不常态很正常啊。成绩、身高、体重这些没有一个会是 03/02 01:06
6F:→ Vulpix: 真正的常态,因为这些常见的数据都没有负的。 03/02 01:07
7F:→ celestialgod: 没有负的就不是常态也不太对.... 03/02 21:23
8F:→ celestialgod: 身高平均175 标准差5的话 <0的机率.... 03/02 21:23
9F:→ celestialgod: 观察值不是常态 有两个方向可以解释 03/02 21:24
10F:→ celestialgod: 第一个他可能是mixture常态 要找到关键变因切割 03/02 21:24
11F:→ celestialgod: 像是男女生的身高分布不同,放在一起不可能是常态 03/02 21:25
12F:→ celestialgod: 另一个就是它本身就不是出自常态分配 03/02 21:26
13F:→ celestialgod: 另外,楼主的常态性检定 有没有想过 03/02 21:27
14F:→ celestialgod: 样本大的时候power跟样本大小的关系 03/02 21:28
15F:→ celestialgod: 样本大的时候,检定力高,只要有一点点不同就会 03/02 21:29
16F:→ celestialgod: 拒绝虚无假设 03/02 21:29
17F:→ celestialgod: 建议原PO画画看QQ-plot 看看图形来判断跟常态差异 03/02 21:29
18F:→ celestialgod: 有多大 03/02 21:29
19F:→ celestialgod: 看原始值跟对角线差异在哪 03/02 21:31
20F:→ celestialgod: 原始值尾巴小於对角线 就是尾巴部分比较短 03/02 21:31
21F:→ celestialgod: 相反就是尾巴分布长 03/02 21:32
22F:→ celestialgod: 两种会有不同样的做法做转换 03/02 21:32
23F:→ celestialgod: 第三种就是主体偏离对角线,这种通常就没救了 03/02 21:32
24F:→ yhliu: 5000笔资料如果能分布得像常态才怪哩! 而所谓 "基於常态分 03/07 03:53
25F:→ yhliu: 布的统计方法", 又一称呼是 "大样本的统计方法". n=5000 勉 03/07 03:55
26F:→ yhliu: 强可称之为大样本了吧? (废话, 人家 n=30 都叫大样本了!) 03/07 03:57
27F:→ yhliu: 不过, 其实也不是这麽看的, 应该先问是要做什麽分析, 从子 03/07 04:00
28F:→ yhliu: 样本来看是否适用大样本的统计方法. 总不能5000笔资料分割 03/07 04:04
29F:→ yhliu: 成数百组相互比较还说是大样本吧? 也不能近5000笔一组与十 03/07 04:06
30F:→ yhliu: 几笔一组的相比较还说是大样本吧? 以比较平均数为例 (既然 03/07 04:08
31F:→ yhliu: 提到 t 检定, 辜且认为是比较平均数吧.) 是否适用大样本方 03/07 04:10
32F:→ yhliu: 法, 看的是分组後各组是否子样本的分布长得像来自常态群体 03/07 04:12
33F:→ yhliu: (别指望真的来自常态群体, 大概像常态就可以了.) 其次看样 03/07 04:14
34F:→ yhliu: 本数最小那一组是否足以引用中央极限定理 (也就是能否称是 03/07 04:16
35F:→ yhliu: 大样本). 以 t 检定的稳健性, 除非子样本特小或样本分布的 03/07 04:18
36F:→ yhliu: 形态特偏, 否则适用 t 检定大多是没问题的. 03/07 04:21
37F:推 evilove: 我只是要推一下久不见的老怪物帐号 :) 03/09 01:14
38F:→ sjgc5e1p9r: 我印象中CLT指的是样本平均会收敛到常态分配,你这里 05/02 12:50
39F:→ sjgc5e1p9r: 是指样本"平均"吗? 05/02 12:50