作者yummybron (好吃布朗)
看板Statistics
標題[問題] 大樣本非常態
時間Fri Mar 1 09:42:48 2019
大家好,最近在跑作業的時候遇到一個問題,目前有一組資料大約五千多筆,預計先跑常態性檢定,若符合常態分配的話會使用t檢定,若非則用無母數檢定。
我的問題是,目前用SPSS跑出來發現這些資料拒絕常態分配的假說,我了解CLT的大樣本沒有一定的標準,需要視收斂速度決定,但五千多筆還沒有收斂這是有可能的嗎?
這樣的情況我要用無母數檢定還是t檢定?
統計觀念沒有很好,還請各位多指教。
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.13.182
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1551404570.A.FB4.html
1F:→ Pieteacher: CLT 不是只有樣本大的條件, 還有moment的一些條件 03/01 12:15
2F:→ Pieteacher: 雖然不好 verify, 要就事做無母數 不然就透過轉換 03/01 12:15
3F:→ Pieteacher: 讓他像 normal 一點 03/01 12:15
4F:推 celestialgod: CLT是對平均值的分配 而非觀察值.... 03/01 20:02
5F:推 Vulpix: 觀察值不常態很正常啊。成績、身高、體重這些沒有一個會是 03/02 01:06
6F:→ Vulpix: 真正的常態,因為這些常見的數據都沒有負的。 03/02 01:07
7F:→ celestialgod: 沒有負的就不是常態也不太對.... 03/02 21:23
8F:→ celestialgod: 身高平均175 標準差5的話 <0的機率.... 03/02 21:23
9F:→ celestialgod: 觀察值不是常態 有兩個方向可以解釋 03/02 21:24
10F:→ celestialgod: 第一個他可能是mixture常態 要找到關鍵變因切割 03/02 21:24
11F:→ celestialgod: 像是男女生的身高分布不同,放在一起不可能是常態 03/02 21:25
12F:→ celestialgod: 另一個就是它本身就不是出自常態分配 03/02 21:26
13F:→ celestialgod: 另外,樓主的常態性檢定 有沒有想過 03/02 21:27
14F:→ celestialgod: 樣本大的時候power跟樣本大小的關係 03/02 21:28
15F:→ celestialgod: 樣本大的時候,檢定力高,只要有一點點不同就會 03/02 21:29
16F:→ celestialgod: 拒絕虛無假設 03/02 21:29
17F:→ celestialgod: 建議原PO畫畫看QQ-plot 看看圖形來判斷跟常態差異 03/02 21:29
18F:→ celestialgod: 有多大 03/02 21:29
19F:→ celestialgod: 看原始值跟對角線差異在哪 03/02 21:31
20F:→ celestialgod: 原始值尾巴小於對角線 就是尾巴部分比較短 03/02 21:31
21F:→ celestialgod: 相反就是尾巴分布長 03/02 21:32
22F:→ celestialgod: 兩種會有不同樣的做法做轉換 03/02 21:32
23F:→ celestialgod: 第三種就是主體偏離對角線,這種通常就沒救了 03/02 21:32
24F:→ yhliu: 5000筆資料如果能分布得像常態才怪哩! 而所謂 "基於常態分 03/07 03:53
25F:→ yhliu: 布的統計方法", 又一稱呼是 "大樣本的統計方法". n=5000 勉 03/07 03:55
26F:→ yhliu: 強可稱之為大樣本了吧? (廢話, 人家 n=30 都叫大樣本了!) 03/07 03:57
27F:→ yhliu: 不過, 其實也不是這麼看的, 應該先問是要做什麼分析, 從子 03/07 04:00
28F:→ yhliu: 樣本來看是否適用大樣本的統計方法. 總不能5000筆資料分割 03/07 04:04
29F:→ yhliu: 成數百組相互比較還說是大樣本吧? 也不能近5000筆一組與十 03/07 04:06
30F:→ yhliu: 幾筆一組的相比較還說是大樣本吧? 以比較平均數為例 (既然 03/07 04:08
31F:→ yhliu: 提到 t 檢定, 辜且認為是比較平均數吧.) 是否適用大樣本方 03/07 04:10
32F:→ yhliu: 法, 看的是分組後各組是否子樣本的分布長得像來自常態群體 03/07 04:12
33F:→ yhliu: (別指望真的來自常態群體, 大概像常態就可以了.) 其次看樣 03/07 04:14
34F:→ yhliu: 本數最小那一組是否足以引用中央極限定理 (也就是能否稱是 03/07 04:16
35F:→ yhliu: 大樣本). 以 t 檢定的穩健性, 除非子樣本特小或樣本分布的 03/07 04:18
36F:→ yhliu: 形態特偏, 否則適用 t 檢定大多是沒問題的. 03/07 04:21
37F:推 evilove: 我只是要推一下久不見的老怪物帳號 :) 03/09 01:14
38F:→ sjgc5e1p9r: 我印象中CLT指的是樣本平均會收斂到常態分配,你這裡 05/02 12:50
39F:→ sjgc5e1p9r: 是指樣本"平均"嗎? 05/02 12:50