作者andrew43 (討厭有好心推文後刪文者)
看板Statistics
標題Re: [問題] 如何用permutation 做獨立性檢定
時間Thu Mar 11 18:55:37 2021
從你的描述猜測,你要做的事是檢驗一組樣本是不是隨機的。
這是的隨機性有關於順序的。
我就一併把卡方檢驗與permutation test的概念談一談,不講實際運算。
傳統卡方的概念如下。
把資料按原本抽出的先後順序均切數組,每組有k個數字。
在每一組內把數字按大小順序轉換成 rank 次序(例如 3.1 4.5 1.5 轉換成 2 3 1)。
這些 rank 次序,最多有 k! 種可能性。
理想上,每種次序出現的機率皆相等為 1/k!。
假如資料是隨機的(即虛無假說),
則預期看到每種次序出現的次數差不多佔總次數的 1/k!。
接下來就是卡方 = sum[(實際次數 - 預期次數)^2 / 預期次數] 的事了。
於是你會算出一個卡方值,再對應自由度得到 p-value 並做推論。
假如資料是隨機的(即虛無假說),則這個卡方值應該相對小,
因為各種次序出現的次數差不多。
相對地,假如資料不是隨機的(例如一組遞增的數列),
則卡方值將相對大,因為大小次序的次數非常不均。
接下來討論 permutation test。
permutation test 的概念是,利用洗牌法創造出大量符合虛無假說的「假情況」,
再檢視未洗牌的情況與「假情況」相比有多麼地「特別」。
如何創造出大量符合虛無假說的「假情況」?
在這個例子就是把原始資料(還沒分組)洗牌(全部數字一起洗)。
你應該可以了解,洗牌就是創造隨機性數列,也就符合虛無假說。
洗牌後,把它當成你觀測到的資料,按上述方法從分組到算出一個卡方值。
重覆多次洗牌求卡方,你可以想像,大多數的卡方值是偏小的(因為基於隨機數列)。
最後,檢查有多少個「假卡方值」等於或大於最初觀測到的「真卡方值」。
這個次數再除以洗牌數字(很大的一個數;也有人認為要除以洗牌數字 + 1),
即表示「在虛無假說的條件下,能發現樣本或更離譜的樣本之機率」,
即為 p-value。
※ 引述《wgene》之銘言:
: permutation test 用卡方檢定做獨立性檢定
: 想找範例來看 找不到.
: 看不明白 如下連結所說的"計算每一種可能的個數 "
: 假設我隨機產生六個數 1 2 2 4 3 2
: 然後分兩組(1 2 2) (4 3 2)
: 第一組有3種情況: 1 2 2, 2 1 2, 2 2 1 的個數都是2
: 第二組有6種情況: 4 3 2, 4 2 3,..., 2 3 4 的個數分別都是1
: https://imgbox.com/0lgmtkZ1
: https://imgbox.com/sohaejyb
: 所以全部有9種可能, 可是根據第二張的圖, t!=3!=6
: T應該要怎麼算? 我是哪裡理解錯了嗎?
: 有願意幫忙解釋的嗎?
: 或是有推薦的書或範例之類的 讓我看一下 比較好懂
: 謝謝
: ※ 編輯: wgene (100.36.131.156 美國), 03/11/2021 05:52:10
: → andrew43: 你要做兩樣本檢驗嗎?那要跨組別洗牌,不然就沒有意義 03/11 08:12
: → andrew43: 了。 03/11 08:12
: → wgene: 可以稍微解釋一下嗎 @andrew43 03/11 08:19
: → andrew43: 先把完整的命題貼出來。我還沒看出來到底要做什麼test 03/11 08:43
: → wgene: @andrew43 利用均勻分配隨機產生的random number 透過第二 03/11 08:55
: → wgene: 張圖的permutation test方法做獨立性檢定。題目就是這樣而 03/11 08:55
: → wgene: 已 03/11 08:55
: → wgene: 能稍微解釋一下第二張圖的方法嗎?看了不是很能理解.謝謝! 03/11 09:00
: → wgene: 我嘗試用第二張的方法做一個簡單的例子 如我po的步驟 不知 03/11 09:15
: → wgene: 道哪裡理解錯了 03/11 09:15
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.248.222.1 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1615460140.A.35A.html
※ 編輯: andrew43 (111.83.23.209 臺灣), 03/12/2021 08:33:30
1F:推 wgene: 感謝!! 03/12 09:30