作者Berrybobo (Berrybobo)
看板Statistics
標題Re: [問題] 如何用permutation 做獨立性檢定
時間Thu Oct 20 11:38:39 2022
各位大大好
我最近也在統計這個
但有個小問題想請問
我收錄了1790個人
分析四種 預測分數評分
來探討 這四種分數能否預測死亡
原本跑T-test AUROC 都有差異
AUROC也有0.7-0.8
但reviewer 是做AI領域
檢驗我們跑看開permutation test
看是否為true signal
因此做了 permutations
但發現其中分數兩個p value不顯著
但臨床上跟傳統統計上 AUROC 都不錯
不知道有什麼可能的原因?
※ 引述《andrew43 (討厭有好心推文後刪文者)》之銘言:
: 從你的描述猜測,你要做的事是檢驗一組樣本是不是隨機的。
: 這是的隨機性有關於順序的。
: 我就一併把卡方檢驗與permutation test的概念談一談,不講實際運算。
: 傳統卡方的概念如下。
: 把資料按原本抽出的先後順序均切數組,每組有k個數字。
: 在每一組內把數字按大小順序轉換成 rank 次序(例如 3.1 4.5 1.5 轉換成 2 3 1)。
: 這些 rank 次序,最多有 k! 種可能性。
: 理想上,每種次序出現的機率皆相等為 1/k!。
: 假如資料是隨機的(即虛無假說),
: 則預期看到每種次序出現的次數差不多佔總次數的 1/k!。
: 接下來就是卡方 = sum[(實際次數 - 預期次數)^2 / 預期次數] 的事了。
: 於是你會算出一個卡方值,再對應自由度得到 p-value 並做推論。
: 假如資料是隨機的(即虛無假說),則這個卡方值應該相對小,
: 因為各種次序出現的次數差不多。
: 相對地,假如資料不是隨機的(例如一組遞增的數列),
: 則卡方值將相對大,因為大小次序的次數非常不均。
: 接下來討論 permutation test。
: permutation test 的概念是,利用洗牌法創造出大量符合虛無假說的「假情況」,
: 再檢視未洗牌的情況與「假情況」相比有多麼地「特別」。
: 如何創造出大量符合虛無假說的「假情況」?
: 在這個例子就是把原始資料(還沒分組)洗牌(全部數字一起洗)。
: 你應該可以了解,洗牌就是創造隨機性數列,也就符合虛無假說。
: 洗牌後,把它當成你觀測到的資料,按上述方法從分組到算出一個卡方值。
: 重覆多次洗牌求卡方,你可以想像,大多數的卡方值是偏小的(因為基於隨機數列)。
: 最後,檢查有多少個「假卡方值」等於或大於最初觀測到的「真卡方值」。
: 這個次數再除以洗牌數字(很大的一個數;也有人認為要除以洗牌數字 + 1),
: 即表示「在虛無假說的條件下,能發現樣本或更離譜的樣本之機率」,
: 即為 p-value。
: ※ 引述《wgene》之銘言:
: : permutation test 用卡方檢定做獨立性檢定
: : 想找範例來看 找不到.
: : 看不明白 如下連結所說的"計算每一種可能的個數 "
: : 假設我隨機產生六個數 1 2 2 4 3 2
: : 然後分兩組(1 2 2) (4 3 2)
: : 第一組有3種情況: 1 2 2, 2 1 2, 2 2 1 的個數都是2
: : 第二組有6種情況: 4 3 2, 4 2 3,..., 2 3 4 的個數分別都是1
: : https://imgbox.com/0lgmtkZ1
: : https://imgbox.com/sohaejyb
: : 所以全部有9種可能, 可是根據第二張的圖, t!=3!=6
: : T應該要怎麼算? 我是哪裡理解錯了嗎?
: : 有願意幫忙解釋的嗎?
: : 或是有推薦的書或範例之類的 讓我看一下 比較好懂
: : 謝謝
: : ※ 編輯: wgene (100.36.131.156 美國), 03/11/2021 05:52:10
: : → andrew43: 你要做兩樣本檢驗嗎?那要跨組別洗牌,不然就沒有意義 03/11 08:12
: : → andrew43: 了。 03/11 08:12
: : → wgene: 可以稍微解釋一下嗎 @andrew43 03/11 08:19
: : → andrew43: 先把完整的命題貼出來。我還沒看出來到底要做什麼test 03/11 08:43
: : → wgene: @andrew43 利用均勻分配隨機產生的random number 透過第二 03/11 08:55
: : → wgene: 張圖的permutation test方法做獨立性檢定。題目就是這樣而 03/11 08:55
: : → wgene: 已 03/11 08:55
: : → wgene: 能稍微解釋一下第二張圖的方法嗎?看了不是很能理解.謝謝! 03/11 09:00
: : → wgene: 我嘗試用第二張的方法做一個簡單的例子 如我po的步驟 不知 03/11 09:15
: : → wgene: 道哪裡理解錯了 03/11 09:15
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 103.224.203.204 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1666237121.A.62E.html
1F:→ andrew43: 模型是什麼?permute怎麼做? 10/20 16:46
2F:推 recorriendo: 單一feature的AUROC就是c-statistic 可以直接套公式 10/20 19:59
3F:→ recorriendo: 算p value 10/20 19:59
4F:→ recorriendo: 你用公式算一下 如果不顯著就代表AUC真的不夠高 10/20 20:02