作者Berrybobo (Berrybobo)
看板Statistics
标题Re: [问题] 如何用permutation 做独立性检定
时间Thu Oct 20 11:38:39 2022
各位大大好
我最近也在统计这个
但有个小问题想请问
我收录了1790个人
分析四种 预测分数评分
来探讨 这四种分数能否预测死亡
原本跑T-test AUROC 都有差异
AUROC也有0.7-0.8
但reviewer 是做AI领域
检验我们跑看开permutation test
看是否为true signal
因此做了 permutations
但发现其中分数两个p value不显着
但临床上跟传统统计上 AUROC 都不错
不知道有什麽可能的原因?
※ 引述《andrew43 (讨厌有好心推文後删文者)》之铭言:
: 从你的描述猜测,你要做的事是检验一组样本是不是随机的。
: 这是的随机性有关於顺序的。
: 我就一并把卡方检验与permutation test的概念谈一谈,不讲实际运算。
: 传统卡方的概念如下。
: 把资料按原本抽出的先後顺序均切数组,每组有k个数字。
: 在每一组内把数字按大小顺序转换成 rank 次序(例如 3.1 4.5 1.5 转换成 2 3 1)。
: 这些 rank 次序,最多有 k! 种可能性。
: 理想上,每种次序出现的机率皆相等为 1/k!。
: 假如资料是随机的(即虚无假说),
: 则预期看到每种次序出现的次数差不多占总次数的 1/k!。
: 接下来就是卡方 = sum[(实际次数 - 预期次数)^2 / 预期次数] 的事了。
: 於是你会算出一个卡方值,再对应自由度得到 p-value 并做推论。
: 假如资料是随机的(即虚无假说),则这个卡方值应该相对小,
: 因为各种次序出现的次数差不多。
: 相对地,假如资料不是随机的(例如一组递增的数列),
: 则卡方值将相对大,因为大小次序的次数非常不均。
: 接下来讨论 permutation test。
: permutation test 的概念是,利用洗牌法创造出大量符合虚无假说的「假情况」,
: 再检视未洗牌的情况与「假情况」相比有多麽地「特别」。
: 如何创造出大量符合虚无假说的「假情况」?
: 在这个例子就是把原始资料(还没分组)洗牌(全部数字一起洗)。
: 你应该可以了解,洗牌就是创造随机性数列,也就符合虚无假说。
: 洗牌後,把它当成你观测到的资料,按上述方法从分组到算出一个卡方值。
: 重覆多次洗牌求卡方,你可以想像,大多数的卡方值是偏小的(因为基於随机数列)。
: 最後,检查有多少个「假卡方值」等於或大於最初观测到的「真卡方值」。
: 这个次数再除以洗牌数字(很大的一个数;也有人认为要除以洗牌数字 + 1),
: 即表示「在虚无假说的条件下,能发现样本或更离谱的样本之机率」,
: 即为 p-value。
: ※ 引述《wgene》之铭言:
: : permutation test 用卡方检定做独立性检定
: : 想找范例来看 找不到.
: : 看不明白 如下连结所说的"计算每一种可能的个数 "
: : 假设我随机产生六个数 1 2 2 4 3 2
: : 然後分两组(1 2 2) (4 3 2)
: : 第一组有3种情况: 1 2 2, 2 1 2, 2 2 1 的个数都是2
: : 第二组有6种情况: 4 3 2, 4 2 3,..., 2 3 4 的个数分别都是1
: : https://imgbox.com/0lgmtkZ1
: : https://imgbox.com/sohaejyb
: : 所以全部有9种可能, 可是根据第二张的图, t!=3!=6
: : T应该要怎麽算? 我是哪里理解错了吗?
: : 有愿意帮忙解释的吗?
: : 或是有推荐的书或范例之类的 让我看一下 比较好懂
: : 谢谢
: : ※ 编辑: wgene (100.36.131.156 美国), 03/11/2021 05:52:10
: : → andrew43: 你要做两样本检验吗?那要跨组别洗牌,不然就没有意义 03/11 08:12
: : → andrew43: 了。 03/11 08:12
: : → wgene: 可以稍微解释一下吗 @andrew43 03/11 08:19
: : → andrew43: 先把完整的命题贴出来。我还没看出来到底要做什麽test 03/11 08:43
: : → wgene: @andrew43 利用均匀分配随机产生的random number 透过第二 03/11 08:55
: : → wgene: 张图的permutation test方法做独立性检定。题目就是这样而 03/11 08:55
: : → wgene: 已 03/11 08:55
: : → wgene: 能稍微解释一下第二张图的方法吗?看了不是很能理解.谢谢! 03/11 09:00
: : → wgene: 我尝试用第二张的方法做一个简单的例子 如我po的步骤 不知 03/11 09:15
: : → wgene: 道哪里理解错了 03/11 09:15
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 103.224.203.204 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1666237121.A.62E.html
1F:→ andrew43: 模型是什麽?permute怎麽做? 10/20 16:46
2F:推 recorriendo: 单一feature的AUROC就是c-statistic 可以直接套公式 10/20 19:59
3F:→ recorriendo: 算p value 10/20 19:59
4F:→ recorriendo: 你用公式算一下 如果不显着就代表AUC真的不够高 10/20 20:02