作者andrew43 (讨厌有好心推文後删文者)
看板Statistics
标题Re: [问题] 如何用permutation 做独立性检定
时间Thu Mar 11 18:55:37 2021
从你的描述猜测,你要做的事是检验一组样本是不是随机的。
这是的随机性有关於顺序的。
我就一并把卡方检验与permutation test的概念谈一谈,不讲实际运算。
传统卡方的概念如下。
把资料按原本抽出的先後顺序均切数组,每组有k个数字。
在每一组内把数字按大小顺序转换成 rank 次序(例如 3.1 4.5 1.5 转换成 2 3 1)。
这些 rank 次序,最多有 k! 种可能性。
理想上,每种次序出现的机率皆相等为 1/k!。
假如资料是随机的(即虚无假说),
则预期看到每种次序出现的次数差不多占总次数的 1/k!。
接下来就是卡方 = sum[(实际次数 - 预期次数)^2 / 预期次数] 的事了。
於是你会算出一个卡方值,再对应自由度得到 p-value 并做推论。
假如资料是随机的(即虚无假说),则这个卡方值应该相对小,
因为各种次序出现的次数差不多。
相对地,假如资料不是随机的(例如一组递增的数列),
则卡方值将相对大,因为大小次序的次数非常不均。
接下来讨论 permutation test。
permutation test 的概念是,利用洗牌法创造出大量符合虚无假说的「假情况」,
再检视未洗牌的情况与「假情况」相比有多麽地「特别」。
如何创造出大量符合虚无假说的「假情况」?
在这个例子就是把原始资料(还没分组)洗牌(全部数字一起洗)。
你应该可以了解,洗牌就是创造随机性数列,也就符合虚无假说。
洗牌後,把它当成你观测到的资料,按上述方法从分组到算出一个卡方值。
重覆多次洗牌求卡方,你可以想像,大多数的卡方值是偏小的(因为基於随机数列)。
最後,检查有多少个「假卡方值」等於或大於最初观测到的「真卡方值」。
这个次数再除以洗牌数字(很大的一个数;也有人认为要除以洗牌数字 + 1),
即表示「在虚无假说的条件下,能发现样本或更离谱的样本之机率」,
即为 p-value。
※ 引述《wgene》之铭言:
: permutation test 用卡方检定做独立性检定
: 想找范例来看 找不到.
: 看不明白 如下连结所说的"计算每一种可能的个数 "
: 假设我随机产生六个数 1 2 2 4 3 2
: 然後分两组(1 2 2) (4 3 2)
: 第一组有3种情况: 1 2 2, 2 1 2, 2 2 1 的个数都是2
: 第二组有6种情况: 4 3 2, 4 2 3,..., 2 3 4 的个数分别都是1
: https://imgbox.com/0lgmtkZ1
: https://imgbox.com/sohaejyb
: 所以全部有9种可能, 可是根据第二张的图, t!=3!=6
: T应该要怎麽算? 我是哪里理解错了吗?
: 有愿意帮忙解释的吗?
: 或是有推荐的书或范例之类的 让我看一下 比较好懂
: 谢谢
: ※ 编辑: wgene (100.36.131.156 美国), 03/11/2021 05:52:10
: → andrew43: 你要做两样本检验吗?那要跨组别洗牌,不然就没有意义 03/11 08:12
: → andrew43: 了。 03/11 08:12
: → wgene: 可以稍微解释一下吗 @andrew43 03/11 08:19
: → andrew43: 先把完整的命题贴出来。我还没看出来到底要做什麽test 03/11 08:43
: → wgene: @andrew43 利用均匀分配随机产生的random number 透过第二 03/11 08:55
: → wgene: 张图的permutation test方法做独立性检定。题目就是这样而 03/11 08:55
: → wgene: 已 03/11 08:55
: → wgene: 能稍微解释一下第二张图的方法吗?看了不是很能理解.谢谢! 03/11 09:00
: → wgene: 我尝试用第二张的方法做一个简单的例子 如我po的步骤 不知 03/11 09:15
: → wgene: 道哪里理解错了 03/11 09:15
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.248.222.1 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1615460140.A.35A.html
※ 编辑: andrew43 (111.83.23.209 台湾), 03/12/2021 08:33:30
1F:推 wgene: 感谢!! 03/12 09:30