作者jamesxxx1997 (hackintosh)
看板Statistics
标题[问题] 请问均值回归vs. 试验之间独立概念比较
时间Sat Jun 8 16:43:34 2024
大家好, 在看完快思慢想这本书时, 里面有讨论到两个统计概念
(1) 均值回归(regresssion to the mean)
(2) 赌徒谬误(gambler fallacy)
对於以下范例, 我觉得两个概念所得出的结论互相冲突, 想请前辈们帮忙厘清概念~
假设赌徒A丢了十次硬币, 前九次都是正面
(1) 根据均值回归, 如果随机变数的一个样本是极端值,同一随机变数的下一个抽样可能
更接近其平均值。因此会猜第十次硬币是反面机率较高
(2) 根据赌徒谬误, 意识到十次硬币之间的投掷彼此为独立事件,因此会猜第十次正反面
机率结果相同
如果是以运动员的例子来看, 假设每场比赛赢球机率相同(当然实际上不可能), 十次中
前九次都赢球
(1) 根据均值回归, 因为前九次都赢球, 会认为第十次输球的机率较大
(2) 根据赌徒谬误, 意识到独立事件这个概念, 会认为第十次赢输球机率跟前九次相同
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.237.158 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1717836216.A.719.html
1F:→ andrew43: 似乎误解了RTM。RTM是指极端出现後的下次测量会有高机率 06/09 01:02
2F:→ andrew43: 靠近平均的测量出现,并不是你描述的情境。 06/09 01:03
3F:→ andrew43: 修改你的例子成:赌徒一次每次掷10硬币,在某次9正1反的 06/09 01:05
4F:→ andrew43: 极端情况出现後,下次结果不那麽极端的机率较高。 06/09 01:06
5F:→ yhliu: 个人认为1F的解释有误导之嫌,均值回归是在观测值独立的 06/09 08:07
6F:→ yhliu: 假设下发生的,并没有"极端出现後的下次测量会有高机率..." 06/09 08:09
7F:→ yhliu: 的事!就好像丢公正铜板实验,出现连绩10次正面也不会因 06/09 08:10
8F:→ yhliu: 此後续出现反面的机率增加。另外,regression to the mean 06/09 08:12
9F:→ yhliu: 译为 "均值回归" 个人认为失去原意,应是 "圁归(至)均值"。 06/09 08:14
10F:→ yhliu: 回归均值的理由不是极端值出现导致什麽,相反的,是因极端 06/09 08:15
11F:→ yhliu: 值出现不能导致後续杞同方向的极端值继绩出现。就单变数单 06/09 08:18
12F:→ yhliu: 体抽样来讲,是样本平均值会比单一观测值更接近群体平均值 06/09 08:19
13F:→ yhliu: 的原理;就回归平均的原始文敌来说,是 (X,Y) 的配对抽样, 06/09 08:21
14F:→ yhliu: 假设 E[X]=E[Y],回归平均说的是一对观测值 (X,Y), 当 X 比 06/09 08:22
15F:→ yhliu: E[X] 高很多时,常出现 Y-E[Y] 比 X-E[X] 小的现象;反之, 06/09 08:24
16F:→ yhliu: X 比 E[X] 小很多时, E[Y]-Y 也倾各於比 E[X]-X 小 (前面假 06/09 08:25
17F:→ yhliu: 设 E[X]=E[Y] 还不够,原作者应是认为 X 与 Y 同分布) 06/09 08:27
18F:→ yhliu: 回归平均的成因,如果 X 和 Y 都只是随机的,两者并无关联 06/09 08:29
19F:→ yhliu: 则前述单变数的情形的解释就够了。假设 X, Y 具有正关联, 06/09 08:31
20F:→ yhliu: 高 X 当然会配对出高的 Y,低 X 配对低的 Y。在这假设下, 06/09 08:33
21F:→ yhliu: 看到特别高的 X 很可能是属於偏高的离群值,而 Y 不会随着 06/09 08:36
22F:→ yhliu: X 的偏高而偏高。X 特别低时也是,Y 并不会倾向於特别偏低 06/09 08:39
23F:→ yhliu: 识者当问:X 高不见得它是偏高的离群值啊!没错,但回归平 06/09 08:41
24F:→ yhliu: 均现象被注意到的常是整个 X 资料特高或特低的,而回归平均 06/09 08:42
25F:→ yhliu: 现象其实被看到的是估计的 E[Y|X] 的模样。 06/09 08:44
26F:→ yhliu: 关於回归平均的一个解释,可参酌我的一篇网文: 06/09 08:47
28F:→ yhliu: 再谈赌徒谬误,如果铜板是公正的,投掷手法没问题,前面投 06/09 08:55
29F:→ yhliu: 掷结果不会影响後面出现正面的机率。谬误推理在於对大数法 06/09 08:57
30F:→ yhliu: 则或回归平均的误解。用大数法则来解释,投掷无数次出现正 06/09 08:59
31F:→ yhliu: 面的相对比例趋近於出现正面的机率,这并没有说後面会出现 06/09 09:01
32F:→ yhliu: 较多次反面来平衡前面多出来的正面,是平均的效果而非平衡 06/09 09:02
34F:→ yhliu: 从回归平均来解释,只是说不会因为前面连续10次正面後续 06/09 09:05
35F:→ yhliu: 接连出现正面,而倾向於依本来机率出现正面或反面,也就是 06/09 09:06
36F:→ yhliu: 如果铜板是公正的,後续正反面出现机会是相同的。 06/09 09:07
37F:→ yhliu: 不过,从统计观点,假设我们不知铜板是否公正,丢掷手法有 06/09 09:09
38F:→ yhliu: 没问题,那麽,看到连续十次正面,我们有理由怀疑:(1) 铜 06/09 09:11
39F:→ yhliu: 板不是公正的; 或 (2) 丢掷手法有问题,或者能造成出现正 06/09 09:12
40F:→ yhliu: 面机率较高,或者能控制丢掷结果。 06/09 09:14
41F:→ jamesxxx1997: 我大概理解成赌徒谬误并非大数法则(丢10000次铜板) 06/09 10:52
42F:→ jamesxxx1997: 所以不适用regression to the mean这个概念 06/09 10:52
43F:→ jamesxxx1997: 谢谢以上前辈指点 06/09 10:52