作者hexjacal (黑麻糬)
看板Statistics
标题[问题] 信赖区间 Coverage Rate 想法
时间Mon Apr 2 00:34:51 2018
小弟最近在回顾统计学信赖区间
进行了些许模拟验证,脑筋卡住了有部份疑问想请益
假设 population~N(0, 1), 对 mu CI 作推论
A. Percentile Bootstrap method
1. 从 N(0,1) 生成母体样本 X
2. 从 X 重覆抽样生成 B 个复式样本 BX
3. 计算多个 sample mean
4. 取 0.025, 0.975 百分位数作为 mu 的 CI
重覆 1~4 多次,Coverage Rate 大约为宣称的 95%
B. 此方法若如果从母体来进行
1. 从 N(0,1) 生成 B个 母体样本 X
2. 计算多个 sample mean
3. 取 0.025, 0.975 百分位数作为 mu 的 CI
重覆 1~3 多次,Coverage Rate --> 100%
B 方法的 Coverage Rate 从理论上也合理
在 iid 的前提下,每个 sample mean 正负机会各一半
若「多个」sample mean 取百分位数後,作出来的 CI 都>0
P(CI_{L}>0)=1-P(CI_{L}<=0)
=1-P(至少有 0.025*B 个<=0)
=1-pbinom(0.025*B,B,0.5) --> 1
疑惑的是
1. A、B方法最大的差异性在哪?
2. 若要透过 B 方法来建构 CI,它需要作什麽修改?
在无母数下
如果要对某个参数 theta 作 CI
且可以模拟多个 theta^{hat} 的观察值
是否有 percentile 或是可能的 formula 可以得到 theta 的近似 CI?
可能是我弄错了什麽才会在这漩涡里头绕,还望版上高手指点,感谢。
2018/04/02 ===================================
感谢 r 大的回应~
小弟疑惑的地方在於
A 方法的模拟结果,以「样本」重覆抽样计算 sample mean
Coverage rate 真的是 90~95% 左右
但 B 方法,以「母体」重覆抽样计算 sample mean
同样是以百分位数的方式作 CI
重覆多次作出来的 CI 范围均值
会很接近 population mean 95% CI 的数学推论结果
但其 Coverage Rate,却会接近 100%,而不是宣称的 95% 上下
为什麽?
bootstrap 精神在於对样本重覆抽样,可望重现母体的随机分布样貌
那为何直接以母体重覆抽样,却会得到 100% coverage rate 的结果?
2018/04/03 ===================================
感谢 y 大的回应
我获益良多,我想我要补足部份在於
A(B) 方法以百分位数的方式
1. 取出来的都是 sample mean distribution 的 "涵盖区间"
2. 它在 population mean 的 "信赖区间" 上提供了什麽资讯
目前还缺少最重要 1-->2 的「数学推论」来说服自己
我会继续找寻答案的,万分感谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.19.199
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1522600495.A.D17.html
1F:推 recorriendo: A只有一组样本 然後"把样本当母体"去抽更多样本 这是 04/02 06:01
2F:→ recorriendo: bootstrap的基本精神 为什麽这样做可以就要去看boots 04/02 06:02
3F:→ recorriendo: trap理论的书 bootstrap一般用在现实世界中取得的资 04/02 06:03
4F:→ recorriendo: 料 母体分布未知的情况 04/02 06:04
5F:→ recorriendo: 最後的问题 不知道你所谓吴母树在这里什麽意思 不过 04/02 06:05
6F:→ recorriendo: 反正基本精神就是可以生成一堆theta模拟值就可以用 04/02 06:06
7F:→ recorriendo: percentile估计CI 至於生成方法bootstrap或其他都可 04/02 06:07
※ 编辑: hexjacal (140.113.132.180), 04/02/2018 09:39:39
8F:→ yhliu: B 所得到的是 sample mean 抽样分布的中间95%区间, 这当然 04/03 10:35
9F:→ yhliu: 应包含群体的 mean, 除非只模拟很少次. 04/03 10:37
10F:→ yhliu: A 是以原来一组样本当群册去抽样, 所以最後得到的是这个被 04/03 10:39
11F:→ yhliu: 当做群体之样本的 bootstrap 样本平均数分布的中间95%的区 04/03 10:41
12F:→ yhliu: 间,它几乎必然包含原样本的平均数, 却也不是原群体平均数的 04/03 10:43
13F:→ yhliu: 信赖区间. 04/03 10:44
14F:→ yhliu: Bootstrap 的基本原理是 bootstrap样本推估原样本, 而原样 04/03 10:47
15F:→ yhliu: 本"像" 群体, 所以推估这个样本也就间接推估了群体. 04/03 10:49
16F:→ yhliu: 所以a的区间虽不是真正原群体平均数的95%信赖区间, 但虽不 04/03 10:51
17F:→ yhliu: 中, 不远矣, 想一想由原样本平均数建构群体平均数的方法就 04/03 10:54
18F:→ yhliu: 知道了. 04/03 10:55
19F:→ yhliu: 修正: A 泓所得区间当作原群体平均数之倌赖区间亦可. 04/03 11:00
※ 编辑: hexjacal (140.113.132.180), 04/03/2018 11:36:01
20F:推 recorriendo: B求出来的就是point estimate的分布而已 理当会照 04/05 06:45
21F:→ recorriendo: 中央极限定理分布 够多point est的话涵盖母体值机率 04/05 06:48
22F:→ recorriendo: 趋近於1 A每一个样本导出来的区间不一定涵盖母体值 04/05 06:49
23F:→ recorriendo: 但假设有100组样本 对每组"这样做"以後有约95会涵盖 04/05 06:51
24F:→ recorriendo: 所以A才符合CI的定义 CI本就是针对"把每组样本这样 04/05 06:53
25F:→ recorriendo: 做"以後会发生什麽事来定义的 注意你的B已经不是在单 04/05 06:54
26F:→ recorriendo: 一样本里操作了 04/05 06:54