作者hexjacal (黑麻糬)
看板Statistics
標題[問題] 信賴區間 Coverage Rate 想法
時間Mon Apr 2 00:34:51 2018
小弟最近在回顧統計學信賴區間
進行了些許模擬驗證,腦筋卡住了有部份疑問想請益
假設 population~N(0, 1), 對 mu CI 作推論
A. Percentile Bootstrap method
1. 從 N(0,1) 生成母體樣本 X
2. 從 X 重覆抽樣生成 B 個複式樣本 BX
3. 計算多個 sample mean
4. 取 0.025, 0.975 百分位數作為 mu 的 CI
重覆 1~4 多次,Coverage Rate 大約為宣稱的 95%
B. 此方法若如果從母體來進行
1. 從 N(0,1) 生成 B個 母體樣本 X
2. 計算多個 sample mean
3. 取 0.025, 0.975 百分位數作為 mu 的 CI
重覆 1~3 多次,Coverage Rate --> 100%
B 方法的 Coverage Rate 從理論上也合理
在 iid 的前提下,每個 sample mean 正負機會各一半
若「多個」sample mean 取百分位數後,作出來的 CI 都>0
P(CI_{L}>0)=1-P(CI_{L}<=0)
=1-P(至少有 0.025*B 個<=0)
=1-pbinom(0.025*B,B,0.5) --> 1
疑惑的是
1. A、B方法最大的差異性在哪?
2. 若要透過 B 方法來建構 CI,它需要作什麼修改?
在無母數下
如果要對某個參數 theta 作 CI
且可以模擬多個 theta^{hat} 的觀察值
是否有 percentile 或是可能的 formula 可以得到 theta 的近似 CI?
可能是我弄錯了什麼才會在這漩渦裡頭繞,還望版上高手指點,感謝。
2018/04/02 ===================================
感謝 r 大的回應~
小弟疑惑的地方在於
A 方法的模擬結果,以「樣本」重覆抽樣計算 sample mean
Coverage rate 真的是 90~95% 左右
但 B 方法,以「母體」重覆抽樣計算 sample mean
同樣是以百分位數的方式作 CI
重覆多次作出來的 CI 範圍均值
會很接近 population mean 95% CI 的數學推論結果
但其 Coverage Rate,卻會接近 100%,而不是宣稱的 95% 上下
為什麼?
bootstrap 精神在於對樣本重覆抽樣,可望重現母體的隨機分佈樣貌
那為何直接以母體重覆抽樣,卻會得到 100% coverage rate 的結果?
2018/04/03 ===================================
感謝 y 大的回應
我獲益良多,我想我要補足部份在於
A(B) 方法以百分位數的方式
1. 取出來的都是 sample mean distribution 的 "涵蓋區間"
2. 它在 population mean 的 "信賴區間" 上提供了什麼資訊
目前還缺少最重要 1-->2 的「數學推論」來說服自己
我會繼續找尋答案的,萬分感謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.19.199
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1522600495.A.D17.html
1F:推 recorriendo: A只有一組樣本 然後"把樣本當母體"去抽更多樣本 這是 04/02 06:01
2F:→ recorriendo: bootstrap的基本精神 為什麼這樣做可以就要去看boots 04/02 06:02
3F:→ recorriendo: trap理論的書 bootstrap一般用在現實世界中取得的資 04/02 06:03
4F:→ recorriendo: 料 母體分布未知的情況 04/02 06:04
5F:→ recorriendo: 最後的問題 不知道你所謂吳母樹在這裡什麼意思 不過 04/02 06:05
6F:→ recorriendo: 反正基本精神就是可以生成一堆theta模擬值就可以用 04/02 06:06
7F:→ recorriendo: percentile估計CI 至於生成方法bootstrap或其他都可 04/02 06:07
※ 編輯: hexjacal (140.113.132.180), 04/02/2018 09:39:39
8F:→ yhliu: B 所得到的是 sample mean 抽樣分布的中間95%區間, 這當然 04/03 10:35
9F:→ yhliu: 應包含群體的 mean, 除非只模擬很少次. 04/03 10:37
10F:→ yhliu: A 是以原來一組樣本當群冊去抽樣, 所以最後得到的是這個被 04/03 10:39
11F:→ yhliu: 當做群體之樣本的 bootstrap 樣本平均數分布的中間95%的區 04/03 10:41
12F:→ yhliu: 間,它幾乎必然包含原樣本的平均數, 卻也不是原群體平均數的 04/03 10:43
13F:→ yhliu: 信賴區間. 04/03 10:44
14F:→ yhliu: Bootstrap 的基本原理是 bootstrap樣本推估原樣本, 而原樣 04/03 10:47
15F:→ yhliu: 本"像" 群體, 所以推估這個樣本也就間接推估了群體. 04/03 10:49
16F:→ yhliu: 所以a的區間雖不是真正原群體平均數的95%信賴區間, 但雖不 04/03 10:51
17F:→ yhliu: 中, 不遠矣, 想一想由原樣本平均數建構群體平均數的方法就 04/03 10:54
18F:→ yhliu: 知道了. 04/03 10:55
19F:→ yhliu: 修正: A 泓所得區間當作原群體平均數之倌賴區間亦可. 04/03 11:00
※ 編輯: hexjacal (140.113.132.180), 04/03/2018 11:36:01
20F:推 recorriendo: B求出來的就是point estimate的分佈而已 理當會照 04/05 06:45
21F:→ recorriendo: 中央極限定理分布 夠多point est的話涵蓋母體值機率 04/05 06:48
22F:→ recorriendo: 趨近於1 A每一個樣本導出來的區間不一定涵蓋母體值 04/05 06:49
23F:→ recorriendo: 但假設有100組樣本 對每組"這樣做"以後有約95會涵蓋 04/05 06:51
24F:→ recorriendo: 所以A才符合CI的定義 CI本就是針對"把每組樣本這樣 04/05 06:53
25F:→ recorriendo: 做"以後會發生什麼事來定義的 注意你的B已經不是在單 04/05 06:54
26F:→ recorriendo: 一樣本裏操作了 04/05 06:54