作者saltlake (SaltLake)
看板Statistics
標題[問題] 複雜統計量的平均和變異
時間Mon Dec 18 05:03:54 2023
要檢定兩個樣本之間是否有差異,要先計算兩個樣本個別的
平均值和變異數。比方說要算男女勞工薪水之間有否差異,
我們分對男女勞工取樣,然後根據樣本得到薪水值,分別計
算男女薪水值的平均值和標準差,再據此計算兩樣本薪水差
值平均值和標準差,再去計算 p 值,看是否小於百分之五。
但是如果是要檢定某個診斷方法的敏感性和變異性呢? 我
們怎樣先推導出這兩個統計量的平均值和變異數?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.85.55 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1702847036.A.47A.html
1F:推 andrew43: 2x2列聯表當關鍵字。前一陣子的全民統計學沒跟上嗎? X 12/18 08:00
2F:→ andrew43: D 12/18 08:00
3F:→ yhliu: 變異性?或是特異性?敏感性和特異性都是一種比例,不算複 12/18 10:21
4F:→ yhliu: 雜統計量。勝算,相對危險和勝算比或勝算比的對數值算是比 12/18 10:24
5F:→ yhliu: 較複雜些,都有大樣本漸近平均數和漸近變異數都有公式可查 12/18 10:26
6F:→ yhliu: 真正複雜的統計量,可能需要原始資料做 bootstrapping. 12/18 10:29
對,敏感性和特異性。
意思是用拔靴法或交互確認法 (cross validation) 一類的重抽樣法 (resampling)
產生幾組數據之後,用那些數據去算樣本的敏感性和特異性之平均值和變異數?
解析公式呢? 查了一些統計書都沒有。還是要查統計手冊 (handbook) 一類的?
※ 編輯: saltlake (114.24.85.55 臺灣), 12/18/2023 14:55:06
7F:→ andrew43: 2x2列聯表,卡方近似或精確檢驗,課本不可能沒有。 12/18 16:18
8F:推 andrew43: 如果是比較敏感性,就是用確定有病的對象中,陽陰性各 12/18 16:21
9F:→ andrew43: 有幾人,二種診斷法,共四個數字,組成2x2列聯表。 12/18 16:23
10F:→ andrew43: 之後可做近似檢驗(如卡方)或精確檢驗(如費雪)。 12/18 16:25
現在有兩種診斷方法以及確認有病否的標準診斷法。把患者分成兩組,一組用
診斷法甲而另組用乙。用方法甲和乙組可個別算出敏感性和特異性,這樣總共
得到四個數值。可是要比較方法甲的敏感性和特異性是否比方法乙的高,我們
不能直接比數值,例如: 敏感性_甲 > 敏感性_乙 就宣稱甲的敏感性比較好。
可是如果用比較男女的薪水高低的那種方法,我們必須能定義新的隨機變數
薪水_差距 = 薪水_男-薪水_女
然後我們要能計算薪水_差距的樣本平均值和變異數。這個可以分別從男女樣本
的薪水平均_男、薪水平均_女、薪水變異_男、薪水變異_女計算而得。而前面四
個隨機變數可以直截測量男女樣本而得。
可是想要把薪水有否差距的方法用在檢驗方法有否差距這邊,我們要能夠計算
敏感性_甲和敏感性_乙的樣本平均值和變異數,才能作統計檢定看甲和乙的敏
感性和特異性之間是否有統計顯著的差異。
問題是敏感性_甲和敏感性_乙的樣本平均值和變異數,怎麼計算?
※ 編輯: saltlake (114.24.85.55 臺灣), 12/18/2023 18:00:38
11F:→ andrew43: compare two proportion central limit theory 網路教 12/18 21:20
12F:→ andrew43: 學看看一定能找到答案。 12/18 21:20
推導敏感性和特異性的樣本平均值和變異數的難點之一在於它們的定義都是量測值
除以量測值,超出一般統計課本關於隨機變數的線性組合之期望值和變異數推導
的範圍: E( sum( a(i)*X(i), i = 1...n ) = sum( a(i)*E(X(i), i = 1...n )
Var( a(i)*X(i), i = 1...n )= sum( a(i)^2*Var(X(i)), i = 1...n )
另一個難點在於敏感性和特異性的定義包含不同種類的量測值,這怎處理?
※ 編輯: saltlake (114.24.85.55 臺灣), 12/18/2023 22:06:46
13F:→ andrew43: 要不要直接從伯努力分布開始建構知識? 12/19 01:01
14F:→ andrew43: 二個數相除又如何?讓我投十次銅板得5次正面,5/10=0.5 12/19 01:04
15F:→ andrew43: 這沒有很「複雜」。 12/19 01:04
16F:→ andrew43: 而你是兩樣本檢驗,著重在p1-p2和sigma_{p1-p2},深入一 12/19 01:07
17F:→ andrew43: 些的書都會討論到吧。 12/19 01:07
19F:→ yhliu: 都說敏感性和特異性只是比例了...只是它們不是用全樣本計算 12/20 08:37
20F:→ yhliu: 的比例,而分別是有病和無病者為母數。如果抽樣就是按有病 12/20 08:42
21F:→ yhliu: 無病者懦}抽,就是全樣本,如果是無論有病無病一起抽,就是 12/20 08:44
22F:→ yhliu: 用條件分析法,在 given 有病無病樣本數下之比例而已。 12/20 08:46
23F:→ yhliu: 至於說有兩種診斷法,這是 McNemar 檢定一類的問題。以敏感 12/20 08:49
24F:→ yhliu: 性而言,採用有病樣本,兩檢驗敏感性有差,就是一種診斷正 12/20 08:52
25F:→ yhliu: 確另一種診斷錯誤,這有兩種情形,若兩情形不均勻,即是兩 12/20 08:53
26F:→ yhliu: 診斷敏感性不同。若其中還要考慮共變量...除非樣本很大,否 12/20 08:55
27F:→ yhliu: 則恐怕有些統計困難,不管怎樣,至少可以考慮 logit model. 12/20 08:58
28F:→ recorriendo: 2X2做檢定 就不需要用到var 到底一直糾結在mean,v 12/20 15:07
29F:→ recorriendo: ar怎麼求做什麼 12/20 15:07
30F:推 HJShiu: 你在描述問題的時候,一直在變異數或標準差打轉 12/22 04:28
31F:→ HJShiu: 這說明你對統計推論有所誤解。變異數或標準差是在描述 12/22 04:29
32F:→ HJShiu: 一組資料的特徵。如果要"推論",應該要用標準誤。因為 12/22 04:30
33F:→ HJShiu: 標準誤是用來描述抽樣分布的離散情形,才能用來推論 12/22 04:31
35F:→ HJShiu: macmillanusa.com/psbe4e/psbe4e_ch8_5.html 12/22 04:36
36F:→ yhliu: 但以敏感性(靈敏度)而言,就是一個二項比例,並非複雜的 12/22 13:58
37F:→ yhliu: 統計量。兩種診斷法的比較,如果是同一樣本,用 McNemar 檢 12/22 14:01
38F:→ yhliu: 定;如果是獨立樣本,就用兩樣本比例差異檢定。 12/22 14:02
39F:→ yhliu: (漏了這一句) 他問的是 "統計量" 的平均數變異數,並沒錯。 12/22 14:03