作者saltlake (SaltLake)
看板Statistics
标题[问题] 复杂统计量的平均和变异
时间Mon Dec 18 05:03:54 2023
要检定两个样本之间是否有差异,要先计算两个样本个别的
平均值和变异数。比方说要算男女劳工薪水之间有否差异,
我们分对男女劳工取样,然後根据样本得到薪水值,分别计
算男女薪水值的平均值和标准差,再据此计算两样本薪水差
值平均值和标准差,再去计算 p 值,看是否小於百分之五。
但是如果是要检定某个诊断方法的敏感性和变异性呢? 我
们怎样先推导出这两个统计量的平均值和变异数?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.24.85.55 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1702847036.A.47A.html
1F:推 andrew43: 2x2列联表当关键字。前一阵子的全民统计学没跟上吗? X 12/18 08:00
2F:→ andrew43: D 12/18 08:00
3F:→ yhliu: 变异性?或是特异性?敏感性和特异性都是一种比例,不算复 12/18 10:21
4F:→ yhliu: 杂统计量。胜算,相对危险和胜算比或胜算比的对数值算是比 12/18 10:24
5F:→ yhliu: 较复杂些,都有大样本渐近平均数和渐近变异数都有公式可查 12/18 10:26
6F:→ yhliu: 真正复杂的统计量,可能需要原始资料做 bootstrapping. 12/18 10:29
对,敏感性和特异性。
意思是用拔靴法或交互确认法 (cross validation) 一类的重抽样法 (resampling)
产生几组数据之後,用那些数据去算样本的敏感性和特异性之平均值和变异数?
解析公式呢? 查了一些统计书都没有。还是要查统计手册 (handbook) 一类的?
※ 编辑: saltlake (114.24.85.55 台湾), 12/18/2023 14:55:06
7F:→ andrew43: 2x2列联表,卡方近似或精确检验,课本不可能没有。 12/18 16:18
8F:推 andrew43: 如果是比较敏感性,就是用确定有病的对象中,阳阴性各 12/18 16:21
9F:→ andrew43: 有几人,二种诊断法,共四个数字,组成2x2列联表。 12/18 16:23
10F:→ andrew43: 之後可做近似检验(如卡方)或精确检验(如费雪)。 12/18 16:25
现在有两种诊断方法以及确认有病否的标准诊断法。把患者分成两组,一组用
诊断法甲而另组用乙。用方法甲和乙组可个别算出敏感性和特异性,这样总共
得到四个数值。可是要比较方法甲的敏感性和特异性是否比方法乙的高,我们
不能直接比数值,例如: 敏感性_甲 > 敏感性_乙 就宣称甲的敏感性比较好。
可是如果用比较男女的薪水高低的那种方法,我们必须能定义新的随机变数
薪水_差距 = 薪水_男-薪水_女
然後我们要能计算薪水_差距的样本平均值和变异数。这个可以分别从男女样本
的薪水平均_男、薪水平均_女、薪水变异_男、薪水变异_女计算而得。而前面四
个随机变数可以直截测量男女样本而得。
可是想要把薪水有否差距的方法用在检验方法有否差距这边,我们要能够计算
敏感性_甲和敏感性_乙的样本平均值和变异数,才能作统计检定看甲和乙的敏
感性和特异性之间是否有统计显着的差异。
问题是敏感性_甲和敏感性_乙的样本平均值和变异数,怎麽计算?
※ 编辑: saltlake (114.24.85.55 台湾), 12/18/2023 18:00:38
11F:→ andrew43: compare two proportion central limit theory 网路教 12/18 21:20
12F:→ andrew43: 学看看一定能找到答案。 12/18 21:20
推导敏感性和特异性的样本平均值和变异数的难点之一在於它们的定义都是量测值
除以量测值,超出一般统计课本关於随机变数的线性组合之期望值和变异数推导
的范围: E( sum( a(i)*X(i), i = 1...n ) = sum( a(i)*E(X(i), i = 1...n )
Var( a(i)*X(i), i = 1...n )= sum( a(i)^2*Var(X(i)), i = 1...n )
另一个难点在於敏感性和特异性的定义包含不同种类的量测值,这怎处理?
※ 编辑: saltlake (114.24.85.55 台湾), 12/18/2023 22:06:46
13F:→ andrew43: 要不要直接从伯努力分布开始建构知识? 12/19 01:01
14F:→ andrew43: 二个数相除又如何?让我投十次铜板得5次正面,5/10=0.5 12/19 01:04
15F:→ andrew43: 这没有很「复杂」。 12/19 01:04
16F:→ andrew43: 而你是两样本检验,着重在p1-p2和sigma_{p1-p2},深入一 12/19 01:07
17F:→ andrew43: 些的书都会讨论到吧。 12/19 01:07
19F:→ yhliu: 都说敏感性和特异性只是比例了...只是它们不是用全样本计算 12/20 08:37
20F:→ yhliu: 的比例,而分别是有病和无病者为母数。如果抽样就是按有病 12/20 08:42
21F:→ yhliu: 无病者懦}抽,就是全样本,如果是无论有病无病一起抽,就是 12/20 08:44
22F:→ yhliu: 用条件分析法,在 given 有病无病样本数下之比例而已。 12/20 08:46
23F:→ yhliu: 至於说有两种诊断法,这是 McNemar 检定一类的问题。以敏感 12/20 08:49
24F:→ yhliu: 性而言,采用有病样本,两检验敏感性有差,就是一种诊断正 12/20 08:52
25F:→ yhliu: 确另一种诊断错误,这有两种情形,若两情形不均匀,即是两 12/20 08:53
26F:→ yhliu: 诊断敏感性不同。若其中还要考虑共变量...除非样本很大,否 12/20 08:55
27F:→ yhliu: 则恐怕有些统计困难,不管怎样,至少可以考虑 logit model. 12/20 08:58
28F:→ recorriendo: 2X2做检定 就不需要用到var 到底一直纠结在mean,v 12/20 15:07
29F:→ recorriendo: ar怎麽求做什麽 12/20 15:07
30F:推 HJShiu: 你在描述问题的时候,一直在变异数或标准差打转 12/22 04:28
31F:→ HJShiu: 这说明你对统计推论有所误解。变异数或标准差是在描述 12/22 04:29
32F:→ HJShiu: 一组资料的特徵。如果要"推论",应该要用标准误。因为 12/22 04:30
33F:→ HJShiu: 标准误是用来描述抽样分布的离散情形,才能用来推论 12/22 04:31
35F:→ HJShiu: macmillanusa.com/psbe4e/psbe4e_ch8_5.html 12/22 04:36
36F:→ yhliu: 但以敏感性(灵敏度)而言,就是一个二项比例,并非复杂的 12/22 13:58
37F:→ yhliu: 统计量。两种诊断法的比较,如果是同一样本,用 McNemar 检 12/22 14:01
38F:→ yhliu: 定;如果是独立样本,就用两样本比例差异检定。 12/22 14:02
39F:→ yhliu: (漏了这一句) 他问的是 "统计量" 的平均数变异数,并没错。 12/22 14:03