作者saltlake (SaltLake)
看板Statistics
标题[问题] 不同复合假说对相同多重测试的解释
时间Sun Nov 17 14:07:06 2024
To demonstrate that the new algorithm A is superior to the old
algorithms B, C, and D, three comparison tests were performed.
The results showed that A>B (p=0.009), A>C (p=0.002), and A>D (p=0.04).
The overall significance level was 0.03. The multiplicity was corrected
using the Bonferroni method.
How does one interprete the results if the following tests were
performed, respectively:
(1) union-intersection test,
(2) intersection-union test, and
(3) intersection-intersection test?
根据上述多重测试的设定,整体显着水准是 0.03/3 = 0.01。所以三个个别
测试的显着与否如下:
A>B (p=0.009), 显着
A>C (p=0.002), 显着 and
A>D (p=0.04), 不显着
单看上述测试结果,其解释似乎是:
演算法 A 只比 B 和 C 好,但是无法判定其是否比 D 好--能说不比 D 差吗?
还是只要不显着就啥也不能宣称?
问题是,完整的多重假说测试应该要考虑整体假说的不同(内容)类型去诠释测试
结果(?)
那麽在上述三种不同类型的整体假说下,怎样个别诠释上面所得的测试结果?
(一) 联交集测试
整体零假说和代假说分别为不大於的交集和大於的联集,因而要拒却整体零假说
需要满足至少有一个个别测试是统计显着的大於。
上述测试结果满足此要求,故可拒却整体零假说而接受代假说,从而应解释为:
测试结果证实新算法至少大於一个老算法。
(二) 交联集测试:
整体零假说和代假说分别为不大於的联集和大於的交集,因而要拒却整体零假说
需要满足所有的个别测试都是统计显着的大於。
显然测试结果不合要求,故不可拒却整体零假说而接受代假说,从而应解释为:
测试无法推翻(或否证)新算法至少不大於一个老算法…吗?
(三) 交交集测试:
整体零假说和代假说分别为不大於的交集和大於的交集,因而要拒却整体零假说
需要满足所有的个别测试都是统计显着的大於。
显然测试结果不合要求,故不可拒却整体零假说而接受代假说,从而应解释为:
测试结果无法推翻(或否证)新算法全都不大於那三个老算法…吗?
(四) 是否能够或如何设计整体零假说与代假说,使其测试结果能得到和个别测试
的结果相同的解释?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.207.45 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1731823628.A.8CC.html
※ 编辑: saltlake (114.36.207.45 台湾), 11/17/2024 21:08:37
※ 编辑: saltlake (114.36.207.45 台湾), 11/17/2024 21:11:16
1F:推 jasonfun44: 演算法不会这样检定,也不是这样用,这样没什麽意义 11/28 07:17
2F:→ yhliu: 重点不是 "演算法", 而是统计假说检定. 不过, 我所学太浅, 12/13 09:30
3F:→ yhliu: 没学过 intersection-intersection test. 12/13 09:31
这个是在美国联邦食药局关於搭配基因测试的药品的规范看到的。
现在有些药品服用前要先对患者做基因检测之後,再挑选针对特定基因形式的
患者需要的药品。
这时候官方要求临床试验通过交集-交集测试(IIT),亦即:
整体虚拟假说: 对每一个基因测试都显示药品无效
对立 : 有
4F:→ yhliu: 如果个别检定显着水准都是 0.01 的话, UI检定会拒绝联合的 12/13 09:33
5F:→ yhliu: 虚无假说, 意谓 A>B, A>C, A>D 并非全部成立; 12/13 09:34
6F:→ yhliu: IU检定不拒绝虚无假说,意谓 A>B,A>C,A>D 至少一个成立. 12/13 09:36
7F:→ yhliu: 上面错了...UI test 的结果是 A>B or A>C or A>D 不被接受 12/13 09:39
8F:→ yhliu: 唉! 又弄错了, H0i 应是 A<=B, A<=C, A<=D, UI test 的结果 12/13 09:42
9F:→ yhliu: 是三个虚无假说并非全部成立, 所以 A>B or A>C or A>D 至少 12/13 09:43
10F:→ yhliu: 一个成立; 而 IU test 的结果是 A>B, A>C, A>D 并非全部成 12/13 09:44
11F:→ yhliu: 立, 因为 A<=B, A<=C, A<=D 至少一个成立. 12/13 09:45
12F:→ yhliu: 根据显着水准0.01做个别检定建构的 UIT 符合显着水准0.03, 12/14 15:53
13F:→ yhliu: 而IUT的显着水准是0.01. 12/14 15:54
A>D (不显着) 和
A<=D (不显着) 会影响对结果的诠释吗?
※ 编辑: saltlake (114.36.244.51 台湾), 12/16/2024 13:28:27
14F:→ yhliu: "A>D 不显着" 就是不能拒绝 "A<=D" 这个虚无假说。 12/17 07:56
15F:推 jasonfun44: 怎麽重点不是演算法,假命题,跟本不用看後面的统计 01/05 06:53
16F:→ jasonfun44: 基本假设就错 01/05 06:53
17F:→ yhliu: 真要比较演算法优劣当然可以订定适当标准做客观评估,这是 01/05 10:18
18F:→ yhliu: 非统计方法。但是,涉及演算法比较至少还有两种情形涉及统 01/05 10:22
19F:→ yhliu: 计方法可使用统计假说检定做评估,其一也是先择定评估准则, 01/05 10:24
20F:→ yhliu: 但不是用演算法性质的数学分析而是采用实验方式以获取各演 01/05 10:25
21F:→ yhliu: 算法实证数据相互比较,这也是一种客观比较。其次,可以由 01/05 10:27
22F:→ yhliu: 一群评价者主观评估演算法优劣,而以统计假说检定判定各演 01/05 10:30
23F:→ yhliu: 法在潜在使用者或评价者心目中的优劣。不过,就本问,我先 01/05 10:33
24F:→ yhliu: 前说重点不在演算法而是统计假说检定,因 "演算法比较" 只 01/05 10:35
25F:→ yhliu: 是问题随意叙述的一个例子,就像数学练习中很多例子,难道 01/05 10:37
26F:→ yhliu: 重点在那些看起来毫无实用价值的 "实例" 而不是涉及的数学 01/05 10:39
27F:→ yhliu: 方法和思路? 01/05 10:40
如上述,如果演算法性能的比较,是纯粹基於演算法的理论性质进行理论推导,
而非利用实验去验证,当然用不到上面的统计假说检定。具体像是偏微分方程式做
不同的差分而得到不同的差分方程式。再用傅立叶分析对不同差分方程式做稳定性
和一致性等的理论分析。这样当然用不到统计推论方法。
又或者是各种求根的演算法,如割线法或牛顿法等,比较其收敛与否和收敛速率
,是基於数列歛散性质进行理论推导而得,当然不需要用统计推论。
然而,倘若根本不知道演算法的理论性质,而是像做数据回归那样,假设某组
数据符合某个数学模型,然後设定某个目标函数与限制,使用某个最佳化演算法
去计算出该数学模型的最佳参数而得到最佳(近似)模型。最後用另一组数据去比
对所得的数学模型的性能。这样一来,和测试药品在受试者样本的药效而进行统
计推论,有啥不同? 遑论统计课本就有利用统计推论去比较不同最小方差回归模
型的参数的统计推论了。
要宣称「演算法的比较不需要统计检定」,请写明白,前所谓的演算法比较,
使用怎样的方法进行比较。
※ 编辑: saltlake (114.36.222.209 台湾), 01/05/2025 18:13:21