作者bruce3557 (bruce)
看板Statistics
标题[问题] 关於 A/B Test 观察指标讨论
时间Sun Jan 19 23:04:07 2020
Hi 大家好,
最近小弟在工作上讨论 A/B Test 遇到了一些卡住的地方
想看看有没有人可以帮助解惑 XD 也想了解一下大家都怎麽理解这些问题~
我们最近在讨论的问题是关於使用时长的 A/B Test
在 A/B Test 里我们做的步骤是这样:
1. 关於实验的步骤我们的假说是随机抽取两组人
(根据随机试验,我们相信足够多人就可以代表母体)
2. 对他们过去几天的使用时长做检测,分布一致才进行 3,否则回 1 重抽
3. 开始实验
然而现在有一个争论点是这样的
我们要比较使用时长,我们应该看的指标是下列二者哪一种
1. 时长平均数 or 整体时长
2. 时长中位数
使用 1 的原因是我们的总体指标想看的是整体时长
所以用平均数或是直接用整体时长都可以有很好的 align 商业指标
另外因为平均 or 总体时长做出来会符合中央极限定理
所以很自然的可以使用 normal distribution 的 test 来做检测
跟 confidence interval 的推估
市面上蛮多关於 skew dataset 的检测也是类似的
(像是电商的 order revenue,做实验有没有平均 order revenue 成长,
也是观测这类型 skew dataset 的变化)
这个的理论基础大概是:
https://www.mdrc.org/sites/default/files/full_533.pdf
使用 2 目前的状况是因为
a. 平均时长很容易被时长很高的人拉走
b. 原本使用者的时长分布并非 normal,所以不该用平均数
所以有部分的人认为应该是要观测中位数的变化
这个的缺点大概是不一定能够反映我们整体的指标变化
不确定这样描述够不够清楚 QQ
想说看看板上各位大师的意见,
小弟也算是半路出家 K 这些资料,
不确定到底哪种描述 + 实验方式比较正确
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.135.132.139 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1579446250.A.34C.html
1F:→ andrew43: 题外话,我对第二段第2点的内容觉得怪怪的。怎麽叫一致? 01/19 23:11
2F:→ andrew43: 回到话题。我猜你的问题核心在於离群值严不严重。 01/19 23:13
3F:→ andrew43: 但这要等到收完资料才看得出来。 01/19 23:14
4F:→ sifmelcara: 你需要的可能是Kolmogorov-Smirnov test来比较分布, 01/19 23:16
5F:→ sifmelcara: 而不是用平均数或中位数 01/19 23:16
6F:→ bruce3557: 检测一致的指标也是我们在讨论的重点之一 01/19 23:21
7F:→ bruce3557: 现在的点比较像是如果想要比较总体时长,这样采样的点 01/19 23:22
8F:→ bruce3557: 应该要是个人的点还是一个 aggregate 过的结果当一个点 01/19 23:22
9F:→ bruce3557: 现在使用2提出来的检验法应该是 Mann-Whitney U test 01/19 23:25
10F:推 andrew43: 小心挑选样本的方式。我没看懂这部分,但这最重要。 01/20 08:13
11F:→ bruce3557: 挑选样本的方式应该要 align metric 或是个人的某项数 01/20 12:41
12F:→ bruce3557: 值比较合理 @@? 01/20 12:41
13F:推 andrew43: 我也不知道。我也不懂你如何挑,但看起来似乎挑很大, 01/20 12:52
14F:→ andrew43: 谨慎。 01/20 12:52
15F:→ bruce3557: hmm 我再想一下..谢谢! 01/20 23:46
16F:→ yhliu: 不懂你们所要的以及你们所做的. 我有上网查了所谓 A/B test 01/21 05:15
17F:→ yhliu: 是指什麽, 似乎是在比较两种东西的效果, 例如两个广告用语 01/21 05:18
18F:推 yhliu: 何者较有效.实验方法是随机选取两组人分别提示 A 或 B 事物 01/21 05:22
19F:→ yhliu: 据以评估二者的效果何者较佳. 例如广告词实验分别寄发电子 01/21 05:24
20F:→ yhliu: 邮件提示两种广告词之一并告知对方采用某一优惠代码. 01/21 05:26
21F:→ yhliu: 你说耍观察的是使用时长,"对他们过去几天的使用时长做检测" 01/21 05:27
22F:→ yhliu: 我不懂是什麽的使用时长? 以经验使用时长来评选样本又是怎 01/21 05:29
23F:→ yhliu: 麽回事? 在我想来, A/B test 就是两样本随机实验, 两组样本 01/21 05:31
24F:→ yhliu: 应是在某个群体中随机选取的, 而你要给两组样本不同的处理, 01/21 05:33
25F:→ yhliu: 如广告词一例中提示不同广告词并给予不同优惠代码, 然後观 01/21 05:35
26F:→ yhliu: 测其反应以评占哪种 "处理" 较好. 如果是 "经验使用时长" 01/21 05:37
27F:→ yhliu: 可能影响实验效果 (经验使用时长与A/B实验的 "使用时长" 究 01/21 05:40
28F:→ yhliu: 竟是什麽东西?) 有两种方式, 一是不采用两独立样本而采配对 01/21 05:41
29F:→ yhliu: 样本; 二是维持原随机样本, 即使抽出後发现两组样本使用经 01/21 05:43
30F:→ yhliu: 验有明颢差异, 但在分析方法上不采用单纯的平均数比较、中 01/21 05:45
31F:→ yhliu: 位数比较, 或分布函数比较, 而是采用按使用经验分组後比较 01/21 05:46
32F:→ yhliu: 同组 A/B 之差异, 或用使用经验当调整项, 例如 ANCOVA 或 01/21 05:48
33F:→ yhliu: 分别对接受 A/B 处理者建立反应模式(例如实验之使用时长对 01/21 05:49
34F:→ yhliu: 经验使用时常及其他变项的j归模式, 而後比较接受A处理和接 01/21 05:52
35F:→ yhliu: 受B处理者所建立的模式的差异. 01/21 05:53