[问题] 关於 A/B Test 观察指标讨论

时间Sun Jan 19 23:04:07 2020

Hi 大家好，最近小弟在工作上讨论 A/B Test 遇到了一些卡住的地方想看看有没有人可以帮助解惑 XD 也想了解一下大家都怎麽理解这些问题～我们最近在讨论的问题是关於使用时长的 A/B Test 在 A/B Test 里我们做的步骤是这样: 1. 关於实验的步骤我们的假说是随机抽取两组人 (根据随机试验，我们相信足够多人就可以代表母体) 2. 对他们过去几天的使用时长做检测，分布一致才进行 3，否则回 1 重抽 3. 开始实验然而现在有一个争论点是这样的我们要比较使用时长，我们应该看的指标是下列二者哪一种 1. 时长平均数 or 整体时长 2. 时长中位数使用 1 的原因是我们的总体指标想看的是整体时长所以用平均数或是直接用整体时长都可以有很好的 align 商业指标另外因为平均 or 总体时长做出来会符合中央极限定理所以很自然的可以使用 normal distribution 的 test 来做检测跟 confidence interval 的推估市面上蛮多关於 skew dataset 的检测也是类似的 (像是电商的 order revenue，做实验有没有平均 order revenue 成长，也是观测这类型 skew dataset 的变化) 这个的理论基础大概是: https://www.mdrc.org/sites/default/files/full_533.pdf 使用 2 目前的状况是因为 a. 平均时长很容易被时长很高的人拉走 b. 原本使用者的时长分布并非 normal，所以不该用平均数所以有部分的人认为应该是要观测中位数的变化这个的缺点大概是不一定能够反映我们整体的指标变化不确定这样描述够不够清楚 QQ 想说看看板上各位大师的意见，小弟也算是半路出家 K 这些资料，不确定到底哪种描述 + 实验方式比较正确 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.135.132.139 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1579446250.A.34C.html

1^F：→ andrew43: 题外话，我对第二段第2点的内容觉得怪怪的。怎麽叫一致? 01/19 23:11

2^F：→ andrew43: 回到话题。我猜你的问题核心在於离群值严不严重。 01/19 23:13

3^F：→ andrew43: 但这要等到收完资料才看得出来。 01/19 23:14

4^F：→ sifmelcara: 你需要的可能是Kolmogorov-Smirnov test来比较分布， 01/19 23:16

5^F：→ sifmelcara: 而不是用平均数或中位数 01/19 23:16

6^F：→ bruce3557: 检测一致的指标也是我们在讨论的重点之一 01/19 23:21

7^F：→ bruce3557: 现在的点比较像是如果想要比较总体时长，这样采样的点 01/19 23:22

8^F：→ bruce3557: 应该要是个人的点还是一个 aggregate 过的结果当一个点 01/19 23:22

9^F：→ bruce3557: 现在使用2提出来的检验法应该是 Mann-Whitney U test 01/19 23:25

10^F：推 andrew43: 小心挑选样本的方式。我没看懂这部分，但这最重要。 01/20 08:13

11^F：→ bruce3557: 挑选样本的方式应该要 align metric 或是个人的某项数 01/20 12:41

12^F：→ bruce3557: 值比较合理 @@? 01/20 12:41

13^F：推 andrew43: 我也不知道。我也不懂你如何挑，但看起来似乎挑很大， 01/20 12:52

14^F：→ andrew43: 谨慎。 01/20 12:52

15^F：→ bruce3557: hmm 我再想一下..谢谢! 01/20 23:46

16^F：→ yhliu: 不懂你们所要的以及你们所做的. 我有上网查了所谓 A/B test 01/21 05:15

17^F：→ yhliu: 是指什麽, 似乎是在比较两种东西的效果, 例如两个广告用语 01/21 05:18

18^F：推 yhliu: 何者较有效.实验方法是随机选取两组人分别提示 A 或 B 事物 01/21 05:22

19^F：→ yhliu: 据以评估二者的效果何者较佳. 例如广告词实验分别寄发电子 01/21 05:24

20^F：→ yhliu: 邮件提示两种广告词之一并告知对方采用某一优惠代码. 01/21 05:26

21^F：→ yhliu: 你说耍观察的是使用时长,"对他们过去几天的使用时长做检测" 01/21 05:27

22^F：→ yhliu: 我不懂是什麽的使用时长? 以经验使用时长来评选样本又是怎 01/21 05:29

23^F：→ yhliu: 麽回事? 在我想来, A/B test 就是两样本随机实验, 两组样本 01/21 05:31

24^F：→ yhliu: 应是在某个群体中随机选取的, 而你要给两组样本不同的处理, 01/21 05:33

25^F：→ yhliu: 如广告词一例中提示不同广告词并给予不同优惠代码, 然後观 01/21 05:35

26^F：→ yhliu: 测其反应以评占哪种 "处理" 较好. 如果是 "经验使用时长" 01/21 05:37

27^F：→ yhliu: 可能影响实验效果 (经验使用时长与A/B实验的 "使用时长" 究 01/21 05:40

28^F：→ yhliu: 竟是什麽东西?) 有两种方式, 一是不采用两独立样本而采配对 01/21 05:41

29^F：→ yhliu: 样本; 二是维持原随机样本, 即使抽出後发现两组样本使用经 01/21 05:43

30^F：→ yhliu: 验有明颢差异, 但在分析方法上不采用单纯的平均数比较、中 01/21 05:45

31^F：→ yhliu: 位数比较, 或分布函数比较, 而是采用按使用经验分组後比较 01/21 05:46

32^F：→ yhliu: 同组 A/B 之差异, 或用使用经验当调整项, 例如 ANCOVA 或 01/21 05:48

33^F：→ yhliu: 分别对接受 A/B 处理者建立反应模式(例如实验之使用时长对 01/21 05:49

34^F：→ yhliu: 经验使用时常及其他变项的j归模式, 而後比较接受A处理和接 01/21 05:52

35^F：→ yhliu: 受B处理者所建立的模式的差异. 01/21 05:53

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

[问题] 关於 A/B Test 观察指标讨论

热门看板

赞助商连结