Statistics 板


LINE

Hi 大家好, 最近小弟在工作上讨论 A/B Test 遇到了一些卡住的地方 想看看有没有人可以帮助解惑 XD 也想了解一下大家都怎麽理解这些问题~ 我们最近在讨论的问题是关於使用时长的 A/B Test 在 A/B Test 里我们做的步骤是这样: 1. 关於实验的步骤我们的假说是随机抽取两组人 (根据随机试验,我们相信足够多人就可以代表母体) 2. 对他们过去几天的使用时长做检测,分布一致才进行 3,否则回 1 重抽 3. 开始实验 然而现在有一个争论点是这样的 我们要比较使用时长,我们应该看的指标是下列二者哪一种 1. 时长平均数 or 整体时长 2. 时长中位数 使用 1 的原因是我们的总体指标想看的是整体时长 所以用平均数或是直接用整体时长都可以有很好的 align 商业指标 另外因为平均 or 总体时长做出来会符合中央极限定理 所以很自然的可以使用 normal distribution 的 test 来做检测 跟 confidence interval 的推估 市面上蛮多关於 skew dataset 的检测也是类似的 (像是电商的 order revenue,做实验有没有平均 order revenue 成长, 也是观测这类型 skew dataset 的变化) 这个的理论基础大概是: https://www.mdrc.org/sites/default/files/full_533.pdf 使用 2 目前的状况是因为 a. 平均时长很容易被时长很高的人拉走 b. 原本使用者的时长分布并非 normal,所以不该用平均数 所以有部分的人认为应该是要观测中位数的变化 这个的缺点大概是不一定能够反映我们整体的指标变化 不确定这样描述够不够清楚 QQ 想说看看板上各位大师的意见, 小弟也算是半路出家 K 这些资料, 不确定到底哪种描述 + 实验方式比较正确 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.135.132.139 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1579446250.A.34C.html
1F:→ andrew43: 题外话,我对第二段第2点的内容觉得怪怪的。怎麽叫一致? 01/19 23:11
2F:→ andrew43: 回到话题。我猜你的问题核心在於离群值严不严重。 01/19 23:13
3F:→ andrew43: 但这要等到收完资料才看得出来。 01/19 23:14
4F:→ sifmelcara: 你需要的可能是Kolmogorov-Smirnov test来比较分布, 01/19 23:16
5F:→ sifmelcara: 而不是用平均数或中位数 01/19 23:16
6F:→ bruce3557: 检测一致的指标也是我们在讨论的重点之一 01/19 23:21
7F:→ bruce3557: 现在的点比较像是如果想要比较总体时长,这样采样的点 01/19 23:22
8F:→ bruce3557: 应该要是个人的点还是一个 aggregate 过的结果当一个点 01/19 23:22
9F:→ bruce3557: 现在使用2提出来的检验法应该是 Mann-Whitney U test 01/19 23:25
10F:推 andrew43: 小心挑选样本的方式。我没看懂这部分,但这最重要。 01/20 08:13
11F:→ bruce3557: 挑选样本的方式应该要 align metric 或是个人的某项数 01/20 12:41
12F:→ bruce3557: 值比较合理 @@? 01/20 12:41
13F:推 andrew43: 我也不知道。我也不懂你如何挑,但看起来似乎挑很大, 01/20 12:52
14F:→ andrew43: 谨慎。 01/20 12:52
15F:→ bruce3557: hmm 我再想一下..谢谢! 01/20 23:46
16F:→ yhliu: 不懂你们所要的以及你们所做的. 我有上网查了所谓 A/B test 01/21 05:15
17F:→ yhliu: 是指什麽, 似乎是在比较两种东西的效果, 例如两个广告用语 01/21 05:18
18F:推 yhliu: 何者较有效.实验方法是随机选取两组人分别提示 A 或 B 事物 01/21 05:22
19F:→ yhliu: 据以评估二者的效果何者较佳. 例如广告词实验分别寄发电子 01/21 05:24
20F:→ yhliu: 邮件提示两种广告词之一并告知对方采用某一优惠代码. 01/21 05:26
21F:→ yhliu: 你说耍观察的是使用时长,"对他们过去几天的使用时长做检测" 01/21 05:27
22F:→ yhliu: 我不懂是什麽的使用时长? 以经验使用时长来评选样本又是怎 01/21 05:29
23F:→ yhliu: 麽回事? 在我想来, A/B test 就是两样本随机实验, 两组样本 01/21 05:31
24F:→ yhliu: 应是在某个群体中随机选取的, 而你要给两组样本不同的处理, 01/21 05:33
25F:→ yhliu: 如广告词一例中提示不同广告词并给予不同优惠代码, 然後观 01/21 05:35
26F:→ yhliu: 测其反应以评占哪种 "处理" 较好. 如果是 "经验使用时长" 01/21 05:37
27F:→ yhliu: 可能影响实验效果 (经验使用时长与A/B实验的 "使用时长" 究 01/21 05:40
28F:→ yhliu: 竟是什麽东西?) 有两种方式, 一是不采用两独立样本而采配对 01/21 05:41
29F:→ yhliu: 样本; 二是维持原随机样本, 即使抽出後发现两组样本使用经 01/21 05:43
30F:→ yhliu: 验有明颢差异, 但在分析方法上不采用单纯的平均数比较、中 01/21 05:45
31F:→ yhliu: 位数比较, 或分布函数比较, 而是采用按使用经验分组後比较 01/21 05:46
32F:→ yhliu: 同组 A/B 之差异, 或用使用经验当调整项, 例如 ANCOVA 或 01/21 05:48
33F:→ yhliu: 分别对接受 A/B 处理者建立反应模式(例如实验之使用时长对 01/21 05:49
34F:→ yhliu: 经验使用时常及其他变项的j归模式, 而後比较接受A处理和接 01/21 05:52
35F:→ yhliu: 受B处理者所建立的模式的差异. 01/21 05:53







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP