Statistics 板


LINE

Hi 大家好, 最近小弟在工作上討論 A/B Test 遇到了一些卡住的地方 想看看有沒有人可以幫助解惑 XD 也想了解一下大家都怎麼理解這些問題~ 我們最近在討論的問題是關於使用時長的 A/B Test 在 A/B Test 裡我們做的步驟是這樣: 1. 關於實驗的步驟我們的假說是隨機抽取兩組人 (根據隨機試驗,我們相信足夠多人就可以代表母體) 2. 對他們過去幾天的使用時長做檢測,分佈一致才進行 3,否則回 1 重抽 3. 開始實驗 然而現在有一個爭論點是這樣的 我們要比較使用時長,我們應該看的指標是下列二者哪一種 1. 時長平均數 or 整體時長 2. 時長中位數 使用 1 的原因是我們的總體指標想看的是整體時長 所以用平均數或是直接用整體時長都可以有很好的 align 商業指標 另外因為平均 or 總體時長做出來會符合中央極限定理 所以很自然的可以使用 normal distribution 的 test 來做檢測 跟 confidence interval 的推估 市面上蠻多關於 skew dataset 的檢測也是類似的 (像是電商的 order revenue,做實驗有沒有平均 order revenue 成長, 也是觀測這類型 skew dataset 的變化) 這個的理論基礎大概是: https://www.mdrc.org/sites/default/files/full_533.pdf 使用 2 目前的狀況是因為 a. 平均時長很容易被時長很高的人拉走 b. 原本使用者的時長分佈並非 normal,所以不該用平均數 所以有部分的人認為應該是要觀測中位數的變化 這個的缺點大概是不一定能夠反映我們整體的指標變化 不確定這樣描述夠不夠清楚 QQ 想說看看板上各位大師的意見, 小弟也算是半路出家 K 這些資料, 不確定到底哪種描述 + 實驗方式比較正確 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.135.132.139 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1579446250.A.34C.html
1F:→ andrew43: 題外話,我對第二段第2點的內容覺得怪怪的。怎麼叫一致? 01/19 23:11
2F:→ andrew43: 回到話題。我猜你的問題核心在於離群值嚴不嚴重。 01/19 23:13
3F:→ andrew43: 但這要等到收完資料才看得出來。 01/19 23:14
4F:→ sifmelcara: 你需要的可能是Kolmogorov-Smirnov test來比較分佈, 01/19 23:16
5F:→ sifmelcara: 而不是用平均數或中位數 01/19 23:16
6F:→ bruce3557: 檢測一致的指標也是我們在討論的重點之一 01/19 23:21
7F:→ bruce3557: 現在的點比較像是如果想要比較總體時長,這樣採樣的點 01/19 23:22
8F:→ bruce3557: 應該要是個人的點還是一個 aggregate 過的結果當一個點 01/19 23:22
9F:→ bruce3557: 現在使用2提出來的檢驗法應該是 Mann-Whitney U test 01/19 23:25
10F:推 andrew43: 小心挑選樣本的方式。我沒看懂這部分,但這最重要。 01/20 08:13
11F:→ bruce3557: 挑選樣本的方式應該要 align metric 或是個人的某項數 01/20 12:41
12F:→ bruce3557: 值比較合理 @@? 01/20 12:41
13F:推 andrew43: 我也不知道。我也不懂你如何挑,但看起來似乎挑很大, 01/20 12:52
14F:→ andrew43: 謹慎。 01/20 12:52
15F:→ bruce3557: hmm 我再想一下..謝謝! 01/20 23:46
16F:→ yhliu: 不懂你們所要的以及你們所做的. 我有上網查了所謂 A/B test 01/21 05:15
17F:→ yhliu: 是指什麼, 似乎是在比較兩種東西的效果, 例如兩個廣告用語 01/21 05:18
18F:推 yhliu: 何者較有效.實驗方法是隨機選取兩組人分別提示 A 或 B 事物 01/21 05:22
19F:→ yhliu: 據以評估二者的效果何者較佳. 例如廣告詞實驗分別寄發電子 01/21 05:24
20F:→ yhliu: 郵件提示兩種廣告詞之一並告知對方採用某一優惠代碼. 01/21 05:26
21F:→ yhliu: 你說耍觀察的是使用時長,"對他們過去幾天的使用時長做檢測" 01/21 05:27
22F:→ yhliu: 我不懂是什麼的使用時長? 以經驗使用時長來評選樣本又是怎 01/21 05:29
23F:→ yhliu: 麼回事? 在我想來, A/B test 就是兩樣本隨機實驗, 兩組樣本 01/21 05:31
24F:→ yhliu: 應是在某個群體中隨機選取的, 而你要給兩組樣本不同的處理, 01/21 05:33
25F:→ yhliu: 如廣告詞一例中提示不同廣告詞並給予不同優惠代碼, 然後觀 01/21 05:35
26F:→ yhliu: 測其反應以評佔哪種 "處理" 較好. 如果是 "經驗使用時長" 01/21 05:37
27F:→ yhliu: 可能影響實驗效果 (經驗使用時長與A/B實驗的 "使用時長" 究 01/21 05:40
28F:→ yhliu: 竟是什麼東西?) 有兩種方式, 一是不採用兩獨立樣本而採配對 01/21 05:41
29F:→ yhliu: 樣本; 二是維持原隨機樣本, 即使抽出後發現兩組樣本使用經 01/21 05:43
30F:→ yhliu: 驗有明顥差異, 但在分析方法上不採用單純的平均數比較、中 01/21 05:45
31F:→ yhliu: 位數比較, 或分布函數比較, 而是採用按使用經驗分組後比較 01/21 05:46
32F:→ yhliu: 同組 A/B 之差異, 或用使用經驗當調整項, 例如 ANCOVA 或 01/21 05:48
33F:→ yhliu: 分別對接受 A/B 處理者建立反應模式(例如實驗之使用時長對 01/21 05:49
34F:→ yhliu: 經驗使用時常及其他變項的j歸模式, 而後比較接受A處理和接 01/21 05:52
35F:→ yhliu: 受B處理者所建立的模式的差異. 01/21 05:53







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP