作者boggy ()
看板DataScience
標題[問題] Imbalanced dataset使用SOMTE求教
時間Fri May 6 22:41:18 2022
大家好
我正在做一個關於imbalanced data的分析
正樣本大概1%,feature有95個,data共6500筆左右
簡單的特徵處理後
對X_train
我先用sklearn的SMOTENC來合成正樣本(因為feature含nominal variable故用SMOTENC)
之後先簡單用logistic regression來fit X_test
結果居然發現使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都變差了......
這根本顛覆我的認知了啊@@"
可是查了程式碼和網路上爬了一堆文也還不知道是為什麼?
(後來再try其他模型也都是一樣結果)
想請問各位這種結果是有可能的嗎?
已經想了一整天了QQ
感謝大家看完~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.122.138 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1651848080.A.D27.html
1F:→ chang1248w: 你有檢查你對象的normality 和countinuity? 05/07 01:38
2F:推 cowbadma5566: 看看混淆矩陣變差的是哪裡 05/07 04:21
3F:推 KuChanTung: 試試設定class weight 然後使用bagging 來跑 logistic 05/07 06:39
4F:→ KuChanTung: regression 05/07 06:39
5F:推 carolian: 你列出的metrics變差的幅度大嗎?smote後看classificat 05/07 06:56
6F:→ carolian: ion report 裡面positive class的recall應該會比原本高 05/07 06:56
7F:→ carolian: ,其他metrics降低其實蠻正常 05/07 06:56
8F:推 KindWei: 樓上正解,oversampling 的意義在於強化模型辨認少樣本 05/07 13:09
9F:→ KindWei: 的能力,還有 oversampling 本質上還是增加了資料的 nois 05/07 13:09
10F:→ KindWei: e ,如果你 oversample 過多樣本,反而讓 model 學到更多 05/07 13:09
11F:→ KindWei: 髒東西,反而降低原本辨認多樣本的能力 05/07 13:09
12F:→ chang1248w: 長知識 05/07 13:48
13F:→ boggy: 感謝大家,真的長知識了 05/08 00:09
15F:→ boggy: 做完之後的確precision上升,RF沒變曾該是模型本身就能分 05/08 00:10
16F:→ boggy: 不平衡數據,貝氏變差應該就像前面大大說的nosie增多 05/08 00:11
17F:推 VIATOR: 我過去的經驗SMOTE也變差(不過變差幅度沒統計顯著差異) 05/10 00:02
18F:→ VIATOR: SMOTE最根本原理是根據knn,但knn不適合高維度的問題 05/10 00:04
19F:→ VIATOR: 所以我認為SMOTE對高維度的問題沒太大的幫助 05/10 00:04