[讨论] 关於机器学习里 imbalance 资料

时间Thu Sep 15 23:25:17 2022

机器学习里有各种不同的抽样或模拟方法去处理 imbalance 的 output variable 我们在 training set 里 balance the output variable 但是回到 test set 里，我们处理的依旧是 imbalance 的output 所以我的疑惑是为什麽 balance training set 可以改善机器学习的模型？谢谢! --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 73.86.147.139 (美国) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1663255519.A.EF9.html

1^F：→ chang1248w: 这要看模型和你的目标函数吧 09/16 12:30

2^F：→ chang1248w: 譬如要做二分类的时候，一类占九成，二类站一成，那 09/16 12:32

3^F：→ chang1248w: 模型只要全预测成一类，准确度就吓吓叫 09/16 12:32

4^F：推 LeFilsDuVent: 考虑二元分类，若0类99%，1类1%，那模型把0类猜错成 09/20 22:12

5^F：→ LeFilsDuVent: 1类会常常受到处罚，反之1类的训练量很少，猜错成0 09/20 22:13

6^F：→ LeFilsDuVent: 处罚也不多，所以就学会全部猜0最划算。这个问题在 09/20 22:14

7^F：→ LeFilsDuVent: 你给模型公平机会训练0,1类的时候就减轻了 09/20 22:15

8^F：→ evilove: 我明白training里的逻辑，但test并不能balance资料 09/21 01:55

9^F：→ evilove: 所以两边基本是不同的data patterns 09/21 01:56

10^F：→ evilove: 所以为什麽平衡training可以改善test的performace? 09/21 01:57

11^F：推 raiderho: 警察例行巡查碰到罪犯的频率很低，但平时训练会针对罪犯 09/21 07:16

12^F：→ raiderho: 情境啊。如一楼说的，重点在於目标函数的设定，遇到罪犯 09/21 07:16

13^F：→ raiderho: 的频率虽少但很重要，权重很大，这时候召回率(抓到罪犯 09/21 07:16

14^F：→ raiderho: 的比率)是重要的指标，而召回率根本不考虑守法份子，但 09/21 07:16

15^F：→ raiderho: 只考虑召回率也有问题(将全部路人指认为罪犯，召回率高 09/21 07:16

16^F：→ raiderho: 达1)，所以会有其他权衡(例如f1 score)，这样训练时将资 09/21 07:16

17^F：→ raiderho: 料平衡就很合理了 09/21 07:16

18^F：推 LeFilsDuVent: test set就是看你模型的可推广性，训练就是从一堆 09/21 10:15

19^F：→ LeFilsDuVent: 函数(hypothesis set)里面挑出一个最好的，模型可以 09/21 10:15

20^F：→ LeFilsDuVent: 认得1类的pattern那就可以推广 09/21 10:16

21^F：→ LeFilsDuVent: 举个例子，你训练出一个认猫狗的模型，之後测试时 09/21 10:17

22^F：→ LeFilsDuVent: 故意每100张猫图只掺1张狗图，模型会认不出狗吗？ 09/21 10:18

23^F：→ LeFilsDuVent: 权重是另外一回事了，如果不用up/down sampling，那 09/21 10:20

24^F：→ LeFilsDuVent: 可以在训练时使用权重让辨认不出少数族群处罚很重 09/21 10:21

25^F：→ LeFilsDuVent: 也就是：1.你的问题在imbalance时的可推广性 2.对付 09/21 10:22

26^F：→ LeFilsDuVent: imbalance情况可以up/down sampling或reweightingy 09/21 10:22

27^F：→ LeFilsDuVent: 3.2里面的方法为什麽有效就是训练时处罚的概念 09/21 10:22

28^F：→ chang1248w: 那我再举一个例子，当某个考生在读书的时候，练九题 09/22 11:46

29^F：→ chang1248w: 微方然後练一题统计，考试的时候考一半微方一半统计 09/22 11:46

30^F：→ chang1248w: 那这考生是不是在答统计的时候会答的比较差？ 09/22 11:47

31^F：→ chang1248w: balance 的用意就在於希望模型放一样的努力在统计和 09/22 11:49

32^F：→ chang1248w: 微方，当两个科目都有一定掌握，理想上这模型对数学 09/22 11:49

33^F：→ chang1248w: 的理解会比较深刻 09/22 11:49

34^F：→ chang1248w: 不过training set和testing set同源时 09/22 11:53

35^F：→ chang1248w: balanced model 不一定会有比较好的表现，这部分和前 09/22 11:53

36^F：→ chang1248w: 面提到的一样，取决於你的target怎麽定 09/22 11:53

37^F：→ saltlake: 反问发问人，您进行测试集之「测试目的」何在? 为了测试 11/14 08:35

38^F：→ saltlake: 训练出来的模型「辨识一般无偏状况」的能力? 还是测试y 11/14 08:36

39^F：→ saltlake: 训练所得模型「在特定偏差下」的辨识能力? 11/14 08:36

40^F：→ saltlake: 如同训练集的挑选，测试集挑选也要「符合测试目的」 11/14 08:38

41^F：→ recorriendo: 取决使用场景例如假设你目的是诊断rare disease 你 11/15 20:01

42^F：→ recorriendo: 都猜没病就accuracy很高但根本没用(sensitivity=0) 11/15 20:01

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

[讨论] 关於机器学习里 imbalance 资料

热门看板

赞助商连结