Statistics 板


LINE

机器学习里有各种不同的抽样或模拟方法去处理 imbalance 的 output variable 我们在 training set 里 balance the output variable 但是回到 test set 里,我们处理的依旧是 imbalance 的output 所以我的疑惑是为什麽 balance training set 可以改善机器学习的模型? 谢谢! --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 73.86.147.139 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1663255519.A.EF9.html
1F:→ chang1248w: 这要看模型和你的目标函数吧 09/16 12:30
2F:→ chang1248w: 譬如要做二分类的时候,一类占九成,二类站一成,那 09/16 12:32
3F:→ chang1248w: 模型只要全预测成一类,准确度就吓吓叫 09/16 12:32
4F:推 LeFilsDuVent: 考虑二元分类,若0类99%,1类1%,那模型把0类猜错成 09/20 22:12
5F:→ LeFilsDuVent: 1类会常常受到处罚,反之1类的训练量很少,猜错成0 09/20 22:13
6F:→ LeFilsDuVent: 处罚也不多,所以就学会全部猜0最划算。这个问题在 09/20 22:14
7F:→ LeFilsDuVent: 你给模型公平机会训练0,1类的时候就减轻了 09/20 22:15
8F:→ evilove: 我明白training里的逻辑,但test并不能balance资料 09/21 01:55
9F:→ evilove: 所以两边基本是不同的data patterns 09/21 01:56
10F:→ evilove: 所以为什麽平衡training可以改善test的performace? 09/21 01:57
11F:推 raiderho: 警察例行巡查碰到罪犯的频率很低,但平时训练会针对罪犯 09/21 07:16
12F:→ raiderho: 情境啊。如一楼说的,重点在於目标函数的设定,遇到罪犯 09/21 07:16
13F:→ raiderho: 的频率虽少但很重要,权重很大,这时候召回率(抓到罪犯 09/21 07:16
14F:→ raiderho: 的比率)是重要的指标,而召回率根本不考虑守法份子,但 09/21 07:16
15F:→ raiderho: 只考虑召回率也有问题(将全部路人指认为罪犯,召回率高 09/21 07:16
16F:→ raiderho: 达1),所以会有其他权衡(例如f1 score),这样训练时将资 09/21 07:16
17F:→ raiderho: 料平衡就很合理了 09/21 07:16
18F:推 LeFilsDuVent: test set就是看你模型的可推广性,训练就是从一堆 09/21 10:15
19F:→ LeFilsDuVent: 函数(hypothesis set)里面挑出一个最好的,模型可以 09/21 10:15
20F:→ LeFilsDuVent: 认得1类的pattern那就可以推广 09/21 10:16
21F:→ LeFilsDuVent: 举个例子,你训练出一个认猫狗的模型,之後测试时 09/21 10:17
22F:→ LeFilsDuVent: 故意每100张猫图只掺1张狗图,模型会认不出狗吗? 09/21 10:18
23F:→ LeFilsDuVent: 权重是另外一回事了,如果不用up/down sampling,那 09/21 10:20
24F:→ LeFilsDuVent: 可以在训练时使用权重让辨认不出少数族群处罚很重 09/21 10:21
25F:→ LeFilsDuVent: 也就是:1.你的问题在imbalance时的可推广性 2.对付 09/21 10:22
26F:→ LeFilsDuVent: imbalance情况可以up/down sampling或reweightingy 09/21 10:22
27F:→ LeFilsDuVent: 3.2里面的方法为什麽有效就是训练时处罚的概念 09/21 10:22
28F:→ chang1248w: 那我再举一个例子,当某个考生在读书的时候,练九题 09/22 11:46
29F:→ chang1248w: 微方然後练一题统计,考试的时候考一半微方一半统计 09/22 11:46
30F:→ chang1248w: 那这考生是不是在答统计的时候会答的比较差? 09/22 11:47
31F:→ chang1248w: balance 的用意就在於希望模型放一样的努力在统计和 09/22 11:49
32F:→ chang1248w: 微方,当两个科目都有一定掌握,理想上这模型对数学 09/22 11:49
33F:→ chang1248w: 的理解会比较深刻 09/22 11:49
34F:→ chang1248w: 不过training set和testing set同源时 09/22 11:53
35F:→ chang1248w: balanced model 不一定会有比较好的表现,这部分和前 09/22 11:53
36F:→ chang1248w: 面提到的一样,取决於你的target怎麽定 09/22 11:53
37F:→ saltlake: 反问发问人,您进行测试集之「测试目的」何在? 为了测试 11/14 08:35
38F:→ saltlake: 训练出来的模型「辨识一般无偏状况」的能力? 还是测试y 11/14 08:36
39F:→ saltlake: 训练所得模型「在特定偏差下」的辨识能力? 11/14 08:36
40F:→ saltlake: 如同训练集的挑选,测试集挑选也要「符合测试目的」 11/14 08:38
41F:→ recorriendo: 取决使用场景 例如假设你目的是诊断rare disease 你 11/15 20:01
42F:→ recorriendo: 都猜没病就accuracy很高但根本没用(sensitivity=0) 11/15 20:01







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP