[问题] val_loss < loss

时间Wed Mar 6 08:26:12 2019

各位有遇到过这个问题吗（如标题）我的loss history如下图上方图表 https://i.imgur.com/Zfp0YvK.jpg 从头到尾都val_loss < loss，若继续train下去也是会overfitting（val_loss > loss），但前面val_loss, val_acc都表现比较好感觉蛮奇怪的实际预测的分数惨不忍赌，比训练/验证的分数低很多，不知道哪里出问题QQ 作业系统:win10 问题类别:ML,DL,RNN 使用工具:python --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.2.184 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1551831975.A.428.html

1^F：推 sma1033: 原因应该很简单，你的val_dataset有很高比例被包在train_03/06 08:33

2^F：→ sma1033: dataset底下，也就是train的时候会吃到和val_dataset相近03/06 08:33

3^F：→ sma1033: 的资料，而val_dataset的多样性又比train_dataset低所致03/06 08:34

4^F：→ sma1033: 假设code没问题，test惨的原因单纯就是「资料太不一样」03/06 08:36

5^F：→ sma1033: 你可能分资料的时候，sample取得不够random，或是量太少03/06 08:37

6^F：推 yougigun: 推s03/06 09:35

7^F：推 keepxha: ML/DL常见问题，若资料不够多可试试K-fold验证03/06 13:34

8^F：推 Luluemiko: 应该是资料分布的问题 train跟test很不像03/06 23:17

9^F：→ Luluemiko: 可以回头看一下两组资料特徵的分布是否相似03/06 23:19

感谢各位指点，思考了一下有点头绪：我描述一下我的dataset ， binary output只有0和1， 1很少，比例悬殊（约1：19） model训练时容易往0靠近，如果val dataset被分配到较少的1， val_loss比train loss好应该是可以理解的延伸请教一下，若要train这种比例悬殊的binary dataset， train data的0,1比例要维持原本的悬殊比例吗？或是0,1比例1：1效果会比较好？我的想法是1：1 model比较不会往某边靠，但和实际data比例不符感觉又会失真 ※ 编辑: keven92110 (114.136.206.180), 03/07/2019 00:19:25 ※ 编辑: keven92110 (114.136.206.180), 03/07/2019 00:24:05 ※ 编辑: keven92110 (114.136.206.180), 03/07/2019 00:35:04 ※ 编辑: keven92110 (114.136.206.180), 03/07/2019 01:14:15

10^F：推 sma1033: 通常资料分类比例太过悬殊有两种作法：1.弄成你说的1:1 03/07 07:30

11^F：→ sma1033: 2.把量少的那方loss权重乘以一个大於1的倍数，让model在 03/07 07:31

12^F：→ sma1033: training过程无法忽略量少的资料，你可以考虑看那个适合 03/07 07:31

13^F：推 f496328mm: 比较常看到的是，用真实比例 03/07 13:04

14^F：→ f496328mm: 最後在判断 0 or 1 的机率上，不要用 0.5 03/07 13:04

15^F：→ f496328mm: 试试看用 0.1 or 0.2 去调整你的边界 03/07 13:05

16^F：→ f496328mm: imbalance 的问题很常见 03/07 13:06

17^F：→ f496328mm: 我之前做生产线分析，不良品只有0.5% 03/07 13:06

18^F：→ f496328mm: 就是用调整边界的方法 03/07 13:07

19^F：推 ruokcnn: Imbalanced data 可以用smote解解看 03/07 21:29

20^F：→ ruokcnn: 或是先cluster 各抓同数目的两类别train看看 03/07 21:30

21^F：→ ruokcnn: Binary问题最好还是输出0～1之後再切thresholds 03/07 21:31

22^F：推 luli0034: 应该说今天小类别对你来说是不是很重要如果是的话才是 03/09 00:11

23^F：→ luli0034: 问题(如何提升recall) 类别不平衡可以over/under sampli 03/09 00:11

24^F：→ luli0034: ng或是在training 前调整class weight等等也可以试试 03/09 00:11

25^F：→ luli0034: 看切资料集的时候维持原类别比例（val也是维持1:19） 03/09 00:11

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] val_loss < loss

热门看板

赞助商连结