[問題] val_loss < loss

時間Wed Mar 6 08:26:12 2019

各位有遇到過這個問題嗎（如標題）我的loss history如下圖上方圖表 https://i.imgur.com/Zfp0YvK.jpg 從頭到尾都val_loss < loss，若繼續train下去也是會overfitting（val_loss > loss），但前面val_loss, val_acc都表現比較好感覺蠻奇怪的實際預測的分數慘不忍賭，比訓練/驗證的分數低很多，不知道哪裡出問題QQ 作業系統:win10 問題類別:ML,DL,RNN 使用工具:python --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.2.184 ※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1551831975.A.428.html

1^F：推 sma1033: 原因應該很簡單，你的val_dataset有很高比例被包在train_03/06 08:33

2^F：→ sma1033: dataset底下，也就是train的時候會吃到和val_dataset相近03/06 08:33

3^F：→ sma1033: 的資料，而val_dataset的多樣性又比train_dataset低所致03/06 08:34

4^F：→ sma1033: 假設code沒問題，test慘的原因單純就是「資料太不一樣」03/06 08:36

5^F：→ sma1033: 你可能分資料的時候，sample取得不夠random，或是量太少03/06 08:37

6^F：推 yougigun: 推s03/06 09:35

7^F：推 keepxha: ML/DL常見問題，若資料不夠多可試試K-fold驗證03/06 13:34

8^F：推 Luluemiko: 應該是資料分布的問題 train跟test很不像03/06 23:17

9^F：→ Luluemiko: 可以回頭看一下兩組資料特徵的分布是否相似03/06 23:19

感謝各位指點，思考了一下有點頭緒：我描述一下我的dataset ， binary output只有0和1， 1很少，比例懸殊（約1：19） model訓練時容易往0靠近，如果val dataset被分配到較少的1， val_loss比train loss好應該是可以理解的延伸請教一下，若要train這種比例懸殊的binary dataset， train data的0,1比例要維持原本的懸殊比例嗎？或是0,1比例1：1效果會比較好？我的想法是1：1 model比較不會往某邊靠，但和實際data比例不符感覺又會失真 ※ 編輯: keven92110 (114.136.206.180), 03/07/2019 00:19:25 ※ 編輯: keven92110 (114.136.206.180), 03/07/2019 00:24:05 ※ 編輯: keven92110 (114.136.206.180), 03/07/2019 00:35:04 ※ 編輯: keven92110 (114.136.206.180), 03/07/2019 01:14:15

10^F：推 sma1033: 通常資料分類比例太過懸殊有兩種作法：1.弄成你說的1:1 03/07 07:30

11^F：→ sma1033: 2.把量少的那方loss權重乘以一個大於1的倍數，讓model在 03/07 07:31

12^F：→ sma1033: training過程無法忽略量少的資料，你可以考慮看那個適合 03/07 07:31

13^F：推 f496328mm: 比較常看到的是，用真實比例 03/07 13:04

14^F：→ f496328mm: 最後在判斷 0 or 1 的機率上，不要用 0.5 03/07 13:04

15^F：→ f496328mm: 試試看用 0.1 or 0.2 去調整你的邊界 03/07 13:05

16^F：→ f496328mm: imbalance 的問題很常見 03/07 13:06

17^F：→ f496328mm: 我之前做生產線分析，不良品只有0.5% 03/07 13:06

18^F：→ f496328mm: 就是用調整邊界的方法 03/07 13:07

19^F：推 ruokcnn: Imbalanced data 可以用smote解解看 03/07 21:29

20^F：→ ruokcnn: 或是先cluster 各抓同數目的兩類別train看看 03/07 21:30

21^F：→ ruokcnn: Binary問題最好還是輸出0～1之後再切thresholds 03/07 21:31

22^F：推 luli0034: 應該說今天小類別對你來說是不是很重要如果是的話才是 03/09 00:11

23^F：→ luli0034: 問題(如何提升recall) 類別不平衡可以over/under sampli 03/09 00:11

24^F：→ luli0034: ng或是在training 前調整class weight等等也可以試試 03/09 00:11

25^F：→ luli0034: 看切資料集的時候維持原類別比例（val也是維持1:19） 03/09 00:11

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

DataScience 板

[問題] val_loss < loss

熱門看板

贊助商連結