作者nctukmdick (kmdick)
看板DataScience
标题[问题] 验证集对最後结果的影响
时间Fri May 4 20:04:48 2018
使用工具:
Keras
问题内容:
小弟我在做一个回归的问题,我发现我把validation_split调高的时候测的结果会比较好
我以为validation 只是把一些资料分出来,拿来测val_loss藉此来评估训练的好不好,
而且这样训练的样本变少不是会训练的比较差吗@@
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.217.35.216
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1525435491.A.555.html
1F:推 bessgaga: 我觉得你也要考虑validation set太小导致正确率精准度05/04 23:15
2F:→ bessgaga: 不够的问题05/04 23:15
3F:推 a78998042a: 如果今天母体资料结构上包含A,B,C,然後你的train set05/05 08:52
4F:→ a78998042a: 怎样都只有C部分,你C收集的资料不管有多多,都没有05/05 08:52
5F:→ a78998042a: 办法在A,B发挥作用,所以最後一句的叙述有问题。05/05 08:52
6F:→ a78998042a: 切割资料集部分,给一个极端的例子,第一种,你做3-fo05/05 08:52
7F:→ a78998042a: ld cv,刚好把A,B,C切开,这时你的结果怎样都不会好;05/05 08:52
8F:→ a78998042a: 第二种,你做leave one out CV,这时他A,B,C都包含,05/05 08:52
9F:→ a78998042a: 所以结果怎样都比第一种好。05/05 08:52
大概懂你的意思 不过我是val_loss和最後拿测试集测的结果也比较好
※ 编辑: nctukmdick (49.217.35.216), 05/05/2018 16:47:05
10F:→ truehero: Training set 变小不见得得会变差, 05/05 18:42
11F:→ truehero: 也许你的training set资料分布已经足够cover validation 05/05 18:43
12F:→ truehero: 最後结果会好可能是early stop在较正确的epoch 05/05 18:53
13F:推 sean50301: cv folds出来的Var(validate error)也可以看一下 05/06 11:44
14F:推 lucien0410: val split每次调高每次最终结果都变好吗?会不会只是 05/06 22:44
15F:→ lucien0410: 刚好这次选到train set分布特别好 05/06 22:44