作者clansoda (小笨)
看板DataScience
标题[问题] 断崖式模型损坏
时间Sun Oct 4 15:10:40 2020
各位好,前阵子拿到imagenet因此想试试看能不能重现alexnet的表现
我目前的问题是前面10几个epochs都能正常的训练
我的error是用BCE reduce = sum
第一个epoch训练完之後training error是6点多
但是10几个epochs之後会突然出现error从3点多暴跌到100
多的情况 accuracy也从top5 = 50多%变成0%
之前训练其他模型没有遇过这种情况
想请问有甚麽可能会遇上这样断崖式的模型崩坏吗
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.134.15.129 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1601795443.A.AA6.html
1F:推 wtchen: 感觉上是梯度下降走的太快,不小心滑出Loss local min? 10/04 18:28
2F:→ clansoda: wt大,我使用的是ranger optimizer lr=1e-4 10/04 20:10
3F:→ clansoda: 我的想法是如果学习率太大,他是不是应该早点崩掉 10/04 20:11
4F:→ clansoda: 而不是已经走了10几个epochs才坏掉呢? 10/04 20:11
5F:推 wtchen: 学习率太高是有可能先降後崩掉 10/04 21:07
7F:→ wtchen: 若不能降学习率,加入一些惩罚项或normalization 10/04 21:09
8F:→ wtchen: 也许能帮助模型稳定 10/04 21:09
9F:推 DiscreteMath: 感觉很像是learning rate问题,可以做learning rate 10/09 21:57
10F:→ DiscreteMath: scheduling,或是gradient clipping. 训练到後期常常 10/09 21:57
11F:→ DiscreteMath: lr会设到非常低 10/09 21:57
12F:→ DiscreteMath: 防止跳出或是走不到local min 10/09 21:57
13F:→ chang1248w: 感觉是pipline有脏东西或者你code有错 10/14 01:14