作者fangggggg87 (fangggggg)
看板DataScience
标题[问题] YOLO训练自己图档问题
时间Thu Apr 2 23:17:03 2020
作业系统:win10
问题类别:YOLOv2
使用工具:python
问题内容:
不好意思,小妹最近在学习用YOLOv2来分类自己的图档,有几点问题十分困惑,故想请问
各位大哥大姐,还恳请各位帮忙解惑了..
1.训练的时间要如何加速?
目前我是用dgx跑YOLOv2
资料图档约4千多,分了6个label。
epoch 先设1000想先跑看看,但过了一天epoch才40几...因此,想询问这是正常的吗?
(真的是我的天啊!我以为会一天内或几小时内就跑好了 ......)还是说可能是一些pa
rameter要修改?
因为我其实只是想先快速看到第一次的结果准确率为何而已......
遇到此状况,就不确定是否以後每次一改参数,就要等好几天...
还是各位大大有什麽建议,能加速训练的时间呢?
2.指标部分
我浏览了些应用的paper
发现主要都用mAP来去评估模型好坏
但却看不到一些实作评估用confusion box 或单precision与recall等来评估
想请问为何yolo或RCnn等的模型评估都不太使用confusion box、precision、Top-5等
是因为label可能会很多所以不使用吗?
还是其实也是可以使用?(只是很少人用之类的)
3.loss
最後一个问题,想请问大大们是否有些经验法则
好比loss降到多少其实就差不多收敛了
或是可以透过什麽方式来看模型训练差不多
(还是只能看准确率、mAP呢?)
不好意思...一次问题有点多....
而且问题有点鸡毛蒜皮超羞耻,不过这些问题困扰我颇久(止不住地一直思考啊啊啊啊啊
)
因此还恳请各位大大帮忙解答了
也谢谢各位愿意看到这边
小妹在此感恩不尽><
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.137.143.225 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1585840625.A.3F9.html
1F:→ st1009: 我先说,我没跑过YOLO,所以我说的可能有错,不过我猜某些 04/03 00:07
2F:→ st1009: 东西ML应该是共同的吧,加速就看调大batch或者用更好的GPU 04/03 00:07
3F:→ st1009: ,如果只是测试可以考虑用小一点的Data,收敛也比较快。 04/03 00:07
4F:推 st1009: 2.我想是因为单个比较偏颇吧,但是如果目标符合还是能用 04/03 00:09
5F:推 st1009: 3.我是看lose没有明显变化就是收敛了 04/03 00:12
st大你好>< 好的!我会再试试看调整batch大小!loss部分..我一直在2.1至3.5徘回,降不下去
我想我应该是要重整数据才会降下去了哈哈哈QQ谢谢你
6F:→ truehero: dgx一天才40epoch,该不会没缩图吧...? 04/03 00:22
t大你好><..请问缩图的意思是input进去的图要先重新resize再喂吗?(我想说喂进去model後,就会先resize就没先整理图档了QQ..)
7F:推 y956403: 1图片太大张or没使用GPU 3如果data够多 可以切val set验 04/03 02:30
8F:→ y956403: 证 overfit的时候停掉 04/03 02:30
m大你好>< 我图片大多长宽600或700,我想应该同t大意思一样,喂进去太大所以才跑很久,这个我会再修改谢谢你QQ
9F:推 littleyuan: mAP是拿来当objective metrics,模型出来後 你画出 04/03 03:13
10F:→ littleyuan: confidence level和precision recall之间的关系 利 04/03 03:13
11F:→ littleyuan: 用你最想要的precision recall value来决定你的confid 04/03 03:13
12F:→ littleyuan: ence值 04/03 03:13
13F:推 littleyuan: 一个好的model precision recall都不能太低。mAP 值 04/03 03:16
14F:→ littleyuan: 高的话 代表你如果confidence level threshold 高prec 04/03 03:16
15F:→ littleyuan: ision 高 recall不会太低。 mAP值不高的话 你precisio 04/03 03:16
16F:→ littleyuan: n 高时 recall就低 所以有tradeoff。最惨情况是recal 04/03 03:16
17F:→ littleyuan: l precision都很低 那这模型完全不能用。 04/03 03:16
18F:→ littleyuan: 所以当你mAP非常高的时候 你的recall precision都是 04/03 03:17
19F:→ littleyuan: 高的 是最好的情况 04/03 03:17
20F:推 littleyuan: 就类似ROC curve的概念 04/03 03:19
21F:推 littleyuan: 可以弄early stopping 04/03 03:21
22F:推 littleyuan: 我是用aws cloud computing比较不用烦恼效率问题 话 04/03 03:23
23F:→ littleyuan: 说我也是小妹哈哈 这行女的比soctware developer多些 04/03 03:23
24F:→ littleyuan: 欢迎加入DS 04/03 03:23
li大你好>< 超感动大家回我的!也谢谢你回覆超详细Q//Q
我其实还没看到结果,是看很多实作文章,但没怎麽用precision与recall,
所以我才再思考结果是否不会出现precision等指标,然後只会出现mAP,而我要自己反推precision这样。
我想我还是先再重新数据,用小的epoch来看一次结果为何,
再来判定我到底要用什麽指标好了!不过您的回覆,让我受益良多,增加很多概念!谢谢你:)
※ 编辑: fangggggg87 (140.124.76.114 台湾), 04/03/2020 11:37:19
※ 编辑: fangggggg87 (140.124.76.114 台湾), 04/03/2020 11:39:59
※ 编辑: fangggggg87 (140.124.76.114 台湾), 04/03/2020 11:42:03
※ 编辑: fangggggg87 (140.124.76.114 台湾), 04/03/2020 11:45:10
25F:推 Sfly: 700不算太大张,你大概是没使用到gpu 04/03 20:24
26F:→ Sfly: 另外,看loss值不准,一定要用其他指标如recall来选模型 04/03 20:26
Sf大你好,我终於看懂了大家为啥说我gup没使用了,原来语法上要自己加入
我以为电脑会自动使用哈哈哈哈哈QQ 目前使用了,速度快很多!
其他指标的部份...我想..应该也要自己加上语法让它显示出来的样子
(原本也以为跑完就会出现精准度等等,所以就傻等了2天...哭..)
我会再研究看看怎加其他指标进去的~ 谢谢你:)
※ 编辑: fangggggg87 (140.124.76.106 台湾), 04/04/2020 13:36:50
※ 编辑: fangggggg87 (140.124.76.106 台湾), 04/04/2020 13:39:34
27F:推 st1009: ctrl+y可以删除多余的绿色行,注意不要删到推文就好 04/04 14:00
st大你好,拍谢..我弱弱的看不太懂绿色行的意思是什麽QQ...
28F:推 luluthejason: loss不同data 不同loss设计的话 彼此之间很难比较 04/05 15:56
29F:推 shhs1000246: loss观察趋势呀 每一种loss的计算方式不一样要看定义 04/06 03:54
30F:→ shhs1000246: 还有yolo前面好像有加resize了不需要自己缩 04/06 03:54
31F:→ shhs1000246: 要看什麽时候停可以加validation看看mAP的状况 04/06 03:56
32F:→ shhs1000246: 最後加速问题可以考虑用多张gpu 虽然4000多张感觉不 04/06 03:57
33F:→ shhs1000246: 是很多就是 04/06 03:57
ms大你好,好的!我有去查一下YOLO的loss function内容设计为何了,
一开始我也在纳闷有resize那我还要缩吗哈哈
结果是我没叫出要用gup的指令才跑那麽慢(汗) 不过还是感恩你><
34F:推 sxy67230: 会用mAP主要是因为object detection 有两个变因threshol 04/06 11:29
35F:→ sxy67230: d 会影响performance 结果,采用mean average 就是去计 04/06 11:29
36F:→ sxy67230: 算线下面积的平均,好处就是比较有公定基准来评估模型。 04/06 11:29
37F:→ sxy67230: 剩下我印象中蛮多网站都有评量方式,可以去看看怎麽实作 04/06 11:29
38F:→ sxy67230: 会比较了解我说的 04/06 11:29
sxy大你好,好的!这个部分我会再去多找找看变因有哪些,对这个领域刚接触..
弱弱的菜鸟,我加油QQ 谢谢你><
※ 编辑: fangggggg87 (140.124.76.106 台湾), 04/07/2020 21:49:18
39F:推 st1009: 绿色行就是编辑完之後出现的纪录行,其实不删也可以 04/07 21:57
40F:→ st1009: 我是在说PTT的功能 04/07 21:58
41F:→ fangggggg87: 好的 谢谢你xd 04/08 13:13
42F:推 sssh: 我自己train 七个类别,training data 三万多张,大概train 04/13 21:46
43F:→ sssh: 个两天 Loss 就可以收敛了,然後一般设计 YOLO ,大概都会 04/13 21:46
44F:→ sssh: 先侦测你是否有GPU,没有的话才会用CPU train吧? 04/13 21:46
45F:→ sssh: Loss的部分,我用 darknet YOLOv2 tiny大概可以压到0.0015 04/13 21:48
46F:→ sssh: 左右 04/13 21:48
47F:→ fangggggg87: sssh大你好!目前我应该是自用显卡来跑,因为dgx所 04/20 14:04
48F:→ fangggggg87: 用的环境跟自己弄的不相容QQ 希望之後我增量上去也可 04/20 14:04
49F:→ fangggggg87: 以跑很快,谢谢你提供经验让我打了个强心针xd 04/20 14:04
50F:推 wargods8402: YOLOV2没跑过,V3可以参照AlexeyAB修改後的,支援输 04/28 00:30
51F:→ wargods8402: 出成折现图,每个类别的mAP...等。需要修改Makefile 04/28 00:30
52F:→ wargods8402: 做训练过程加速。有时候看到数值降到理想值了,不代 04/28 00:30
53F:→ wargods8402: 表结果会是最好的,训练过程中会产出暂存档,可以取 04/28 00:30
54F:→ wargods8402: 出来做测试看看。 04/28 00:30
55F:→ fangggggg87: wargods你好 我目前有成功跑出来了>< 只是loss值还 05/10 17:54
56F:→ fangggggg87: 很高,mAP不大理想QQ 我想我目前就是多改参数都跑看 05/10 17:54
57F:→ fangggggg87: 看吧...... 谢谢你的回覆,希望可以快快看到理想数 05/10 17:54