作者fsvy (...无言...)
看板DataScience
标题Re: [问题] 全卷积网路(FCN) 在YOLOV2上训练的问题
时间Thu Jul 4 20:00:02 2019
借着这篇,想向版友们请益:
我弄了一个星期的yolov2,试着教会machine辫识车牌。
然而,得到的weights档,跑出的结果,框了整个银幕(即:乱框)。
我遇到的问题,和这个描述非常相近:
http://keep.01ue.com/?pi=960547&_a=crawl&_c=index&_m=p
想请问懂这部份的版友们,是否能提供意见呢?
另外,是否有已经养好的辨识车牌的weights档、cfg档能提供,我想试试?(不妥会自删)
若是有不方便在版上提的事宜,欢迎站内信给我。
谢谢各位热心的版友。
※ 引述《ching0629 (Syameroke)》之铭言:
: 我觉得可能很多人并不懂卷积网路的基本概念,举例来说,原始yolo可以接受的input size应该是32的倍数,而不是13的倍数...
: 卷积网路在运算过程中经常会有pooling(或是现在比较喜欢用步辐为2的卷积器)做下采样,原则上yolo所提出的概念是使用任意结构的网路皆可以进行目标检测,而他厉害的地方是它订出了一个output结构让网路可以根据这个output来进行目标检测
: 在讲yolo2之前我们先讲yolo,原始yolo版本的输出是对最後一层的每个像素(也就是前面一直提到的13*13,但原始yolo的output是7*7)做一次预测,而预测内容包含:
: 1. 2个最有可能的物件框,参数包含
: (1) 0~1的机率描述是否存在非背景物体
: (2) 物件框的相对x座标(以该范围的百分比定义)
: (3) 物件框的相对y座标(以该范围的百分比定义)
: (4) 物件框的相对宽度 (以n倍的原始范围定义,如一个最终终像素在yolo中对应的是32*32个原始像素,所以这个数字为2代表对应到原来64的范围)
: (5) 物件框的相对长度
: 以上共有10个output。
: 2. 可能的类别数,描述这个框所框到的东西是甚麽,一样输出0~1之间的机率(一般後面这些output会经过softmax)
: 有了这个概念後,假定有一个32*32的输入图像,这样最终特徵图就是1*1,那yolo就是输出2个可能的方框供人参考,而假设原始输入图像是320*320,那就会输出200个可能的方框
: 而yolo2和yolo的差别在,yolo是使用像素作为预测,如果有一个物件他大小接近整张图,这样一个32*32的范围会预测的好也是满奇怪的,所以精准度不够,因此yolo2先使用一些clustering的方式先找出训练集的方框大概都在哪,然後制定出ROI,并进行ROI pooling再做预测。除此之外,作者在训练yolo2时,为了让他能适应各种大小的物件,因此每10代会将所有图片及相对应的label调整为一个任意32的倍数,用这种类似data augmentation训练网路。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.248.187.109 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1562241605.A.FF7.html
1F:→ hjk121: 框错有很大可能是训练样本问题;车牌辨识是大众题目,用英 07/04 23:27
2F:→ hjk121: 文关键字去找应该有 07/04 23:27
3F:→ fsvy: 但从jpg档框後转成xml档,接着再转成voc用的txt档,都是ji31 07/05 00:03
4F:→ fsvy: 我亲自完成的,图片上的车牌,都有框对。 07/05 00:12
5F:→ fsvy: 有可能是cfg档的设定问题。我在网路找遍了,都没找到weight 07/05 00:18
6F:推 jasonwu23: 可以把threshold调高试试看 可站内信给我 加我line聊 07/05 06:53
7F:→ jasonwu23: 我可以架个跟你一样的环境看看 07/05 06:53