《Gaussian YOLOv3》论文笔记

参考代码:Gaussian_YOLOv3
关键代码解释:Gaussian YOLOv3:一个更强的YOLOv3,现已开源!

1. 概述

导读:这篇文章着力于解决自动驾驶检测任务最后结果中的假阳性检测结果问题,文章在YOLOv3网络的坐标回归上引入一组高斯参用于表示坐标的不确定性(目标置信度与分类置信度并不能很好表征检测框的置信度),并且根据这个需求重新设计网络损失函数,从而网络在假阳性检测结果上有所好转,即是这个重新设计的网络可以输出检测结果的定位不确定性,从而在检测的过程中使用这个属性就可以减少错误的检测结果,这个改进的网络在文章中被称为Gaussian YOLOv3。在性能表现上相比原始版本的YOLOv3在KITTI与berkeley deep dirve(BDD)数据集上分别提升了3.09和3.5的mAP,对于TP与FP性能也分别有所提升,同时保持了42FPS(输入分辨率为512*512)的检测速率。

在这篇文章中通过对坐标回归引入高斯回归量(高斯分布的均值与方差),代表的是坐标回归的不确定性,并且对损失函数进行了重新设计,这些回归量可以通过网络进行回归估计得到的,在后面的结果中使用这些估计出来的参数辅助提升检测的精度。

回顾YOLOv1版本的检测模型,它是在最后特征图划分的区域上寻找落在区域中的目标的中心,实现对应寻找并进行回归目标,这样使其处理简单,运算速度也够快。v2的版本在v1的基础上对于卷积层添加BN操作,引入anchor box,变尺度图像输入,更好的backboe网络上进行改进。而v3是主要引入了类似FPN的多尺度特征融合与检测模块,从而适应不同大小的目标,并且其backbone引入了残差连接的结构优化backbone,其结构见下图1所示:
在这里插入图片描述

2. 网络设计

2.1 在YOLOv3中引入定位不确定性预测

在YOLOv3模型中输出包含三部分的内容: ( t x , t y , t w , t h ) (t_x,t_y,t_w,t_h) (tx,ty,tw,th)它表示一个检测框结果,当前框是否为目标的置信度,当前框的分类置信度。但是对检测框的坐标确定性却没有显式的表达,这篇文章也是从这个角度进行优化从而排除一些错误的检测结果。对于一组数据 x x x其对应的高斯分布拟合为:
p ( y ∣ x ) = N ( y ; u ( x ) , ∑ ( x ) ) p(y|x)=N(y;u(x),\sum(x)) p(yx)=N(y;u(x),(x))
而对于每一个检测框的回归值使用高斯进行不确定性描述,则对于每个检测框的坐标使用特征图上去预估其分布的均值与方差,则改进之后的网络检测头输出可以描述为图2中所示的情况(替换了原有的检测框输出,换成高斯估计量):
在这里插入图片描述
因而按照上面的思路就会对边界框回归的4个变量进行不确定估计,也就是上面说到的高斯参数(表达检测框的4个分量均值与方差),即是: u ^ t x , ∑ ^ t x , u ^ t y , ∑ ^ t y , u ^ t w , ∑ ^ t w , u ^ t h , ∑ ^ t h \hat{u}_{tx},\hat{\sum}_{tx},\hat{u}_{ty},\hat{\sum}_{ty},\hat{u}_{tw},\hat{\sum}_{tw},\hat{u}_{th},\hat{\sum}_{th} u^tx,^tx,u^ty,^ty,


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部