【论文阅读笔记】Fast-RCNN

1.Fast-RCNN

Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

 

因为使用3*3的卷积核在feature map 上以s步长进行滑动等于在输入图像上进行比s大很多的滑动,在论文中s=1,而约等于在输入图像上做步长为10的滑动。

Anchors: 其大小与形状与spatial window (卷积)的大小(n=3)无关

在本文中anchors 的大小和纵横比如下

Loss 函数:

这可以被认为是对anchor box 与附近的ground truth bounding box 的offset进行回归。

为什么用log?   个人猜测:因为h一般往往比ha小,如果h很小,log(h/ha)将会很快逼近负无穷,与ha的差距越大,变化率越大,我们使用全连接层预测目标的活动空间就越大,即使偏差一点,经过exp函数之后,变化也变得很小,如果不使用log,则输出的变化将会全部反映到边长上,最终输出结果对网络的权重更加敏感,使用log可使当网络输出出现同样量级的偏差时,最终反映到计算的边长上的影响变小,使网络能够更加精准的预测边长。

根据cls scores 做非极大值抑制后使用top-N ranked proposal region 进行预测类别。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部