Octave Convolution 八度卷积

Facebook在2019年时推出了一种新的卷积方法,叫做Octave Convolution,中文名是八度卷积。这个名字借鉴了音乐中高音低音的命名方法,来表示图像中高低频的数据。

图像和特征图的高低频表示

对于一张图片来说,低频的数据是比较平滑的部分,也就是图像的整体结构,高频的数据是那些细节的纹理,也就是边缘像素变化比较大的部分。如图1(a)所示。

图1. 图像和特征图的高低频表示
在这里插入图片描述

图1(a)中左图是一张企鹅的原始图片,中间是图片分离出来的低频的部分,也就是整体轮廓图,右图是图像的高频部分,也就是图片的边缘图(有点像素描)。

图1(b)是普通卷积特征图,通常情况下可以分成高频和低频两个部分。由于低频部分的特征基本上比较平滑,所以在特征图上其实不需要和高频一样的维度去表达图像的信息,如图1(c)所示,论文在低频的特征图上将宽高维度降了一半。

图1(d)表示高低频的特征信息的更新和交换,高低频的特征既有各自频率内的卷积操作,也有低频向高频和高频向低频的特征交换和融合,具体怎么操作下面会介绍。

八度卷积的操作

图2. 八度卷积的操作方式
在这里插入图片描述

八度卷积的具体操作方式如图2(a)所示。其中 α i n \alpha_{in} αin α o u t \alpha_{out} αout是输入和输出特征图的低频维度在总维度中的占比,在论文中一般假设 α i n = α o u t \alpha_{in}=\alpha_{out} αin=αout。图2(b)中间绿色的线表示高低频在各自频域内的卷积,卷积核分别是 W H → H W^{H\rightarrow H} WHH W L → L W^{L\rightarrow L} WLL,卷积后的输出特征为 Y H → H Y^{H\rightarrow H} YHH Y L → L Y^{L\rightarrow L} YLL;中间红色的线表示高低频特征向不同频域转换的卷积,箭头朝右下的是高频特征经过池化和卷积后变成低频特征 Y H → L Y^{H\rightarrow L} YHL,卷积核为 W H → L W^{H\rightarrow L} WHL,箭头朝右上的是低频特征经过卷积和上采样后变成高频特征 Y L → H Y^{L\rightarrow H} YLH,卷积核为 W L → H W^{L\rightarrow H} WLH。最后 Y H → H Y^{H\rightarrow H} YHH Y L → H Y^{L\rightarrow H} YLH相加成为八度卷积后的高频特征特征, Y L → L Y^{L\rightarrow L} YLL W H → L W^{H\rightarrow L} WHL相加成为八度卷积后的低频输出特征。

图2(b)是八度卷积的卷积核大小,按八度卷积的路径分成 W H → H W^{H\rightarrow H} WHH W L → L W^{L\rightarrow L} WLL W H → L W^{H\rightarrow L} WHL W L → H W^{L\rightarrow H} WLH

综上,八度卷积的高频和低频的特征图计算公式分别为:

Y H = f ( X H ; W H → H ) + u p s a m p l e ( f ( X L ; W L → H , 2 ) Y^H=f(X^H;W^{H\rightarrow H})+upsample(f(X^L;W^{L\rightarrow H}, 2) YH=f(XH;WHH)+upsample(f(XL;WLH,2)

Y L = f ( X L ; W L → L ) + f ( p o o l ( X H , 2 ) ; W H → L ) ) Y^L=f(X^L;W^{L\rightarrow L})+f(pool(X^H,2);W^{H\rightarrow L})) YL=f(XL;WLL)+f(pool(XH,2);WHL))

其中, X H X^H XH X L X^L XL表示的是输入特征图的高频和低频部分, f ( ⋅ ) f(\cdot) f()表示卷积操作函数。

作者还提到,不仅在普通的卷积中可以改造成八度卷积的方法,对于分组和可分离卷积同样也是适用的。而且八度卷积是一个可插拔的整体操作,基本上只需要在特定位置上改成相应的八度卷积即可,卷积参数基本上保持不变,只是增加了一个低频占比的参数,以及在输入输出的特征图上分成了高频和低频部分。

论文分析了低频维度占比 α \alpha α值对于计算量FLOPs和显存占用的影响,如表1所示。

表1.低频占比对于计算量和显存的影响
在这里插入图片描述

从表中可以看出,随着占比率的增加,FLOPs和显存占用逐渐减小,这是由于低频特征是在更小的宽高上进行卷积的操作。

实验结果

作者首先分析了不同低频ratio对于ResNet/ResNeXt系列网络的准确率/FLOPs的影响,所有的实验都是在同样的训练参数和硬件条件下进行的,实验结果如图3所示。

图3.不同低频ratio对于ResNet/ResNeXt精度和性能的影响
在这里插入图片描述

从图3中可以看出,ResNet系列网络采用八度卷积改造后,ImageNet准确率和计算量均优于原网络,随着低频占比ratio的增加,准确率逐渐降低,计算量也逐步减少。

论文同样在小模型和中模型的等级上与其他网络做了实验对比,得到表2和表3的实验结果,从这两个表中,同样也能看出来,八度卷积改造后的网络在准确率和计算量上都比改造前的网络更好。

表2. 小模型的八度卷积实验结果对比
在这里插入图片描述

表3.中模型的八度卷积实验结果对比
在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部