Octave Convolution 八度卷积

2023-08-03 00:32:58

Facebook在2019年时推出了一种新的卷积方法，叫做Octave Convolution，中文名是八度卷积。这个名字借鉴了音乐中高音低音的命名方法，来表示图像中高低频的数据。

图像和特征图的高低频表示

对于一张图片来说，低频的数据是比较平滑的部分，也就是图像的整体结构，高频的数据是那些细节的纹理，也就是边缘像素变化比较大的部分。如图1(a)所示。

图1. 图像和特征图的高低频表示
在这里插入图片描述

图1(a)中左图是一张企鹅的原始图片，中间是图片分离出来的低频的部分，也就是整体轮廓图，右图是图像的高频部分，也就是图片的边缘图（有点像素描）。

图1(b)是普通卷积特征图，通常情况下可以分成高频和低频两个部分。由于低频部分的特征基本上比较平滑，所以在特征图上其实不需要和高频一样的维度去表达图像的信息，如图1（c）所示，论文在低频的特征图上将宽高维度降了一半。

图1(d)表示高低频的特征信息的更新和交换，高低频的特征既有各自频率内的卷积操作，也有低频向高频和高频向低频的特征交换和融合，具体怎么操作下面会介绍。

八度卷积的操作

图2. 八度卷积的操作方式
在这里插入图片描述

八度卷积的具体操作方式如图2(a)所示。其中 $\alpha_{in}$ 和 $\alpha_{out}$ 是输入和输出特征图的低频维度在总维度中的占比，在论文中一般假设 $\alpha_{in}=\alpha_{out}$ 。图2(b)中间绿色的线表示高低频在各自频域内的卷积，卷积核分别是 $W^{H\rightarrow H}$ 和 $W^{L\rightarrow L}$ ，卷积后的输出特征为 $Y^{H\rightarrow H}$ 和 $Y^{L\rightarrow L}$ ；中间红色的线表示高低频特征向不同频域转换的卷积，箭头朝右下的是高频特征经过池化和卷积后变成低频特征 $Y^{H\rightarrow L}$ ，卷积核为 $W^{H\rightarrow L}$ ，箭头朝右上的是低频特征经过卷积和上采样后变成高频特征 $Y^{L\rightarrow H}$ ，卷积核为 $W^{L\rightarrow H}$ 。最后 $Y^{H\rightarrow H}$ 和 $Y^{L\rightarrow H}$ 相加成为八度卷积后的高频特征特征， $Y^{L\rightarrow L}$ 和 $W^{H\rightarrow L}$ 相加成为八度卷积后的低频输出特征。

图2(b)是八度卷积的卷积核大小，按八度卷积的路径分成 $W^{H\rightarrow H}$ 、 $W^{L\rightarrow L}$ 、 $W^{H\rightarrow L}$ 和 $W^{L\rightarrow H}$ 。

综上，八度卷积的高频和低频的特征图计算公式分别为：

$Y^H=f(X^H;W^{H\rightarrow H})+upsample(f(X^L;W^{L\rightarrow H}, 2)$

$Y^L=f(X^L;W^{L\rightarrow L})+f(pool(X^H,2);W^{H\rightarrow L}))$

其中， $X^H$ 和 $X^L$ 表示的是输入特征图的高频和低频部分， $f(\cdot)$ 表示卷积操作函数。

作者还提到，不仅在普通的卷积中可以改造成八度卷积的方法，对于分组和可分离卷积同样也是适用的。而且八度卷积是一个可插拔的整体操作，基本上只需要在特定位置上改成相应的八度卷积即可，卷积参数基本上保持不变，只是增加了一个低频占比的参数，以及在输入输出的特征图上分成了高频和低频部分。

论文分析了低频维度占比 $\alpha$ 值对于计算量FLOPs和显存占用的影响，如表1所示。

表1.低频占比对于计算量和显存的影响
在这里插入图片描述

从表中可以看出，随着占比率的增加，FLOPs和显存占用逐渐减小，这是由于低频特征是在更小的宽高上进行卷积的操作。

实验结果

作者首先分析了不同低频ratio对于ResNet/ResNeXt系列网络的准确率/FLOPs的影响，所有的实验都是在同样的训练参数和硬件条件下进行的，实验结果如图3所示。

图3.不同低频ratio对于ResNet/ResNeXt精度和性能的影响
在这里插入图片描述

从图3中可以看出，ResNet系列网络采用八度卷积改造后，ImageNet准确率和计算量均优于原网络，随着低频占比ratio的增加，准确率逐渐降低，计算量也逐步减少。

论文同样在小模型和中模型的等级上与其他网络做了实验对比，得到表2和表3的实验结果，从这两个表中，同样也能看出来，八度卷积改造后的网络在准确率和计算量上都比改造前的网络更好。

表2. 小模型的八度卷积实验结果对比
在这里插入图片描述

表3.中模型的八度卷积实验结果对比
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > GIT团队实战
下一篇 > 给自己做个地图故事 —— Trip to Greece

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Octave Convolution 八度卷积

图像和特征图的高低频表示

八度卷积的操作

实验结果

相关文章