Lossless CNN Channel Pruning via Gradient Resetting and Convolutional Re-parameterization

2023-10-15 07:06:27

论文地址：https://arxiv.org/abs/2007.03260
代码地址：https://github.com/DingXiaoH/ResRep.

因为CNN的表征能力取决于宽度，所以通道剪枝往往会降低性能。传统的通道剪枝通过对参数进行惩罚来提高剪枝的鲁棒性，这样会在剪枝之前就降低性能。作者受神经生物学关于记忆和遗忘的独立性启发，将CNN再参数化为记忆部分(目标函数)和遗忘部分(惩罚损失)，记忆部分学习保持性能，遗忘部分学习提高效率。对前者使用SGD训练再参数化模型，对后者使用带惩罚梯度的新的更新规则，实现了结构的稀疏性，将再参数化模型转换成更窄的原始结构。在ImageNet上将具有76.15%的top1精度的ResNet50无损地剪枝成43.9%的FLOPs，在CIFAR10上将93.71%的ResNet56无损地剪枝成47.09%的FLOPs。

对于基于训练的剪枝方法，可以从两方面进行评估：

Resistance。训练的目的是向模型中引入一些必需的属性，如结构的稀疏性，然后进行剪枝，但是这些性质可能会引起模型性能下降。对于能抵制这种退化，保持高精度的模型具有高抵抗力。
Prunability。经过训练的模型如果保持较高的剪枝率且性能下降较低，则具有高剪枝能力。
作者提出了ResRep方法可以实现这种完美剪枝。

ResRep

具体来说，就是用conv-BN-compactor将原始模型的conv-BN重新参数化，其中，压缩器(compactor)是 $\times 1$ 的卷积层。在训练过程中，只对compactor施加惩罚梯度，并让一些通道的梯度归零。经过训练可以得到更窄的compactor，在经过等效变换成原始结构，得到最终的剪枝后的模型。
ResRep和传统的基于惩罚的通道剪枝方法对比如下图。
在这里插入图片描述
对于卷积层，有：

其中，输入 $\in R^{N\times C\times H\times W}$ ，卷积核 $\in R^{D\times C\times K\times K}$ ，输出 $\in R^{N\times D\times H'\times W'}$ ，偏置 $\in R^{D}$ ，映射 $B(\cdot)$ 将偏置 $b$ 转换成 $N\times D\times H'\times W'$ 。
对于conv-BN层，均值 $\mu$ ，标准差 $\sigma$ ，放缩因子 $\gamma$ ，偏置 $\beta$ ，则有
在这里插入图片描述
剪枝后，剪枝通道 $P^{(i)} \subset \{1,2, ...,D\}$ ，幸存的通道 $\ P ( i ) S^{(i)}=\{1,2, ...,D\} \backslash P^{(i)}$ 。剪枝保留了conv(i)的 $S^{(i)}$ 个的输出通道及对应的conv(i+1)的输入通道。得到卷积核：

Convolutional Re-parameterization

记忆部分——卷积的再参数化，即利用 $\times 1$ 的compactor Q对conv-BN层再参数化。在开始训练时，令Q初始化为单位矩阵，conv-BN层初始化为base模型的权值，这样能够得到与base模型相同的输出；在梯度重置训练时，利用阈值 $\epsilon$ ( $\epsilon$ 取值为 $\times 10^{-5}$ )对compactor进行剪枝(剪掉L2范数小于 $\epsilon$ 的通道)，则剪枝通道 $P=\{j| ||Q_j< \epsilon||\}$ ，幸存通道 $S=\{j| ||Q_j \geq \epsilon||\}$ 。剪枝后的compactor为 $Q' = Q_{S,:}$ 。
经过剪枝的compactor的行数明显少于列数，即 $\in R^{D' \times D}, D'=|S|$ .。因此只需要找到能将conv-BN-compactor转化成卷积层的 $\in R^{D' \times C\times K\times K}$ 和 $\in R^{D'}$ 。
首先，构造一个新的conv层：在这里插入图片描述
易证得：

只需令：

展开：

令 $T(\cdot)$ 为一个转置函数，即将 $D\times C\times K\times K$ 转置成 $C\times D\times K\times K$ ，则有：

Gradient Resetting

整体目标函数为：
在这里插入图片描述
其中第一项为性能相关的目标函数，第二项为惩罚损失(如L1，L2，group Lasso)，选择group Lasso，则：

对于某个特定的通道 $F=K_j$ ，梯度为：

作者引入了一个mask $\in \{0,1\}$ 来选择是否对通道 $F$ 进行重置。即：
在这里插入图片描述
其中， $\lambda$ 取 $\times 10^{-4}$ 。

Experiments

在这里插入图片描述

在cifar10上复现实验结果：

以上结果是做了5次实验取平均。实验结果和论文结果比较接近，可以算是完美剪枝(降低不到0.01%)，并且剪枝率比论文的结果高了0.31%。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 如何做默认样式重置？ resetting 和 normalizing 之间有什么区别？
下一篇 > 关于git的reset、checkout、revert

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Lossless CNN Channel Pruning via Gradient Resetting and Convolutional Re-parameterization

ResRep

Convolutional Re-parameterization

Gradient Resetting

Experiments

相关文章