【图像压缩】有损压缩实现无损预测

2023-10-24 13:05:26

updating...

1 绪论

一篇很好的结合对比学习与特征压缩的工作。

本文贡献：

1.公式化面向下游预测任务压缩的概念

2.描述了在增强不变性任务上高表现所需要的比特数。

3.提出无监督目标函数训练压缩器近似最优码率。

4.结合zero-shot方法CLIP，在ImageNet上，减少了1000x的码率。

2 率失真（RD）理论

$Rate(\delta) = \mathop{min}_{p(Z|X)} I[X;Z]\ such\ that\ D[X,Z]<\delta \quad (1)$

有损压缩中， $Z$ 通常是 $X$ 的重建。失真 $D$ 有效条件： $d:Z \times X \rightarrow \mathbb{R} \ge 0$ ，形式为 $D[X, Z] = E_{p(X, Z)}[d(X, Z)]$ 的失真， $\exists z \in Z$ ， $D[X, z]$ 有限。

3 高预测表现的最小码率

描述保证下游任务高表现 $X$ 表示的最小码率。

论点分三步：1）定义当从中间表示 $Z$ 预测下游任务时能够控制下游任务表现的失真项。2）当任务满足不变性条件的时候简化并验证失真项。3）应用RD理论。

3.1 最差预测表现的失真项

所有下游分类任务（是否小狗，是否手写...）：

$T = \{Y_{dog}, Y_{hd}...\}$

使用log损失的贝叶斯风险（ $inf_q$ 代表下确界-最小交叉熵， $X$ 代表原图像， $Y$ 代表某个下游分类任务）：

$R[Y|X]:= inf_qE_{p(X,Y)}[-log\ q(Y|X)]$

$Z$ 是中间表示，使用 $Z$ 而非 $X$ 预测也对应一个贝叶斯风险。定义最差情况过度风险（worst-case excess risk）（ $sup$ 代表上确界）：

$D_{T}[X,Z]:=\mathop{sup}_{Y\in T} \ R[Y|Z] - R[Y|X]\quad (2)$

如果 $D_{T}[X,Z]=0$ ，则可以实现无损预测：使用 $Z$ 和使用 $X$ 的结果相同。使用 $\delta$ 限定 $D_T$ 可以确保 $R[Y|Z] - R[Y|X] \le \delta$ ，

在（2）可以使用之前，有两个问题需要解决：1）不清楚对RD理论而言 $D_T$ 是否有效；2）最差过度风险 $D_T$ 假设在所有分类下游任务 $T$ 中取上界，不能枚举实现。

3.2 不变任务

定义1：一组关于等价关系 $(\chi , \sim)$ 的感兴趣不变任务集，记作 $T_{\sim}$ ，是所有满足 $\forall x,x^+ \in \chi, x\sim x^+ \Rightarrow p(Y|x) = p(Y|x^+)$ 的随机变量 $Y$ 。

即针对某个数据增强 $\sim$ 无反应（预测结果相同）的所有下游任务 $Y$ 构成 $T_{\sim}$ 。

3.3 不变任务预测的RD理论

关于 $\sim$ 的最大不变量 $M(\cdot)$ 是满足以下条件的任意函数：

$x\sim x^+ \Leftrightarrow M(x)=M(x^+) \quad for\ any\ x,x^+ \in \chi$

$M(X)$ 是若干等价类的集合，代表一个下游任务，该下游任务对数据增强 $\sim$ 具有不变性。图2是示例。

最大不变量去除了对任务而言不变的所有信息（比如a中去除了对任务结果无影响的角度信息），但保留了执行不变性任务所需要的最少信息（如a中的长度信息）。

Appx.B.2证明在弱条件下， $T_{\sim}$ 存在最大不变任务（则必有最差情况任务） $M(X)$ ，且 $M(X)$ 达到（2）的下确界， $D_{T_{\sim}}$ 简化为从 $Z$ 预测 $M(X)$ 的贝叶斯风险，该失真是一个有效失真。于是无需枚举不变任务就可以量化下游表现。

命题1：等价关系 $(\chi, \sim)$ ，最大不变量 $M$ （最多可数多个值），满足 $H[M(X)]< \infty$ ，则 $D_T$ 是一个有效失真项，且 $D_{T\sim}[X,Z] = R[M(X)| Z]$ 。

定理2：（Rate-Invariance）假设条件Prop.1成立，令 $\delta \ge 0$ ， $Rate(\delta)$ 代表对于任意 $Y\in T_{\sim}$ 都满足 $R[Y|Z]-R[Y|X] \le \delta$ 的传输 $Z$ 需要的最小可达码率。如果 $\delta \ge H[M(X)]$ 则 $Rate(\delta)=0$ ，否则：

为实现无损预测，需要码率 $H[M(X)]$ ，直觉上来看，这是因为 $M(X)$ 包含了无损预测任意 $Y\in T_{\sim}$ 所需要的最小信息。另外，由上式，在所有下游任务log损失表现上减 $\delta$ 可以节省正好 $\delta$ 个比特。在右侧，以不同方式分解 $H(M(X)) = I(M(X);X)$ 得到另一种解释：1） $H(X)$ 对于离散 $X$ 是无损压缩 $X$ 所需要的最少码率，2） $H[X|M(X)]$ 是因为期望任务的不变性所减少的信息。如图3。

4 不变的神经网络压缩器的无监督训练

目的是找到一个压缩器 $p(Z|X)$ 能够在不变失真项 $D_T_{\sim}$ 约束下最小化（1）中的RD函数，为了实现这一目的，可以优化以下拉格朗日方程式：

$\mathop{arg\ min}_{p(Z|X)} I(X;Z) + \beta \cdot R[M(X)|Z]$

为解决 $M(X)$ 不可用问题，可以把增强图像 $A(X)$ 作为新输入， $Z$ 是 $A(X)$ 的表示，未增强图像 $X$ 作为最大不变任务 $M(A(X))$ 。 $R[M(A(X))|Z]$ 与 $R[X|Z]$ 相等，于是可以重写目标函数：

$\mathop{arg\ min}_{p(Z|A(X))} I[A(X);Z] + \beta \cdot R[X|Z] \quad (7)$

接下来介绍（7）的两种可行的变分界限，可以使用随机梯度下降优化编码器参数。两种优化都使用了标准有损压缩界限 $I[Z;A(X)] \le H[Z] \le min_{\theta} E_{p(Z)}[-log q_{\theta}(Z)]$ ，区别在于如何找 $R[X|Z]$ 的上界，第一种使用重建损失，需要由增强图片 $A(x)$ 重建 $x\in D$ ；第二种使用判别损失，尝试辨识哪一个是输入的增强版本。

4.1 变分不变压缩器（Variational Invariant Compressor）

VIC包括编码器 $p_{\varphi}(Z|A(X))$ ，熵模型 $q_{\theta}(Z)$ 和解码器 $q_{\phi}(X|Z)$ ，给定数据样本 $x\in D$ ，应用数据增强 $A(x)$ ，压缩得到中间表示 $Z$ ，解码器尝试从中间表示 $Z$ 重建未增强版本 $x$ 。目标函数：

$L_{VIC}(\phi, \theta, \varphi) := -\sum_{x \in D} E_{p(A)p_{\varphi}(Z|A(x))}[log q_{\theta}(Z) + \beta \cdot log q_{\phi}(x|Z)]$

$log q_{\theta}(Z)$ 是熵瓶颈，作为 $I(A(X);Z)$ 的上界，确保移除不需要的信息。 $R[X|Z] \le E_{p(X,Z)}[ -log q_{\phi}(X|Z)]$ ，确保VIC保留不变性任务需要的信息（在代码中使用的mse loss?）。

4.2 瓶颈InfoNCE（BINCE）

第二种无需恢复图像，包括两部分：一个熵瓶颈，一个InfoNCE目标（对比自监督学习）。算法如下：

对每个数据点 $x\in D$ ，数据增强 $A(x)$ ，经过编码器 $p_{\varphi}(Z|A(X))$ 获得中间表示 $Z$ 。应用不同增强，送入编码器获得正样本 $Z^+$ 。在 $D\backslash \{x\}$ 中取样n次，应用数据增强 $A$ ，获得n个负样本。共同构成序列 $\textbf{Z} = (Z^+, Z_1^-, \cdots, Z_n^- )$ 。将以上取样过程简化为 $p_{\varphi}(Z, \textbf{Z}|A,D,x)$ ，引入判别器 $f_{\psi }$ ，目标函数为：

$L_{BINCE}(\varphi, \theta, \psi):=-\sum_{x\in D} E_{p(A)} p_{\varphi}(Z, \textbf{Z}|A, D, x)[logq_{\theta}(Z) + \beta \cdot log \frac{exp f_{\psi}(Z^+, Z)}{\sum_{Z^{'} \in \textbf{Z}} exp f_{\psi}(Z^{'}, Z)}]$

5 实验

关注两个问题:1）框架可以以什么代价达到什么压缩码率2）可以训练一个通用目的的预测编码器吗

5.1 合成简单实验提供视觉直觉

压缩样本来自2维香蕉分布，假设旋转不变性任务为判断一个点是否在单位圆中，比较VC与VIC，两者都使用MSE优化。

码率提升从何而来？对于旋转不变性任务，我们的方法通过学习磁盘形状的量化，丢弃了不必要的角度信息，VIC只保留角度信息，足以将所有随机旋转点映射到最大不变量（粉色点），相比之下，VC企图重构所有图像信息，需要更精细的量化分区。

5.2 对照实验评估

压缩STL10数据集，同时增强（翻转，颜色抖动，裁剪）训练与测试集，保证满足任务不变性的假设。

与标准压缩方法相比BINCE与VIC表现如何？将PNG无损压缩作为baseline，比较下游任务精度与压缩码率。

该从表示预测还是重建图像预测？对于VIC，从中间表示而非重建图像预测，提高了9%精确率。这表明不变性重建对于标准图像预测器不是很友好。

增强的分布重要吗？ 50%时间应用增强训练VIC，在测试的时候改变概率，结果相差不大。

5.3 使用预训练自监督模型的一个零次学习（zero-shot）压缩器

CLIP保留了与详细的字幕相关的图像信息，满足 $x_{image} \sim x_{text}^+$ ，通过一个对比损失，可以保证使用图片表示 $Z_{image}$ 预测文字表示 $Z_{text}^+$ ，反之亦然。这表示CLIP保留了与caption相关的图片的信息，并可能变成一个通用的图像分类压缩器。

结合BINCE方法，分两步构建新的BINCE压缩器，第一步，下载并固定CLIP参数，第二步，在小数据集MSCOCO上训练一个熵瓶颈压缩CLIP的表示。在8个（不同分类任务，不同图片大小）训练期间未曾谋面（zero-shot）的数据集上测试压缩器。训练策略如下：

可以使用预训练自监督学习获得一个通用压缩器吗？见图2，其中PCam是生物组织数据集。

CLIP压缩器保留了所有需要的信息，在这些任务上达到0误差。通过统计训练测试集中压缩表示 $Z$ 相同而分类标签不同的样本数以估计过度贝叶斯风险，我们发现在这些数据集上达到了无损预测。

熵瓶颈的作用是什么？比较预训练CLIP，与我们的CLIP压缩器（包含使用不同 $\beta$ 训练得到的熵瓶颈）。使用低 $\beta$ 训练熵瓶颈，在没影响预测的情况下平均提升6x码率， $\beta$ 提升11x损失不大，高 $\beta$ 提升16x码率影响开始明显。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > C#笔记（Hex转JPG）
下一篇 > 微波射频学习笔记16-------倒F板载PCB天线设计过程

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce