Recurrent+Transformer | 视频恢复领域的‘德艺双馨’

(本文首发于"我爱计算机视觉",如需转载等事宜请联系我爱计算机视觉)
作者单位:苏黎世联邦理工、Meta、维尔茨堡大学
论文链接:https://arxiv.org/pdf/2206.02146.pdf
代码链接:https://github.com/JingyunLiang/RVRT
笔者言: Jingyun大佬继SwinIR,VRT之后的又一篇力作,在Transformer结构中套用了循环架构(笔者最近也在research这个点,奈何大佬太猛了)并从帧级对齐扩展到片段对齐。RVRT在VID4上超过了VRT,在REDS4上超过了Basicvsr++!
看点
现有的视频恢复方法主要有两种 :
- 并行恢复所有帧,它具有时间信息融合的优势,但是模型尺寸大,内存消耗大
- 循环逐帧恢复,它跨帧共享参数所以模型尺寸较小,但是缺乏长期建模能力和并行性
本文提出循环视频恢复transformer(RVRT)来结合这上述优点,它在全局循环框架内并行的处理局部相邻帧从而在模型大小和效率之间实现良好的权衡,主要的贡献如下:
- RVRT将视频分成多个片段,利用先前的片段特征来估计后续的片段特征。通过减小视频序列长度并且以更大的隐藏状态传递信息,缓解了循环网络中的信息丢失和噪声放大,还可以使模型部分并行化。
- 使用引导变形注意(GDA)从整个推断片段中预测多个相关位置,然后通过注意机制聚合它们的特征来进行片段间对齐。
- 在超分去噪去模糊的多基准数据集上实现了SOTA。
方法
Overview
框架如下图所示,模型由三部分组成:浅层特征提取,循环特征细化和帧重建。浅层特征提取使用卷积层和多个SwinIR中的RSTB块对低质视频LQ进行特征提取,然后使用循环特征细化模块进行时间建模,并使用引导变形注意进行视频对齐,最后馈入多个RSTB块生成最终特征并通过pixelShuffle进行HQ重建。

循环特征细化
本文堆叠了L个循环特征细化模块,通过利用不同帧之间的时间相关性来细化视频特征。给定第 i i i层视频特征 F i ∈ R T × H × W × C F^i\in \mathbb R^{T×H×W×C} Fi∈RT×H×W×C,首先将其分成 T / N T/N T/N个片段特征,每个片段特征包含N个相邻帧特征 F t , 1 i , . . , F t , N i ( 1 ≤ t ≤ T / N ) F^i_{t,1},..,F^i_{t, N}(1≤t≤T/N) Ft,1i,..,Ft,Ni(1≤t≤T/N)。对齐的片段特征被计算为: F ^ t − 1 i = G D A ( F t − 1 i ; O t − 1 → t i , F t − 1 i − 1 , F t i − 1 ) \widehat{F}_{t-1}^{i}=G D A\left(F_{t-1}^{i} ; O_{t-1 \rightarrow t}^{i}, F_{t-1}^{i-1}, F_{t}^{i-1}\right) F t−1i=GDA(Ft−1i;Ot−1→ti,Ft−1i−1,Fti−1)其中 O t − 1 → t i O^i_{t-1\rightarrow t} Ot−1→ti为光流,当前片段特征被计算为: F t i = R F R ( F t 0 , . . . , F t i − 1 , F ^ t − 1 i ) F^i_t = RFR(F^0_t,...,F^{i-1}_t,\widehat{F}_{t-1}^{i}) Fti=RFR(Ft0,...,Fti−1,F t−1i)其中 F t 0 F^0_t Ft0是浅层特征提取的输出,RFR(·)为循环特征细化模块,如右图,由一个用于特征融合的卷积层和用于特征细化的几个RSTB改进的MRSTB组成。MRSTB将原来的二维h × w注意窗口升级到三维 N × h × w,这使片段中的每一帧都能同时关注自身和其他帧来实现隐式特征聚合。此外,对视频序列进行反转以获得后向的信息。

引导变形注意
与之前的帧级对齐不同,GDA需要对齐相邻相关但未对齐的视频片段,如下图所示。令 F ^ t − 1 , n ′ i , ( n ) \widehat{F}_{t-1,n'}^{i,(n)} F t−1,n′i,(n)表示由第t-1个片段中的第 n ′ n' n′帧到第t片段中第n帧的帧对齐特征。受Basicvsr的启发,首先使用光流 O t − 1 → t , n ′ i , ( n ) O_{t-1\rightarrow t,n'}^{i,(n)} Ot−1→t,n′i,(n)获得预对齐特征 F ‾ t − 1 , n ′ i , ( n ) \overline{F}_{t-1,n'}^{i,(n)} Ft−1,n′i,(n),之后偏移(小写o)被计算为: o t − 1 → t i , ( 1 : N ) = CNN ( Concat ( F t i − 1 , F ˉ t − 1 i , ( 1 : N ) , O t − 1 → t i , ( 1 : N ) ) ) o_{t-1 \rightarrow t}^{i,(1: N)}=\operatorname{CNN}\left(\operatorname{Concat}\left(F_{t}^{i-1}, \bar{F}_{t-1}^{i,(1: N)}, O_{t-1 \rightarrow t}^{i,(1: N)}\right)\right) ot−1→ti,(1:N)=CNN(Concat(Fti−1,Fˉt−1i,(1:N),Ot−1→ti,(1:N)))其中采CNN由多个卷积层和ReLU组成,每帧的光流拥有M个偏移,光流随后被更新为:
O t − 1 → t , n ′ i + 1 , ( n ) = O t − 1 → t , n ′ i , ( n ) + 1 M ∑ m = 1 M { o t − 1 → t , n ′ i , ( n ) } m O_{t-1 \rightarrow t, n^{\prime}}^{i+1,(n)}=O_{t-1 \rightarrow t, n^{\prime}}^{i,(n)}+\frac{1}{M} \sum_{m=1}^{M}\left\{o_{t-1 \rightarrow t, n^{\prime}}^{i,(n)}\right\}_{m} Ot−1→t,n′i+1,(n)=Ot−1→t,n′i,(n)+M1m=1∑M{ot−1→t,n′i,(n)}m为了简单起见,本文将K、Q、V定义如下: Q = F t , n i − 1 P Q K = Sampling ( F t − 1 i − 1 P K , t − 1 → t i , ( n ) + o t − 1 → t i , ( n ) ) V = Sampling ( F t − i P V , O t − 1 → t i , ( n ) + o t − 1 → t i , ( n ) ) \begin{aligned}&Q=F_{t, n}^{i-1} P_{Q} \\&K=\operatorname{Sampling}\left(F_{t-1}^{i-1} P_{K}, _{t-1 \rightarrow t}^{i,(n)}+o_{t-1 \rightarrow t}^{i,(n)}\right) \\&V=\operatorname{Sampling}\left(F_{t-}^{i} P_{V}, O_{t-1 \rightarrow t}^{i,(n)}+o_{t-1 \rightarrow t}^{i,(n)}\right)\end{aligned} Q=Ft,ni−1PQK=Sampling(Ft−1i−1PK,t−1→ti,(n)+ot−1→ti,(n))V=Sampling(Ft−iPV,Ot−1→ti,(n)+ot−1→ti,(n))首先对特征进行投影,然后进行采样以减少冗余计算。然后对齐特征被一个注意机制计算: F ^ t − 1 i , ( n ) = SoftMax ( Q K T / C ) V \widehat{F}_{t-1}^{i,(n)}=\operatorname{SoftMax}\left(Q K^{T} / \sqrt{C}\right)V F t−1i,(n)=SoftMax(QKT/C)V其中 C \sqrt{C} C是采样因子。最后,由于上述操作仅在空间上聚合信息,为此本文添加了一个MLP(两个全连接的和和一个GELU)以残差的形式来对通道进行交互。此外,可以将通道分成多个可变形组,以并行操作。可变形组进一步可以划分为多个注意头,并对不同注意头分别进行注意操作。

值得注意的是,可变形卷积使用学习到的权值进行特征聚合,这可以看作是GDA的一种特例,即对不同的位置使用不同的投影矩阵,然后对得到的特征进行平均。其参数数和计算复杂度分别为 M C 2 MC^2 MC2和 O ( M C 2 ) O(MC^2) O(MC2)。相比之下,GDA对所有位置使用相同的投影矩阵,但生成动态权值来聚合它们。其参数数和计算复杂度为 ( 3 + 2 R ) C 2 (3 + 2R)C^2 (3+2R)C2和 O ( ( 3 C + 2 R C + M ) C ) O((3C + 2RC + M)C) O((3C+2RC+M)C),在选择合适的M和R时与可变形卷积相似。
实验
消融实验
不同视频对齐技术的消融研究

不同GDA组件的消融研究

定量评估
在BD Vid4 上达到了29.54dB,在BI REDS4 上达到了32.75dB

参数量,时间等均优于VRT,与CNN架构还是没得比

去模糊和去噪

定性评估
细节肉眼可见的提升

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
