Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记

Adversarial disentanglement spectrum variations and cross-modality attention networks for NIR-VIS face recognition
2021 IEEE
Weipeng Hu and Haifeng Hu

一、简介

本文提出了一种有效的用于可见-近红外匹配任务的对立解纠缠光谱变异和跨模态注意网络。将高级散射损失(ASL)、模态对立特征学习(MaFL)和跨模态注意块(CmAB)结合成一个统一的CNN网络,该网络可以将身份信息和频谱信息分成两个子空间,以增强域不变特征表示。

ASL损失捕获数据的类间和类内信息,并将它们嵌入到网络中以进行更有效的训练,并且它关注类间距离小的类别,并增加它们之间的距离。

该模型由IDFLN和MADN组成,可以增强身份鉴别特征表示,并通过对抗式学习来分离频谱变化。

CmAB模块依次将空间和通道注意力模块应用于IDFLN和MADN。在两个通道注意模块中引入了正交性约束,使得MADN和IDFLN能够分别专注于学习模态相关特征和身份相关特征。特别是,ADCANs由多个CmAB模块组成,用于学习辨别特性和解开频谱变化。

本文旨在解开光谱变化和学习近红外-可见光HFR任务的区别性表示。

二、模型结构

在这里插入图片描述
Modality-Adversarial Feature Learning(MaFL):

模态特征对抗学习。采用对抗策略来消除可见光图像和近红外图像之间的模态差异,提取不变表示。MaFL由IDFLN和MADN组成。

由端到端CNNs构建的IDFLN用于学习与身份相关的特征。

MADN由一个鉴别器和一个发生器组成,旨在解开跨模态图像的频谱变化。具体来说,MADN的发生器G可以分离频谱信息和身份信息,而鉴别器D用于学习模态相关的表示。

一方面,我们更新了鉴别器中的参数,同时固定了发生器G中的参数。MADN的ASL损失最大化了不同模态(可见和近红外)的类间距离,最小化了同一模态(可见或近红外)的类内距离,因此鉴别器可以通过最小化(4)来提取光谱相关特征。

另一方面,我们更新了发生器G中的参数,并固定了鉴别器D中的参数。MADN的ASL损失最大化了同一模态的类内距离,最小化了不同模态的类间距离,因此IDFLN可以通过最大化提取与频谱无关的特征。通过鉴别器上的“最小化过程”和发生器上的“最大化过程”,所设计的MADN能够有效地减小跨模态图像的间隙。
在这里插入图片描述

MADN:

生成器G包含Component1-3和2个AAS(I)。

对抗器D包含3个AAS(M),3个DRB,1个连接层和2个全连接层。

IDFLN:

包含Component1-4和3个AAS(I)和一个全连接层。

ADCANs:

包含MADN和IDFLN。先使用MS-Celeb-1M和softmax损失进行预训练,然后在进行微调。

三、Cross-Modality Attention Block(CmAB)

在这里插入图片描述

注意力模型可以引导网络选择重要特征,抑制噪声信息,提高网络的表示能力。

旨在提高网络的表征能力,并进一步期望他们分别关注与模态相关的特征和与身份相关的特征。

CmAB模块依次应用空间和通道注意力模块对IDFLN和MADN在通道注意上进行正交约束。

spatial attention module(空间注意力模块)

在这里插入图片描述

空间注意力模块旨在有效引导网络“聚焦何处”。我们聚集一个层的多个通道来产生一个空间注意力热图。

我们采用最大池化和平均池化来积累渠道信息。此外,卷积运算还用于自适应地调整感兴趣区域。

三个操作(包括最大池、卷积和平均池)并行进行。级联要素图层之后是卷积运算,以生成空间注意力图。最后,我们采用sigmoid函数将空间注意图转换到(0,1)的区间,并对强调或抑制的地方进行编码。

通道注意力模块

在这里插入图片描述

旨在指导网络“关注哪些功能”。整合空间信息,形成频道关注图。

最大池化和平均池化对聚集空间信息是有效的。我们将最大池化和平均池化引入通道注意力模块,以整合空间信息。为了自适应地聚集空间信息,我们进一步引入了卷积运算,然后是平均汇集和最大汇集,这两个汇集层的输出通过加法运算进行融合。然后,这三个聚集的特征映射被转发到共享的多层感知(MLP)网络,以生成信道注意力屏蔽。

具体来说,每个聚合特征映射将产生一个通道注意掩码,并且我们采用元素方式添加来合并三个通道注意掩码。最后,使用sigmoid函数将通道注意掩码转换为(0,1)的间隔。

N表示MLP网络,MLP网络是参数共享的,就只有一个。

结合:

在这里插入图片描述

× 表示逐元素相乘。Es表示沿通道轴扩展张量C倍的运算,Ec表示沿高轴扩展张量H倍并沿宽轴扩展张量W倍的运算。

在这里插入图片描述

四、损失函数

Advanced Scatter Loss(ASL):

在这里插入图片描述

基于SoftMax的损失函数包含一个额外的分类层,这将增加计算消耗和内存消耗,也可能出现过拟合问题。对比损失和三重损失会集中在困难样本上,容易受到噪声样本的影响。ASL侧重于困难个体,并根据个体中心计算类内和类间距离,使其对噪声样本具有鲁棒性。

ASL关注类间距离小的硬类别,增加它们之间的距离,可以更有效地增加类间距离,减少类内距离。

MADN损失:

在这里插入图片描述

IDFLN损失:

在这里插入图片描述

五、实验

CASIA NIR-VIS 2.0 DATASET:

在这里插入图片描述

OULU-CASIA NIR-VIS DATASET:

在这里插入图片描述

BUAA NIR-VIS DATASET

在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部