情感识别系统FV2ES论文梳理

"FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video Emotion Recognition Inference"论文梳理

  • 摘要
  • I 引言
    • 阐述研究背景并说明目前研究的局限性
    • 阐述本文所用方法及主要贡献
  • II 相关工作
  • III 提出的方法
    • A.The Hierarchical-Attention Spectrum Computing Module 分层注意力频谱计算模块
    • B.The RepVGG-Based Single-Branch Inference Module 基于RepVGG的单分支推理模块
    • C.The Fully Video-to-Emotion System 完全的视频-情感系统
  • IV 实验和分析
    • A.实验环境和数据集
    • B.实施细节
    • C.实验结果和分析
      • 1)识别表现
      • 2)V2EM的推理效率
      • 3)FV2ES的推理效率
  • V 结论和讨论

摘要

在最新的社交网络中,越来越多的人更喜欢通过文本、语音和丰富的面部表情来表达视频中的情绪。多模态视频情感分析技术可以帮助根据图像中的人类表达和手势、声音中的音调和识别自然语言自动理解用户的内部世界。

然而,在现有的研究中,与视觉和文本模态相比,声学模态长期以来一直处于边缘位置。也就是说,提高声学模态对整个多模态情感识别任务的贡献往往更加困难。此外,虽然通过引入常见的深度学习方法可以获得更好的性能,但这些训练模型的复杂结构总是导致推理效率低,尤其体现在处理高分辨率的视频和长视频时。此外,缺乏一个完全端到端多模态视频情感识别系统阻碍了它的应用。

在本文中,我们设计了一个全多模态视频到情感系统(a fully multimodal video-to-emotion system,称为 FV2ES),用于快速有效的识别推理,其好处有三个方面:
(1) 在声谱上采用分层注意方法突破声学模态的有限贡献,并在 IEMOCAP 和 CMU-MOSEI 数据集上优于现有的模型的性能;
(2) 提出多尺度进行视觉提取的想法,而单分支进行推理会带来更高的效率并保持预测精度;
(3) 将数据预处理进一步集成到对齐的多模态学习模型中,可以显着提高计算成本和存储空间。

源代码可在 https://github.com/MultimodalAfectiveComputing/FV2ES 获得。
关键词:多模态、情感、推理、完全端到端。

论文:https://arxiv.org/abs/2209.10170

I 引言

阐述研究背景并说明目前研究的局限性

(1)声学模态对情感识别的贡献度远低于视觉和文本模态,影响了视频情感识别性能的提高;
(2)日益增长的网络视音频质量给现有网络带去了更大的计算和存储挑战
(3)多模态视频情感识别的研究停留在学术层面,端到端框架的缺失限制了其发展。

阐述本文所用方法及主要贡献

  • Audio modality: hierarchical attention
    音频频谱分割+块内自注意力+块聚合处理—提取分层光谱特征以获得音频频谱内部关系特征
  • Visual modality: RepVGG-based single-branch inference module
    多分支特征学习—提取视频帧信息
    单分支推理结构—提高计算效率
  • Text modality: Albert
  • 参考文献[14]提出的basic transformer用于获取视听特征序列

[14] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J].Advances in neural information processing systems, 2017, 30.

  • 利用前馈网络(FFN)进行加权多模态融合
  • 将数据预处理集成到整体模型中

主要贡献:
(1)将ViT成功迁移到音频模态,提升音频信息在情感识别中的贡献,从而提高两个公共数据集的性能;
(2)多尺度视觉特征提取+单分支推理的思想,保证预测精度的同时提高多模态情感分析的效率;
(3)集成一个端到端的模型。

II 相关工作

表I 概括当前多模态情感识别的研究

  • “Modality” & “Effect”(模态 & 作用效果)
    所有研究都考虑了声学和视觉模态,少有研究考虑文本模态,且声学模态的贡献总是最低的:
    (1)声学模态的识别性能最差;
    (2)提高声学模态的识别性能更加困难。
  • “Visual processing”(视觉处理方法)
    均倾向于引入深度学习网络赖活得更深的视觉特征以获得更好的多模态情感预测效果,然而随之而来的是计算效率的低下,特别是在当前视频分辨率更高的时代。
  • “System implement”(系统实现)
    目前缺少端到端的系统来促进多模态情感识别的应用,虽然多有研究尝试进行模态融合,但仍存在三种模态之间融合关系无法对齐的问题。

III 提出的方法

图1 V2EM数据流向

A.The Hierarchical-Attention Spectrum Computing Module 分层注意力频谱计算模块

图2 分层注意力频谱计算模块的结构
受到[36]中采用分层处理对图像识别的启发,本文提出一个新的分层注意力频谱计算模块对音频进行分层处理,以获取更细粒度的频谱信息。图2展示的是本模块的结构,右侧展示各层谱图,左侧展示生成层次谱图的过程。

[36] Zhang Z, Zhang H, Zhao L, et al. Aggregating nested transformers[J].arXiv preprint arXiv:2105.12723, 2021.

输入为等高等宽的音频Mel图谱,进行16块等分后,对每一个小块使用Transformer Layer,得到第一层的输出。

  • 第一层Transformer Layer公式:
    O 1 = G E L U ( L N ( x + M S A ( x ) ) ) O_1 = GELU(LN(x + MSA(x))) O1=GELU(LN(x+MSA(x)))

将4个空间相邻的输出小块通过以下公式合并为第二个Transformer Layer的输入:
I 2 = M a x P o o l i n g ( L N ( C N N ( O 1 ) ) ) I_2=MaxPooling(LN(CNN(O_1))) I2=MaxPooling(LN(CNN(O1)))
采用第一层Transformer Layer的方式对4个小块处理后得到第二层的输出。
将4个输出小块合并后即为第三层Transformer Layer的输入,通过第三层Transformer Layer后得到最终的输出。

通过上述方法,可以充分利用声学数据的内部关系,弥补了以往工作中只提取全局和粗粒度声学信息的局限性。

B.The RepVGG-Based Single-Branch Inference Module 基于RepVGG的单分支推理模块

提出该模块试图解决常见深度学习模型结构复杂导致的推理效率低的问题,同时保证性能。
在这里插入图片描述
左侧可以看到,空间视觉特征的学习主要是通过多分支和多核卷积进行的,对于输入的图像帧,使用三个分支提取多维特征,包括3×3卷积分支、1×1卷积分支和Identify分支,中间的特征融合作为ReLU层的输入[40],得到每层的输出;
中间可以看到,以一个三通道输入为例,在训练模型的三个分支中,只保留3×3卷积分支,而将1×1卷积核通过零填充转换为3×3卷积,这里的每个卷积都包含一个BN层;
最右侧表示该模型使用了单分支推理结构。

该模型使用RepVGG多分支训练+单分支预测的方式希望达到降低模型复杂度从而提高运算效率的目的,希望在当前处理长高清视频的任务上有良好表现。

C.The Fully Video-to-Emotion System 完全的视频-情感系统

目前一些视频情感分析研究往往选择视频处理后先存储模态信息,而后调用模态信息进行推理分析,本文提出一个端到端的视频情感识别系统,希望能减少存储、生成和调用而产生的内存和效率的浪费。
本文提出的"fully video to emotion system" (FV2ES)直接连接预处理模态信息与V2EM的输入,以减少前置系统的浪费。
在这里插入图片描述
首先,从长视频的输入中得到完整的对话文本和音频Mel谱图,图像根据人物被分成一人帧,同时为减轻计算开销,长视频将被分割为几个短视频;
然后,以时间轴来对齐三种模态的数据,将同一时期的三种模态数据作为V2EM的输入并得到该时期的情感预测;
最后,将多个短视频的情感预测值作为输入的长视频的情感预测结果。

本文提出的FV2ES是基于Flask构建的,用户可以通过可视化界面使用该系统进行视频情感预测。

IV 实验和分析

A.实验环境和数据集

实验平台
九天人工智能平台,提供Tesla V100S-PCIE-32GB GPUPyTorch v1.8.0
数据集 (均包含视频+音频+文本三种模态的数据和6种标签)
数据集划分:70%训练集,20%验证集,10%测试集

  • IEMOCAP
    标签:anger,happiness, excitement, sadness, frustration, neutral
  • CMU-MOSEI
    标签:happiness, sadness, anger, fear, disgust, surprise
    包含250个话题,3837个视频,23453个句子,1000个叙述者,总时长达到65小时

B.实施细节

评估指标
IEMOCAP:Accuracy + F1
CMU-MOSEI:WACC + F1
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac {TP + TN} {TP + TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN
W A C C = T P × N / P + T N 2 N W_{ACC}=\frac {TP\times N/P + TN} {2N} WACC=2NTP×N/P+TN
对照模型
LF-LSTM:使用 LSTM 进行后期融合
LSTMLF-TRANS:使用 Transformer 进行后期融合
EmoEmbs[42]:使用多模态可转移模型
MulT[23]:跨模态 Transformer 的结构用于构建不同模态之间的关系
FE2E[5]:使用VGG16提取视觉声觉特征,使用Alert提取文本特征

[43] Kingma D P, Ba J. Adam: A method for stochastic optimization[J].arXiv preprint arXiv:1412.6980, 2014.
[23] Tsai Y H H, Bai S, Liang P P, et al. Multimodal transformer forunaligned multimodal language sequences[C]//Proceedings of theconference. Association for Computational Linguistics. Meeting.NIH Public Access, 2019, 2019: 6558.
[5] Dai W, Cahyawijaya S, Liu Z, et al. Multimodal end-to-end sparsemodel for emotion recognition[J]. arXiv preprint arXiv:2103.09666,2021.

其他参数
优化器:Adam
损失函数:二元交叉熵损失函数
学习率:4.5e-6
epoch:30
batch size:8

C.实验结果和分析

1)识别表现

对比实验
在这里插入图片描述
V2EM与现有的SOTA比较WACC和F1,表明V2EM模型在情感识别任务中有提升效果。
在这里插入图片描述
选择目前SOTA中最优的FE2E与V2EM比较,观察V2EM在30个epoch训练过程中的影响,结果表明V2EM的表现良好且更加稳定。

消融实验
在这里插入图片描述
文本模态均采用Albert模型提取特征,视觉和听觉特征采用VGG16作为对比;
使用本文提出的分层注意力频谱计算模块基于RepVGG的单分支推理模块分别处理音频和视频数据,与基本模型比较比较WACC和F1,结果证明所提出的使用分层注意频谱计算模块的V2EM可以解决现有多模态模型中音频模态的贡献相对较低的问题。
分析分层注意力频谱计算模块能提高识别性能的原因
在这里插入图片描述
原音频的Mel图谱重塑得到input,经过3层自注意力模块处理后可以得到最终融合声谱的内部特征信息,说明所提出的听觉模态模型可以提取更细粒度的局部高、低音频频谱特征,从而增强声学对整体多模态情绪识别性能的贡献。

2)V2EM的推理效率

表2表3中直接用V2EM和FE2E的运算速度作对比表明模型有计算效率上的提升;

消融实验
在这里插入图片描述
直接比较运算速度,证明单分支推理结构对效率提升的重要贡献
在这里插入图片描述

比较参数数量,证明模型计算复杂度和推理效率的优越性

3)FV2ES的推理效率

在V2EM的基础上,将数据预处理和多模态端到端学习模型相结合,实现了FV2ES,省去预处理数据的操作,减少了对不必要的数据空间的需求
在这里插入图片描述
举例对照测试的总时间,证明预处理系统化能提高计算效率。

V 结论和讨论

结论
(1)考虑分层音频频谱信息可以有效地改善情绪分类的结果,同时也可以促进声学模态相对于视觉和文本模态对整体多模态任务的贡献;
(2)基于RepVGG的视觉框架单分支推理模块中,“大而整体”的推理结构取代了“小而碎片”的推理结构,带来了更高的计算效率,同时减少存储空间;
(3)设计了一个完整的多模态视频到情感系统,其中集成了数据处理和多模态端到端学习模型,进一步提高了推理效率。
不足
在这里插入图片描述
(1)模型在“兴奋”这个情绪上有最好的表现,主要原因是兴奋更倡议语音和音调表达,因此所提出的音频处理方法有更好的性能。但对于其他表现区分并不明显的情绪上,模型性能并不是很好。
(2)本文使用的数据集中的视频场景相对纯粹,噪音干扰小,且在视频帧中存在易于识别的核心字符,这离真实场景的应用还相差较远。
展望
未来,可对V2EM进行优化,提高性能,并将FV2ES迁移到社交网络中的短视频数据中。将考虑复杂背景的视觉处理、噪声音频和随机文本处理,从而提高多模态视频情感分析在学术研究和工业应用之间的联系。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部