论文翻译-Decoupled Attention Network for Text Recognition

论文翻译-Decoupled Attention Network for Text Recognition

  • 原文地址:https://arxiv.org/pdf/1912.10205.pdf
  • 翻译参考:https://blog.csdn.net/vivigreeeen/article/details/115338853
  • 【推荐】相关阅读资料下载:
    链接:https://pan.baidu.com/s/18DmMxN0B0C441UWnjIAsLw
    提取码:m4vm
  • 【注】:翻译仅供参考,准确含义和表达参考英文原文

Decoupled Attention Network for Text Recognition

摘要

由于应用的多样性,文本识别吸引了很多研究者。边缘已经被剪裁好的文本识别方法主要是基于注意力机制的。然而,由于循环对齐操作依赖于历史解码结果,大多应用注意力的方法往往会面临严重的对齐问题。为了改善这个问题,我们提出了一种去耦注意力网络(DAN),对历史解码结果和对齐操作之间进行解耦合。DAN是一个有效的、灵活的、鲁棒的端对端文本识别器,它包括了三部分:1)一个特征编码器(FE),它从输入图像中提取了可视化特征;2)一个卷积校准模块(CAM),它对从解码器中得到的可视化特征对齐操作;3)一个去耦文本解码器(DTD),它可以使用特征图和注意力图相结合的方式产生最终的预测结果。实验结果显示,DAN在多文本识别任务中达到了SOTA的表现,包括线下手写文本识别和规则或不规则的场景文本识别。代码将开源
(https://github.com/Wang-Tianwei/Decoupled-attention-network)。

介绍

文本识别近年来吸引了很多研究者的兴趣。得益于深度学习和Seq2Seq的发展,很多文本识别方法都取得了可观的成功。CTC和注意力机制是两个最流行的方法,其中,注意力机制有更好的表现,并且,近年来也有越来越多人研究注意力机制。
注意力机制最初在2015年被提出,目的是解决机器翻译问题,在2016年已经被用于处理场景文本识别,自那之后,它不断发展(2017-2019),并占据了文本识别的半壁江山。文本识别中的注意力机制可以用来对齐并识别字符,在以往的研究中,对齐操作总是和解码操作息息相关。如图1所示,传统的注意力机制用两类信息来实现对齐操作。第一类是一个特征图,它可以看作从编码器获得的可视信息,第二类是历史解码信息。主要是想表明注意力机制是匹配的。从特征图中给出一个特征,它的注意力得分会由它和历史解码信息的匹配程度来计算。
在这里插入图片描述

图 1:(a) 传统的注意力文本识别器,其中使用视觉信息和历史解码信息(红色箭头)进行对齐操作。 (b) 解耦注意力网络,其中对齐操作仅使用视觉信息进行。

在这里插入图片描述

图 2:传统注意力机制(Bahdanau、Cho 和 Bengio 2015;Shi 等人 2016)在长文本上的分数对齐的可视化。

传统的注意力机制往往会遇到一系列的对齐问题,这是因为耦合关系不可避免的会导致错误的累积和传播。如图2所示,基于匹配的对齐很容易受解码结果的影响。在左图中,两个连续的“ly”会让匹配操作遇到困难;在右图中,错误的识别结果“ing”让匹配操作遇到困难。Kim等人还观察到,注意力机制难以对齐长序列。因此,这启发了我们寻找一种从历史解码信息中解耦对齐操作的方法来减少消极影响。
为了解决前述的无法对齐的问题,在这篇文章中,我们把传统注意力机制的解码器分离成了一个对齐模块和一个去耦文本解码器,并且,我们提出了一个叫做去耦注意力网络(DAN)的新方法。如图1(b)所示,和传统的注意力场景文本识别器相比,DAN不需要从解码阶段得到反馈用作对齐,因此避免了解码错误的积累和传播。DAN包括三个要素:特征编码器、卷积对齐模块(CAM)、去耦文本解码器。特征解码器是对从输入图片中通过卷积神经网络(CNN)提取到的可视化特征进行编码。CAM取代了传统基于分数的反复对齐模块,把特征编码器编码后的多尺度可视化特征作为输入,然后用channel-wise的方式在一个全卷积网络(FCN)上生成注意力图。去耦文本解码让最终的预测结果以门控循环单元(GRU)的方式利用特征图和注意力图。
总的来说,我们的贡献可以总结如下:

  • 我们提出了一个CAM模块来代替传统注意力解码器中的往复对齐模块。CAM从可视化的角度组织了对齐操作,避免了使用历史解码信息,从而消除了由解码错误带来的错误对齐。
  • 我们提出了DAN,这是一个有效的、灵活的(很容易去切换来适应不同情景)、鲁棒的(对文本长度多变和细微扰动具有很好的鲁棒性)
  • DAN给出了一个在很多文本识别任务中都适用的SOTA方法,包括手写文本识别和规则或非规则的场景文本识别中。

相关工作

文本识别吸引了很多计算机视觉领域的研究者的兴趣。早年场景文本识别的工作依赖于低层特征,比如面向梯度描述符的直方图特征、连接成分等等。随着深度学习的飞速发展,研究者们提出了大量有效方法。这些方法可以主要分为两类。
一类是基于分割的,它首先检测到字符,然后把字符连接成一个整体输出。Bissacco提出了有五个隐藏层的字符识别和一个基于n-gram方法的语言模型。Wang利用CNN识别字符,并且使用非最大抑制得到最终的预测结果。Jaderberg等人提出了一种用于无约束文本的共享权重的CNN。所有这些方法都需要对字符进行精确的独立检测,这是非常有挑战性的。
另一类是无分割的,它把文本行识别成一个整体,专注于把整个图像直接映射成一个词汇串。Jaderberg把场景文本识别当作一个有9万个类别的分类任务。Shi把场景文本识别模型化成一个结合了深度卷积神经网络和循环神经网络优点的序列问题,用CTC来训练端到端的模型。Lee和Shi提出注意力机制来自动对齐并翻译词汇。从那时起,在文本识别中,出现了越来越多的基于注意力的方法。Cheng发现注意力漂移问题并提出了一个聚焦网络来吸引漂移的注意力,但是需要字符级标注。Bai提出一种后处理方法,对编辑概率重新估计对齐;但他们从没有根本上解决误对齐的问题。对于不规则文本的识别,Shi等人提出修正扭曲的文本并用基于注意力的识别器识别修正后的文本;Liu等人提出在字符级别修正文本;Yang等人提出在二维视角下识别文本,但这需要字符级标注;Cheng等人提出可以从四个方向捕获字符特征。Fang等人提出一个注意力和语言的集成网络,从注意力和语言中累积多重损失用类训练。Li等人提出了一个简单有效的2D注意力机制的模型。
尽管这些基于注意力方法都取得了显著的成功,但它们都认为注意力是历史解码信息和视觉信息的耦和操作,迄今为止没有研究把注意力机制应用于我们所熟知的长文本识别中。
在这里插入图片描述

图 3:DAN 的整体架构,以及特征编码器和 CAM 的详细架构。 输入图像的归一化高度为 H,缩放后的宽度为 W,C1 和 C2 是特征图的通道数。

DAN

DAN旨在通过将对齐操作和历史解码结果解耦来解决传统注意力机制无法对齐的问题。为此,我们提出了一个全新的带有去耦文本解码器的卷积对齐模块(CAM)来代替传统的解码器。DAN的总体架构如图3所示。下面将会详述细节。

特征编码器

我们采用了一个与之前研究(Shi)类似的基于CNN特征的编码器。特征编码器F把一个大小为H*W的输入图片x编码成了特征图F:
在这里插入图片描述

C:输出通道数,rh:高度的下采样率指数,rw:宽度的下采样率指数。

卷积对齐模块(CAM)

如图3所示,我们提出的CAM的输入是从特征编码器获取的每个尺度的可视化特征。这些多尺度特征最初被级联的下采样卷积层编码,而后整合到输入中。受FCN在通道中进行密集的逐像素预测的启发,我们使用一个简单的FCN架构来组织注意力操作,这的确与当下的注意力机制大不相同。CAM有L层;在反卷积阶段,每个输出特征都加入了从卷积阶段获取的相应的特征图。最后采用带有通道正则化的sigmoid函数来生成注意力图A={α_1,α_2,…,α_maxT},这里maxT表示最大通道数,例如,解码步骤的最大值;每个注意力图的大小是H/rh * W/rw。
和用语义分割的FCN相比,CAM在序列问题建模中扮演了一个完全不同的角色。尽管maxT是预先定义好的,且需要通过训练和测试来修正,但我们将通过实验证明,只要maxT的设置是合理的,它不会影响最终的性能。
通过控制下采样率rh和改变CAM的步长,DAN可以在1D和2D形式间灵活切换。当H/rh=1时,DAN成为一个1D识别器,适用于长且规则的文本;当H/rh>1时(例如,对于高为32的输入图片,rh=4会得到一个高为4的特征图),DAN成为一个2D识别器,适用于不规则文本。此前,Yang等人的需要字符级标注进行监督学习;Li等人使用了一个特定的2D注意力专注于阐述2D空间关系,这致使它比1D形式复杂很多,并且在规则文本识别中表现很差,和这些2D场景文本识别相比,DAN是一个重要的、简单、灵活的识别器,在1D(手写文本)和2D(不规则场景文本)识别中,均可以有SOTA或者不输于它们的表现。

去耦文本解码器

在这里插入图片描述

图 4:解耦文本解码器的详细架构。 它由一个用于探索上下文信息的 GRU 层和一个用于进行预测的线性层组成。 ‘EOS’表示序列结束符号。

与传统的可以同时进行对齐和识别的注意力解码不同,我们的去耦文本解码器需要编码特征和注意力图作为输入,并且只进行识别。如图4所示,去耦文本解码器计算上下文向量ct:
在这里插入图片描述

在时间t步时,分类器产生输出yt:
在这里插入图片描述

ht是GRU的隐藏状态,计算方法如下:
在这里插入图片描述

et是一个之前解码结果yt的嵌入向量。DAN的损失函数如下:
在这里插入图片描述

θ代表DAN中所有可以训练的参数,gt代表第t步的groundtruth。就像其他注意力文本识别器一样,DAN使用词语级标注用于训练。

表 1:特征编码器的详细配置。 “Num”和“hw”分别表示块数和手写文本识别实验。
在这里插入图片描述

表现评估

在我们的实验中,手写文本识别和场景文本识别两个任务都用来评估DAN的有效性。特征编码器的详细网络配置如表1所示。

线下手写文本识别

线下手写文本识别由于其句子长(多达90个字符),书写风格迥异,以及字符相接等特点,是一个非常复杂且具有挑战性的问题。因此,它是评价DAN的鲁棒性和有效性的一个很好的测试。
为了进行详细的比较,我们还对两种常用的注意力解码器(Bahdanau、Luong)进行实验。这些注意力解码器都在文本识别中有广泛的应用。在与这些解码器进行比较时,为了公平起见,由它们代替了CAM和去耦文本解码器。
数据集 用两个公共手写数据集(IAM、RIMES)去评估DAN的有效性。IAM数据集基于从LOB语料库中拷贝的手写英文文本。训练集中包含747个文件(6482行),验证集中包含116个文件(976行),测试集中包含336个文件(2915行)。RIMES数据集包含法语手写字母。训练集中有1500个段落(11333行),测试集中有100个段落(778行)。
实现细节 我们用开源数据增强工具增强原始的整行的数据集,把它们作为训练集来训练网络。输入图片的高度被归一化为192,宽度由原始长宽比(最大到2048)来计算。为了把特征图下采样到1D,我们在特征编码器的末端加入了卷积核大小为3*1的卷积层。为了覆盖最长的行,把maxT设置成了150。性能度量标准是字符或单词错误率(CER%/WER%),对应于以groundtruth字符(或单词)数量归一化后的识别结果和groundtruth中的编辑距离。在RIMES数据集上测试时,我们使用六种预定义的策略对图像进行剪裁(例如,{10,10}代表剪掉前十行和最后十行),然后对剪裁后的图像和原图分别进行识别。通过平均输出概率计算识别得分,并选择最高分作为最终结果。除了最后一层外,CAM的所有层都被设置为128个通道,以覆盖最长文本长度。实验中没有用到语言模型或词典。

表 2:手写文本数据集的性能比较。
在这里插入图片描述

实验结果 如表2所示,DAN在两个数据集中都表现出了优越的性能。在IAM数据集上,DAN比过去的SOTA方法在CER上领先1.5%。需要注意的是,虽然Bhunia等人在WER中给出了更好的性能,但他们的方法需要剪裁单词图片作为输入,而我们的方法可以直接识别文本行。在RIMES上,它比之前的SOTA方法在CER上差0.2%,但在WER上,错误率减少了3.7%(相对误差减少29%)。这种在WER上的大幅度提升表明,DAN有更强的学习语义信息的能力,有利于长文本识别。
在这里插入图片描述

图 5:IAM 数据集上不同深度 L 的性能比较。

表 3:不同输出长度的性能比较。 “时间/迭代器”表示 TITAN X GPU 上每次迭代的前向时间。
在这里插入图片描述

表 4:不同解码器的性能比较。 FE 表示 DAN 的特征编码器。 “Bah”和“Luong”分别表示 Bahdanau 的注意力和 Luong 的注意力。
在这里插入图片描述

消融实验 本段我们将会评估不同深度L和CAM中不同输出长度maxT的影响。
**输出长度:**如表3所示,不同的输出长度并不影响性能,增加通道数所消耗的计算资源几乎可以忽略,这意味着只要输出长度设置的合理(比文本长度长),DAN都可以很好的工作。
**深度:**如图5所示,当我们降低L时,DAN的性能会严重下降,这表明CAM为了有更好的性能需要达到足够的深度。为了成功对齐一个字符,CAM的接受域必须足够大,确保能够覆盖相应字符和其相邻区域的特征。
对消除误对齐的思考 如表4所示,与这两种在文本识别领域广泛应用的注意力解码器相比,DAN明显性能更好。
为了更细粒度的研究DAN为对齐带来的性能提升,我们定量的讨论DAN得到的提升和对应消除对齐错误之间的关系。我们提出了一种简单的偏差测量方法,该方法基于所有文本都从左往右写的先验知识。这个方法包括两个步骤:1)选择注意力的份最高的区域作为注意中心;2)如果当前注意中心在前一个的左边,那么记录一个错位。我们把测试样本根据文本长度分成五组: [0, 30), [30, 40), [40, 50), [50, 60), [60, 70); 每组包括超过100个样本。把每组的误差累积,求平均值,以产生每幅图像的平均误差(MM/img)。
在这里插入图片描述

图 6:DAN 在不同文本长度和相应错位上的 CER 改进。 “Bah”和“Luong”分别表示 Bahdanau 的注意力和 Luong 的注意力。

实验结果如图6所示;改进CER带来的变化和消除误对齐几乎是相同的变化趋势,验证了DAN相对于传统注意力的性能提高来自于误差的消除。如图7所示,我们展示了一些DAN消除误对齐的可视化结果。
误差分析 图8显示了一些典型的DAN的错误样本。在图8(a)中,由于书写具有迷惑性,字符’e’被误识别成’p’。在没有上下文信息的情况下,被误分类的’p’对于人类来说同样是一个很大的挑战。在图8(b)中,由于两个相邻单词离得太近,识别器漏识别了一个空格符。在图8(c)中,DAN将一些噪声纹理识别成了单词。然而,DAN在这些样本上仍然比传统注意力更鲁棒。在图8(c)中,混乱的噪声会对传统注意力的对齐操作造成干扰,从而导致不可预料的错误,然而DAN即使产生了额外的结果,它在对齐方面也是鲁棒的。考虑到噪音和普通文本的纹理几乎相同,这类错误很难避免,尤其是对于这种仅仅基于视觉特征进行对齐的DAN来讲。
在这里插入图片描述

图 7:IAM 数据集上注意力图和识别结果的可视化。 顶部:原始分数图像和相应的groundtruth; 中:传统attention的attention图和识别结果; 底部:DAN 的注意力图和识别结果。

场景文本识别

由于大量各式各样的背景、外形、分辨率、字体等等,场景文本识别经常会遇到困难。在这部分中,我们将会在包含规则和不规则文本的七个数据集上研究DAN的有效性和鲁棒性。我们将会评估DAN在1D和2D(指的是DAN-1D和DAN-2D)上的表现;特征编码器的细节配置如表1所示。
数据集 场景文本识别中的两种类型的数据集:规则文本数据集(IIIT5K- Words, Street View Text, ICDAR 2003, ICDAR 2013);不规则文本数据集(SVT-Perspective, CUTE80, ICDAR 2015 )。
IIIT5K是从网上收集的,包含3000张剪裁好的字符图片用于测试。
Street View Text(SVT)从谷歌街景中收集的,包含647个单词图片用于测试。
ICDAR 2003(IC03)包含251个有文本标记框标注的场景图片。这个数据集包含867张剪裁好的图片。
在这里插入图片描述

图 8:DAN 典型错误样本的可视化。 图像顺序与图 7 相同。 (a) 字符“p”被误识别为“e”的替换错误; (b) 删除缺少空格符号的错误; © 插入错误,其中某些纹理被识别为“buck”。

表 5:规则和不规则场景文本数据集的性能比较。 ‘rect’代表基于整流的方法; “2D”代表基于 2D 的方法。
在这里插入图片描述

表 6:稳健性研究。 ‘ac’:准确性; ‘gap’:原始数据集之间的差距; ‘ratio’:准确率下降率。
在这里插入图片描述

ICDAR 2013(IC13)继承了IC03的大部分图像,并扩展了一些新的图像。它由1015张没有相关词典联系的剪裁好的图片构成。
SVT-Perspective(SVT-P)采集自谷歌街景的侧视角度快照,包含639张剪裁好的图片用做测试。
CUTE80专注于弯曲文本,包含80张在自然场景中拍摄的高分辨率图像。该数据集包含288张经过剪裁的自然图像用做测试。
ICDAR 2015(IC15)包含2077张剪裁好的图片。图像中有很大比例的模糊和任意方向的图片。
实现细节 我们在Jaderberg等人和Gupta等人发布的合成样本上训练我们的模型。为了更好的比较,我们把DAN只与同样使用这两个合成数据集的方法进行比较。把输入图片的高度设置为32,宽度由长宽比(最大128)计算出来。maxT设置为25;L设置为8;除最后一层外,CAM的所有层的设置为64。我们使用Shi提出的双向译码器进行最终预测。采用ADADELTA优化方法,初始学习率设置为1.0,然后在3个epoch后减少到0.1。
实验结果 如表5所示,DAN在大多数据集中都达到了SOTA性能或者说有可比性的性能表现。对于规则场景文本识别来说,DAN在IIIT5K和IC03上达到了SOTA性能,在SVT和IC13上仅仅略低于当前的SOTA。DAN-1D在IC03上的表现比IC13上好一点,因为这两个数据集中的图片往往是清晰且规则的。对于不规则场景文本识别来说,最先进的方法可以被分成两类:基于校正的方法和基于2D的方法。DAN-2D在SVT-P和CUTE80上均达到了SOTA性能,它在众多2D识别器中拥有最好的表现。
鲁棒性研究 场景文本通常受环境干扰的影响。为了确定DAN对微小扰动是否敏感,我们还在IIIT5K和IC13上进行了鲁棒性研究,把DAN和最新的2D场景文本识别器CA-FCN进行了比较。我们在两个数据集中加入了如下的一些干扰:
**IIIT-p:**通过重复边界像素,在IIIT5k上用额外的10%的高度和宽度填充图像。**IIIT-r-p:**1.在IIIT5K上以不超过20%的长和宽分别随机缩放图片的四个顶点。2.重复边界像素来填充四边形图片。3.把图片转换回坐标轴平行的矩形。**IC13-ex:**将IC13中图像的边框扩展为裁剪前增加10%的高度和宽度的扩展矩形。**IC13-r-ex:**1.将IC13中图像的边框随机展开,宽度和高度不超过20%,形成扩展的四边形。2. 这些图像中与坐标轴平行的的外接矩形中的像素被裁剪。
结果如表6所示。在大多情况下,DAN比CA-FCN表现出了更好的鲁棒性,这又一次验证了它的鲁棒性。

讨论

DAN的优势: 1)简单。DAN使用现成的元件;里面的所有东西都很容易实现。2)有效。DAN在多个文本识别任务中都达到了SOTA的表现。3)灵活。DAN的形式可以很容易的在1D和2D间切换。4)鲁棒。DAN在面临长文本时表现出了更可靠的对齐性能。对微小扰动它同样可以保持鲁棒。
DAN的局限: CAM只用可视化信息进行对齐操作;因此,当遇到外观上和文本相似的噪声时,很难对齐文本。这类错误在图8(c)中展示出来了,它可能是大多注意力机制的一个普遍问题。

总结

本文针对文本识别,提出了一种有效的、灵活的、鲁棒的去耦注意力网络。为了解决误对齐问题,DAN把传统注意力机制解码器解耦成一个卷积对齐模块和一个去耦文本解码器。和传统的注意力机制相比,DAN有效的消除了对齐错误,达到了SOTA表现。在多个文本识别任务中,实验结果表明了该方法的有效性和优越性。特别是在处理类似手写文本识别的长文本识别中,DAN显示出了显著的优越性。

致谢

参考文献

创作不易,喜欢的话,加个关注点个赞,❤谢谢谢谢❤


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部