EMNLP 2020 | 基于Wasserstein距离的正则化序列表示

©PaperWeekly 原创 · 作者|金金
单位|阿里巴巴研究实习生
研究方向|推荐系统

论文标题:
Wasserstein Distance Regularized Sequence Representation for Text Matching in Asymmetrical Domains
论文来源:
EMNLP 2020
论文链接:
https://arxiv.org/abs/2010.07717

简介
本文由中国人民大学发表于 EMNLP 2020。一种从非对称域匹配文本的方法是将输入序列作为特征向量投影到公共语义空间中,通过该特征向量来定义和学习匹配功能。
在现实世界中的文本匹配应用中,我们经常可以观察到随着训练的进行,从不同域投影的特征向量往往难以区分。但是,这种现象在现有的匹配模型中常常被忽略。结果,特征向量在没有任何正则化的情况下被构造,这不可避免地增加了学习下游匹配函数的难度。
在本文中,作者提出了一种针对非对称域中的文本匹配方法,称为 WD-Match。在 WD-Match 中,定义了基于 Wasserstein 距离的正则化项,以对从不同域投影的特征向量进行正则化。
通过将 WD-Match 用作基础匹配模型,可以使用 WD-Match 改进该方法。本文采用了四种流行的文本匹配方法。基于四个公开基准的实验结果表明,WD-Match 始终优于基础方法和基准。

模型
本文包含三个模块,第一个模块将文本映射到特定的向量空间中,第二部分通过前馈神经网络计算相关性分数,第三部分即本文提出的基于 Wasserstein 距离的正则化项,本文的创新模块即为第三部分。

根据 Wasserstein 距离本身的计算方法,我们可以得出两个概率分布之间的距离如下:

在此基础上,可以将其改写为对偶形式如下(其中 G 是 1-Lipschitz 函数):

于是正则化项的损失函数我们可以定义如下:

在训练的过程中,作者分别使用该损失函数和匹配损失函数进行训练,在训练某一模块的时候,固定其他模块的参数,具体的训练流程如下:


实验
本文在推断和问答的数据集上进行实验,因为本文并非提出了一个模型,而是一个可以应用于文本匹配模型的正则化模块,所以作者将该模块添加到了 SOTA 的模型上,发现对各模型均有提升,且参数量没有明显增加。

进一步,作者研究了 RE2 模型训练过程的变化,发现添加了该模块后,的确随着轮数的增加优化了 Wasserstein 距离,进一步证明了模型的有效性。


结论
在本文中,作者提出了一种新颖的基于 Wasserstein 距离的正则化项来改进序列表示,以用于非对称域中的文本匹配。该方法称为 WD-Match,根据给定的投影特征估计 Wasserstein 距离,并最小化 Wasserstein 距离的正则匹配损失。
本文证明了,正则化项有助于 WD-Match 在语义空间中很好地分布生成的特征向量,因此更适合匹配。四个基准测试的实验结果表明,WD-Match 的性能可超过包括其基础模型在内的基准。
实证分析表明,基于 Wasserstein 距离的正则化器在文本匹配中是有效的。将来,作则计划在不对称文本匹配任务中研究不同的正则表达式,以进一步探索它们在弥合不对称域之间的差距方面的有效性。
更多阅读




#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
