WWW 2021|基于图神经网络的分级相关性匹配

©PaperWeekly 原创 · 作者|金金

单位|阿里巴巴研究实习生

研究方向|推荐系统

论文标题:

Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval

论文来源:

WWW 2021

论文链接:

https://arxiv.org/abs/2102.11127

简介

本文由中科院发表于 WWW 2021。ad-hoc retrieval 是根据查询和文档集合对相关文档进行排名。研究界已经提出了一系列基于深度学习的方法来解决该问题。

但是,本文作者认为它们忽略了长距离文档级单词关系。为了解决该问题,作者通过图结构显式地建立文档级单词关系的模型,并通过图神经网络捕获信息。

另外,由于文档收集的复杂性和规模,探索不同粒度的层次匹配信号是相当重要的。因此,作者提出了一种基于图的分层相关性匹配模型(GHRM),通过该模型可以同时捕获细微和通用的分层匹配信号。作在两个代表性的 ad-hoc retrieval 数据集验证了 GHRM 的有效性。

模型

本文大致的思想是在匹配的过程中,大部分的模型没有考虑长距离单词关系和不同粒度的相关信息。所以作者总结了如下的匹配流程:首先根据 query-document 的匹配,建立 word-word 的图,从而建立长距离的单词关系;在此基础上对于每个部分选择中心词,并去除不重要的词,从而考虑不同粒度的相关信息。

基于这样的思想,作者构造了如下模型,该模型主要包括三个部分:第一部分是图的构造;第二部分是基于图的分级匹配;第三部分是相关信号的读出和聚合。

第一部分图的聚合,作者将每个 document word 作为一个节点,并将他们分别和 query term 计算余弦相似度,作为节点特征向量,并使用固定大小的滑动窗口,统计 word-word 的共现次数构建邻接矩阵。

第二部分分级匹配,作者首先使用类似于 GRU 的图神经网络更新节点的表示,在此基础上添加了作者自定义的 pooling 层,每次通过 GNN 层后,作者使用 attention 层计算每个节点的注意力分数,并通过 hard-pooling(保留固定比例的节点)和 soft-pooling(根据注意力分数保留每个节点的部分特征分数)两种方式筛选重要的节点。

第三部分相关信号读出和聚合,作者对每张图中的节点选择 top-k 的特征,并将其拼接后通过前馈神经网络,最后使用 query term 的 idf 值通过 softmax 后的数值作为权重,计算最后的匹配分数。

训练阶段,作者采用了信息检索中较为普遍的 pair-wise learning,即每次选取一个正样本和一个负样本,使模型尽可能计算得到的正样本分数大于负样本分数。

实验

本文实验在 Robust 和 Clueweb09 上进行,通过和已有的传统式检索模型(如BM25),神经信息检索模型(如 Co-PACRR)和基于 BERT 的模型(如 BERT-MaxP)进行对比,我们可以发现提出的基于图神经网络的分级匹配模型的效果均优于上述模型。


结论

在本文中,作者介绍了一种基于图的分层相关性匹配方法 GHRM,通过利用层次图神经网络对不同粒度的匹配信号进行建模,我们可以准确地捕获细微和通用的层次交互匹配信号。在两个代表性的 ad-hoc retrieval 数据集上的实验证明了 GHRM 在各种基准上的有效性,这验证了将基于图的层次结构匹配信号应用于 ad-hoc retrieval 的优势。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部