用户的购物历史都有用吗?看作者如何运用对比学习来筛选相关项

本文关注的是对用户历史序列的去噪问题,旨在从历史购物序列中挑选出对预测具有真正影响力的相关商品,去除序列中不相关商品,以提高序列推荐效果。

论文标题:
Pattern-enhanced Contrastive Policy Learning Network for Sequential Recommendation
论文作者:
Xiaohai Tong, Pengfei Wang, Chenliang Li, Long Xia, Shaozhang Niu
收录情况:
IJCAI 2021 Full Paper

背景
首先介绍一下这篇论文的 task,也就是序列推荐,它是根据用户的历史购物序列,来推荐用户下一次可能购买的商品。
由于用户行为的随机性和多样性,用户的历史记录中并不是所有商品都对预测下一次行为有帮助,所以辨识出有关联的商品并提取出有价值的序列特征对提升序列推荐的性能有很大意义。

正如图 1 所展示的,给出了用户之前购买过的四个商品,来推荐用户下一时刻可能会购买的商品。我们可以看到,商品 coat 可以被忽略掉,因为它与其他商品不存在明显的关系。与此同时,虽然商品 bread 和 milk 表现出了与 ham 的强关联关系,但是在推荐 banana 时,它们就会变成噪声来影响推荐效果。

挑战
如何在无标注的情况下,自动挖掘出与推荐结果相匹配的时序模式,提高推荐的可解释性和准确性,是本文最大的挑战。

模型
基于上述分析的种种原因,作者提出了一个模式增强的对比学习模型来自动地挑选出与目标商品相关联的部分商品用于下一个商品的推荐。

本文采用强化学习的方法来对用户历史序列进行去噪,并用于序列推荐。模型主要分为两个部分:模式增强的策略模块 和 对比学习模块 。
3.1 模式增强的策略模块
本文采用一种策略模块来判定用户购物序列中的商品与目标商品之间的关联性。针对目标商品 ,在 时刻,策略学习进程处在状态 ,根据状态 , 会执行动作 。动作空间 = 1, = ,我们采用 动作来表示该商品与目标商品是相关的, 动作表示该商品与目标商品无关,应从初始序列中删去。 执行动作 的概率由以下策略来决定:

但是,在"用户-商品"交互较为稀疏的序列上运行复杂的策略并不容易。此外,由于没有提供商品级的相关信息来监督去噪过程,因此该过程也无法得到保证。考虑到序列模式可以在大量的用户行为中得到良好表达,我们选择挖掘序列模式,并将其作为先验知识来指导去噪过程。
我们首先使用 SPADE 算法从用户序列中提取出序列模式特征,然后将长度为 的模式特征整合到矩阵 中。其中, 就代表了 中的第 行信息, 的第 个元素就代表了从商品 出发到商品 结束的模式特征数量。针对商品 ,我们使用 = 来表达对应的模式特征信息,并将其输入到策略状态 的计算中,来增强其语义表示:

其中, 是门控循环单元, 是一个多层感知机, 是商品 的嵌入向量, 是一个指示函数, 是一个拼接操作符。
3.2 对比学习模块
给定一个交互序列 ,我们使用 为每个商品依次选取动作,我们就得到了一个动作序列 ,就可以很自然地将初始序列 分割成两个子序列: 子序列 和 子序列 。那么,生成子序列 的概率就是:

基于以上生成的子序列 ,目标函数就可以写为:

其中, 正是子序列 的延迟激励 。我们希望子序列 可以准确地捕获到与目标商品 存在关联关系的语义信息,最直接的一种方法就是对 进行编码。这里,我们选用一个 对 进行处理,并将最后一个商品对应的隐式状态作为该子序列的向量表示 。然后,我们使用 与 之间的余弦相似度作为 :

然而,由于没有合理使用序列 中不相关的商品,这一策略并不是一个最优的选择,而且会加剧稀疏性问题。同时,由于缺少监督信号,策略模块的一个错误区分也会影响到性能。为了全面利用相关与不相关的商品,我们采用对比学习的方法来加强模型的学习进程。
进一步地,我们采用另一个 来对 子序列 进行编码,得到向量表示 ,对应的生成概率就是:

类似地, 就等于 与 之间的余弦相似度。那么,最终的目标函数就可以写作:

3.3 学习和预测
我们采用 Adam 优化器来最大化目标函数。根据训练好的 RAP 模型,给定用户的历史交互序列和候选商品,我们首先依据状态公式对整个序列进行扫描,并依据下面的最大值概率来为每一个商品选取动作。

根据上面的步骤,我们可以提取出可信赖的相关商品,并计算出对应的 。之后,我们依据候选商品的 就可以对它们进行排序,并返回 top- 作为推荐结果。

实验效果
4.1 主实验

4.2 消融实验

4.3 case study


小结与展望
本文提出了一个序列去噪问题,并提出了一个模式增强的对比策略学习网络()来进行去噪和推荐。 将序列去噪问题转化为 MDP 的一种形式,利用序列模式和对比学习过程进行偏好学习。目前,我们只利用项目交互来进行去噪,这种有限的资源会阻碍去噪和推荐的有效学习。在未来的研究中,我们将选择从知识图谱中提取序列依赖关系,这将为去噪过程带来更多的好处。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读




#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
