推荐系统炼丹笔记：RecSys2020-SSE-PT解锁序列数据挖掘新姿势

2023-06-26 20:33:56

作  者：一元   
公众号：炼丹笔记

背景

现在诸多的推荐算法在处理时间信息上, 除了在自然语言常用的RNN,CNN等模型, 就是基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。

方案

模型框架

序列化推荐

个性化Transformer架构

SSE-PT使用随机共享embedding技术,

1. Embedding 层

2. Transformer的Encoder

这一块和之前的许多Transformer Encoder是类似的,所以此处我们跳过。

3. 预测层

4. 随机共享Embedding

对于提出的SSE-PT算法最为重要的正则技术是SSE(Stochastic Shared Embedding), SSE的主要思想是在SGD过程中随机地用另一个具有一定概率的Embedding来代替现在的Embedding，从而达到正则化嵌入层的效果。在没有SSE的情况下，现有的所有正则化技术，如层规范化、丢失和权重衰减等都会失效，不能很好地防止模型在引入用户嵌入后的过拟合问题。

SSE_PE: 以概率p均匀地使用另外一个embedding替代当前的embedding;

在本文中,有三处不同的地方可以使用SSE-SE, 我们对输入/输出的用户embedding, 输入的商品embedding以及输出的商品embedding分别以概率pu,pi,以及py进行替换。

我们注意到输入用户embedding和输出用户embedding同时被SSE概率代替。经验上，我们发现SSE-SE在用户的embedding和输出项的embedding总是有帮助的，但是SSE-SE到输入项的embedding只有在平均序列长度较大时才有用，例如Movielens1M和Movielens10M都超过100。

处理长序列的SSE-PT++

实验

1. 效果比较

SSE-PT算法在所有的4个数据集上的效果都好于其它的算法;

2. 正则化方案的比较

SSE-SE+dropout+weight decay是正则化里面最好的。

3. 模型训练速度

SSE-PT和SSE-PT++模型的训练速度与SASRec相当,其中SSE-PT++是速度最快、性能最好的模型。很明显，使用相同的训练时间，我们的SSE-PT和SSE-PT++比我们的基准SASRec取得了更好的排名性能.

4. 解耦研究

4.1 SSE概率

鉴于SSE正则化对于我们的SSE-PT模型的重要性，我们仔细检查了输入用户嵌入的SSE概率。我们发现适当的超参数SSE概率不是很敏感：在0.4到1.0之间的任何地方都能得到很好的结果，比参数共享和不使用SSE-SE要好。

4.2 采样概率

当最大长度相同时，使用适当的抽样概率（如0.2→0.3）将使其优于SSE-PT。

4.3 Attention Block的个数

对于Movielens1M数据集，在B=4或5时达到最佳排序性能，对于Movielens10M数据集，在B=6时达到最佳排序性能

4.4 个性化以及负样本的采样个数

当我们使用相同的正则化技术时，个性化模型总是优于非个性化模型。不管在评估过程中采样了多少个负数或者使用了什么排名标准，这都是正确的。

小结

在这篇论文中，作者提出了一个新的神经网路架构-Personal Transformer来解决时间协同排序问题。它拥有个性化模型的好处，比目前最好的个人用户获得更好的排名结果。通过研究推理过程中的注意机制，该模型比非个性化的深度学习模型更具解释性，并且更倾向于关注长序列中的最近项目。

参考文献

SSE-PT: Sequential Recommendation Via Personalized Transformer:https://dl.acm.org/doi/pdf/10.1145/3383313.3412258
https://github.com/SSE-PT/SSE-PT

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 推荐系统炼丹笔记：令人着迷的时间动态CF算法
下一篇 > 推荐系统炼丹笔记：阿里DMIN多重兴趣网络

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce