如何评估序列推荐模型?
实验配置
训练集测试集构造方式很简单,每个人都会有个交互序列,去掉后面两个,前面的序列用于训练,倒数第二个是预估,最后一个用于测试。评估指标就是最常见的HR@K和NDCG@K:


该论文比较了以下几种模型:
- GRU
- Neural Attentive Recommendation Machine(NARM)
- Self-Attention based Sequential Recommendation(SAS-Rec)
- Bert4Rec
实验结果
先比较不同模型在不同数据集,采样HR@10评估,用流行度采样负采样100的结果,如下图所示,这样看BERT4Rec在什么数据集都表现最好:

只能说,不要给上面的结论欺骗了!
我们随机采样20次,取平均,并对不同模型在不同采样方式下进行排序:

我们发现,在full上,bert4rec在某些数据集竟然能倒数第一?在uniform上也表现一般。我们会发现使用uniform和popular的rank和full并不一致。

如果我们使用不同的负采样个数,评估排名变化又很大,如下图所示:

看到这里,是不是不相信任何一个号称自己是最强的序列推荐模型了?使用所有item的集合评估才是最正确的,在看这篇论文之前,十方也坚定的认为按流行度进行负采样评估模型足以,看完这篇才发现这么做完全是错的。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
