论文 | 翻译 ——A Novel K-medoids clustering recommendation algorithm……(2019:协同过滤RS)

目录

0.专有词汇

0.Abstract

1.Introduction

2.Literature overview

2.1.Similarity measure

2.2.Clustering technique

3.Research framework

3.1.Item similarity based on KL divergence

3.2.A novel K-medoids clustering algorithm based on probability distribution

3.2.1.K cluster centers selection algorithm based on KL distance

3.2.2.Item clustering algorithm

3.3.Top-n recommendation

3.3.1.Selection of nearest neighbor set

3.3.2.Online top-n recommendation

4.The experiments

4.1.Experimental dataset

4.2.Evaluation indicator

4.3.Experimental result and analysis

4.3.1.ML-Latest-Small dataset

4.3.2.Yahoo Music dataset

 4.4.Kolmogorov–Smirnov test

4.5.Comparison analysis

5.Conclusion and further work


0.专有词汇

probalility distribution:概率分布                 Kullback–Leibler (KL) divergence:KL散度

asymmetric relationship :非对称关系         geometric distance:几何关系

mean squared difference:均方差                heuristic:启发式的

Bhattacharyya coefficient:巴氏系数           empirical cumulative distributions:经验累积分布

treatment group : 实验组                              control group:对照组

0.Abstract

1.Introduction

【论述过程】

①研究背景:信息过载 → ②解决办法:信息过滤(推荐系统) → ③ 聚类推荐算法运作过程和优点论述 → ④确定文章研究框架:聚类推荐算法 → ⑤前人研究表明:距离计算公式重要性程度高 → ⑥提出问题:现有距离计算公式在稀疏矩阵上表现不好 → ⑦确定文章研究方向

【聚类推荐的运作过程】

①聚类中心选择算法确定聚类中心

②计算各对象到聚类中心的相似度,并划分,最终确定最近邻用户

③预测未知评分,生成推荐列表

【研究创新点】

①传统聚类推荐算法相似度(距离)计算公式仅考虑共有评分值:KL散度(距离)计算方法

②传统聚类推荐算法相似度(距离)计算公式对重叠对象的划分敏感度较低:KL散度(距离)的最大贡献度

③传统聚类推荐算法对象间相似度计算是对称的,含有不同评分数量的对象影响应不同:算法强调对象间非对称关系

2.Literature overview

【论述过程】

①定义CF模型空间 → ② 指出评分矩阵稀疏问题 → ③相似度计算方法 → ④聚类技术

2.1.Similarity measure

【论述过程】

①传统相似度计算方法 → ②新背景下存在问题:数据稀疏、冷启动和覆盖范围有限 →③提出新相似度测量方法 →④引出文章研究内容:KL散度的优化

2.2.Clustering technique

【论述过程】

①从聚类算法分类引出K-means →②K-means主要问题:对离群点和噪声敏感 →③引出k-means改进算法K-medoids →④K-mediods算法存在问题:几何距离很难对重叠对象进行分类 →⑤引出文章研究内容:以K-mediods为基础寻找新的距离计算方法

3.Research framework

【论述过程】

①给出新聚类推荐算法的框架并粗略解释框架流程

②KL散度(距离/相似度)公式原理说明

③商品聚类算法说明

④Top-N推荐

【框架流程】

①首先使用基于KL散度公式来计算项目之间的相似度

②基于KL散度中心选择算法确定k个聚类中心,并且相似项被聚类到同一类中

③找到类中目标项的最近邻,以计算活动用户对未分级项的预测等级,按预测分值的大小生成推荐列表

3.1.Item similarity based on KL divergence

【论述过程】

①KL散度(距离)定义(item i, item j)

②公式问题:尽管充分利用了评分信息(评价过该商品的用户数量),但忽略了商品评分的数量

 ③添加调节因子λ → ④改进KL散度(距离/相似度) → ⑤KL散度(距离/相似度)的其他性质:非负性 / 非对称性 

  • 非对称性解释:D'(i)≠D'(j),商品i的最近邻为j,但j的最近邻不一定为i

3.2.A novel K-medoids clustering algorithm based on probability distribution

【论述过程】

①目的:提升K-medoids聚类算法的效率和聚类结果,基于“改进的KL散度(距离/相似度)”对其进行改进 → KL-KM

②KL-KM算法步骤:1)找出k个聚类中心        →  基于KL散度的聚类中心选择算法

                               2)迭代生成聚类结果      →  商品聚类算法

3.2.1.K cluster centers selection algorithm based on KL distance

【基于KL散度的聚类中心选择算法的步骤】 共k个聚类中心

①依据“KL散度(距离/相似度)和”确定第一个聚类中心C1

 ②依据公式(4)迭代确定剩余k-1个聚类中心

③算法实现:

 

3.2.2.Item clustering algorithm

分别计算商品j∈N\{C}到各聚类中心的KL散度(距离/相似度)值,并将其划分到最小散度值对应的聚类中。

3.3.Top-n recommendation

【论述过程】

①最近邻域的选择

②在线Top-n推荐

3.3.1.Selection of nearest neighbor set

【邻域选择规则】

分别计算待预测评分的商品i所在簇Ci中其他商品到该商品的KL散度,并将计算结果升序排列,选取前n个作为商品i的邻域

3.3.2.Online top-n recommendation

【论述过程】

借助待预测评分商品的邻域计算评分,并按照评分高低进行推荐

4.The experiments

【论述过程】

①实验数据说明

②评价指标介绍

③实验结果及分析(分块实验对比)

④Kolmogorov–Smirnov检验

⑤比较分析(总体实验对比)

4.1.Experimental dataset

MovieLens 和 Yahoo Music

4.2.Evaluation indicator

评价指标分为两类:预测准确性+推荐准确性

①预测准确性:平均绝对误差(MAE)和均方根误差(RMSE)

②推荐准确性:精度(Precision)、召回率(Recall)和F1系数(F1-value)

4.3.Experimental result and analysis

【论述过程】

①说明聚类数k对推荐准确性和算法表现影响很大 → ②指明评价指标:Section 4.2 → ③指明对照算法:Pearson correlation based CF、new heuristic similarity model、ombining Jaccard and MSD、Bhattacharyya Coefficient based CF。

4.3.1.ML-Latest-Small dataset

【论述过程】

①聚类数k对结果的影响(图三)

②最近邻域大小对结果的影响(图四)

 

 

4.3.2.Yahoo Music dataset

论述过程同4.3.1,只不过实验数据集不同

 

 

 4.4.Kolmogorov–Smirnov test

Kolmogorov-Smirnov检验(KS检验)是一种一维概率分布均匀性的非参数检验;它可以用来比较一个样本与一个参考概率分布,或评价两个样本。双样本KS检验是比较两个样本最有用的方法之一,因为它对两个样本的经验累积分布的位置和形状的差异都很敏感。(KS检验原理

【双样本KS测试过程】

①每个用户的预测评分作为实验组,真实评分作为对照组

②组中的每对评分在显著性水平α=0.05下进行KS检验

③最后,使用累积测试值q作为命中数来统计KS测试的结果。

4.5.Comparison analysis

【论述过程】(总体实验对比)

①对照算法选择:分块对照实验算法+2.2节综述中聚类算法

②实验数据集:ML-100k

③实验结果分析

5.Conclusion and further work

 


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部