推荐系统基础算法

推荐系统基础算法分为基于内容的推荐算法和基于邻域的推荐算法，其中基于邻域的推荐算法又分为基于用户的协同过滤算法和基于物品的协同过滤算法。

一、基于内容的推荐算法

1. 流程

（1） 特征提取：提取物品的属性特征
（2） 用户偏好计算：利用一个用户的显示评分或隐式操作记录，计算用户不同特征上的偏好分数；由于用户的兴趣会随着时间的推移而变化，所以可以乘上时间系数
（3） 内容召回：将待推荐物品的特征与用户偏好得分匹配，取出用户最有可能喜欢的物品池
（4）物品排序：按用户偏好召回物品池，物品池可能包含太多物品，再进行排序，选择高分的进行推荐

2. 特征提取

（1） 结构化特征：例如电影的类别可以分为“爱情、剧情、科幻、战争、中国、日本、韩国、美国”，这几个特征可以组成向量，如果某个电影有该属性则该向量的该维度为1，否则为0；
（2） 非结构化特征：以推荐文章为例，常常会把文本的非结构化特征转化为结构化特征；例如假设N个待推荐的文章集合为 $D=\{d_1, d_2, d_3, \cdots, d_N\}$ , 所有文章出现的词的集合（词典）为 $T=\{t_1, t_2, t_3, \cdots, t_M\}$ ，则某篇文章j可以表示为 $d_j=(w_{1j}, w_{2j}, \cdots, w_{Mj})$ , 其中 $w_{mj}$ 表示第一个词 $t_m$ 在第j篇文章的权重；
A. 基础统计法：如果词 $t_m$ 出现在第j篇文章，我们可以选取 $w_{mj}$ 为1；否则为0；
B. 词频统计法：基础统计法只考虑是否出现，对于常用的词语例如“我们”其实没有包含太多信息，所以采用TF-IDF。第j篇文章与词典中第m个词对应的TF-IDF为 $TF-IDF(t_m, d_j) = TF(t_m, d_j) * log{\frac{N}{n_m}}$ , 其中 $TF(t_m, d_j)$ 表示第m个词在第j篇文章出现的次数， $n_m$ 表示包含第m个词的文章数量， $n_m$ 越小，表示该词越稀有，越能代表该文章；
$w_{mj} = \frac{TF-IDF(t_m, d_j)}{\sqrt{\sum TF-IDF(t_m, d_j)^2}}$
假设用户i喜欢第1、3、7篇文章，则该用户的内容特征向量为 $U_i = (d_{i1} + d_{i3} + d_{i7}) / 3 = (u_{1i}, u_{2i}, \cdots, u_{mi})$ ，那么用户i在文章j的得分可以用以下余弦公式计算
$cos\theta = \frac{U_i \cdot d_j}{||U_i||||d_j||}$
(numpy.linalg可以计算逆矩阵、特征值、行列式等)

二、基于邻域的推荐算法

1. 基于物品的协同过滤算法

核心思想：给用户推荐那些和他们之前喜欢的物品相似的物品
（1）基于共同喜欢物品的用户列表计算
$w_{ij} = \frac{|N(i) \cap N(j)|}{|N(i)|}$ , 其中 $N (i)$ 表示喜欢物品i的用户， $\cap N(j)|$ 表示同时喜欢物品i和物品j的用户；但是如果物品j很热门，很多人都喜欢，则 $w_{ij}$ 将接近于1，所以改进公式
$w_{ij} = \frac{|N(i) \cap N(j)|}{\sqrt{|N(i)||N(j)|}}$
（2）基于余弦相似度计算
上面的方法计算物品相似度是直接使用购买这两个物品的人数，但用户购买了不一定喜欢，所以数据集还包括了评分的数据，可以用余弦计算任意两本书的相似度， $w_{ij} = cos\theta = \frac{N_i \cdot N_j}{||N_i||||N_j||} = \frac{\sum_{k=1}^{len}(n_{ki} \times n_{kj})}{\sqrt{\sum_{k=1}^{len}n_{ki}^2} \times \sqrt{\sum_{k=1}^{len}n_{kj}^2}}$ ， $n_{ki}$ 是用户k对物品i的评分，没有评分则为0
（3）热门物品的惩罚
$w_{ij} = \frac{|N(i) \cap N(j)|}{|N(i)|^\alpha \cdot |N(j)|^{1-\alpha}}$ , $\alpha \in (0, 0.5)$

得到物品之间的相似度后，用如下公式计算用户u对物品j的预测分数
$p_{uj} = \sum_{i \in N(u) \cap S(j, k)} w_{ji}r_{ui}$
其中 $N (u)$ 表示用户u喜欢的物品集合， $S (j, k)$ 表示和j最相似的k个物品， $w_{ji}$ 表示物品j和物品i之间的相似度， $r_{ui}$ 表示用户u对物品i的评分

2. 基于用户的协同过滤算法

核心思想：找到和目标用户兴趣相似的用户集合，把这个用户集合中用户喜欢的，且目标用户没听说过的物品推荐给目标用户。
同理相似度计算： $w_{uv} = \frac{|N(u) \cap N(v)|}{\sqrt{|N(u)||N(v)|}}$ ， N(u)表示用户u购买过的物品集合；
得到用户之间的相似度后，用如下公式计算用户u对物品i的预测分数；
$p_{ui} = \sum_{v \in N(i) \cap S(u, k)} w_{uv}r_{vi}$ ， $S (u, k)$ 表示与用户u最接近的k个用户；

3. 基于矩阵分解的推荐算法

流程
（1）加载用户对物品的评分矩阵
（2）矩阵分解，求奇异值，根据奇异值的能量占比确定降维至k的数值
（3）使用矩阵分解对物品评分矩阵进行降维
（4）使用降维后的物品评分矩阵计算物品相似度，对用户未评分过的物品进行预测
（5）产生前n个评分值高的物品，返回物品编号以及预测评分值

三、基于社交网路的推荐算法

1. 基于用户的推荐在社交网路的应用

（1）用共同好友比例计算相似度： $w_{uv} = \frac{|out(u) \cap out(v)|}{\sqrt{|out(u)||out(v)|}}$ , 其中 $o u t (u)$ 代表用户u指向其他好友的集合（也即是用户u关注的人）
（2）使用共同被关注的用户数量计算相似度： $w_{uv} = \frac{|in(u) \cap in(v)|}{\sqrt{|in(u)||in(v)|}}$ ， $i n (u)$ 表示关注用户u的集合
（3）用户u关注的用户中，有多大比例也关注了用户v： $w_{uv} = \frac{|out(u) \cap in(v)|}{|out(u)|}$ ,但是这个相似度有个缺点，所有人和大V有很大的相似度，所以为了降低大V和其他用户的相似度提出 $w_{uv} = \frac{|out(u) \cap in(v)|}{\sqrt{|out(u)||in(v)|}}$

四、基于深度学习的推荐系统

1. 基于DNN的推荐算法

Wide&Deep

2. 基于DeepFM的推荐算法

DeepFM

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 推荐系统算法01：快速入门协同过滤算法
下一篇 > 二、推荐系统算法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

推荐系统基础算法

推荐系统基础算法

一、基于内容的推荐算法

1. 流程

2. 特征提取

二、基于邻域的推荐算法

1. 基于物品的协同过滤算法

2. 基于用户的协同过滤算法

3. 基于矩阵分解的推荐算法

三、基于社交网路的推荐算法

1. 基于用户的推荐在社交网路的应用

四、基于深度学习的推荐系统

1. 基于DNN的推荐算法

2. 基于DeepFM的推荐算法

相关文章