推荐系统算法01：快速入门协同过滤算法

2023-09-26 16:46:35

0、知识快速介绍

简单说就是找相似，那么第一时间想到的数学方法就是线性相关性、余弦公式。
实现协同过滤,需要以下几个步骤：

1)收集用户偏好。（搜寻数据）
2)找到相似的用户或物品。（制作数据集和特征提取）
3)计算并推荐。（算法方法、策略）

在一个推荐系统中,用户行为都会多于一种。那么,如何
组合这些不同的用户行为呢?基本上有如下两种方式。

将不同的行为分组
对不同行为进行加权(减噪, 归一化等)

在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户
对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面详细介绍几种常用的相似度计算方法：

同现相似度：物品A和物品B的同现相似度公式定义如下:
在这里插入图片描述
欧几里得距离(Euclidean Distance)

皮尔逊相关系数(Pearson Correlation Coefficient)
在这里插入图片描述
Cosine相似度(Cosine Similarity)

Tanimoto系数(Tanimoto Coefficient)

案例分析：
基于用户的协同过滤(UserCF)

基于物品的协同过滤(ItemCF)
基于物品的协同过滤的原理和基于用户的协同过滤的原理类似,只是在计算邻居时采用物品本身(而不是从用户的角度),即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好推荐相似的物品给他。从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到某物品的相似物品后,如根据用户的历史偏好预测当前用户还没有表示偏好的物品,则计算得到一个排序的物品列表进行推荐。图4-2给出了一个例子,对于物品A,根据所有用户的历史偏好喜欢物品A的用户都喜欢物品C,得出物品A和物品C比较相似,而用户C喜欢物品A,那么可以推断出用
户C可能也喜欢物品C。
在这里插入图片描述

1、算法源码实现

源码主要实现内容：

fit(self, data):计算所有用户的推荐物品
CF_knearest(CF_base):基于物品的K近邻协同过滤推荐算法
cal_similarity(self, i, j, data):计算物品i和物品j的相似度
cal_simi_mat(self, data):计算物品间的相似度矩阵
cal_prediction(self, user_row, item_ind):计算预推荐物品i对目标活跃用户u的吸引力
cal_recommendation(self, user_ind, data):计算目标用户的最具吸引力的k个物品list
CF_svd(CF_base):基于矩阵分解的协同过滤算法
svd_simplify(self, data):奇异值分解以及简化
cal_prediction(self, user_ind, item_ind, user_row):两个隐因子向量的内积加上平均值就是最终的预测分值
cal_recommendation(self, user_ind, data):计算目标用户的最具吸引力的k个物品list

"""
协同过滤算法
"""
from abc import ABCMeta, abstractmethod
import numpy as np
from collections import defaultdictclass CF_base(metaclass=ABCMeta):def __init__(self, k=3):self.k = kself.n_user = Noneself.n_item = None@abstractmethoddef init_param(self, data):pass@abstractmethoddef cal_prediction(self, *args):pass@abstractmethoddef cal_recommendation(self, user_id, data):passdef fit(self, data):# 计算所有用户的推荐物品self.init_param(data)all_users = []for i in range(self.n_user):all_users.append(self.cal_recommendation(i, data))return all_usersclass CF_knearest(CF_base):"""基于物品的K近邻协同过滤推荐算法"""def __init__(self, k, criterion='cosine'):super(CF_knearest, self).__init__(k)self.criterion = criterionself.simi_mat = Nonereturndef init_param(self, data):# 初始化参数self.n_user = data.shape[0]self.n_item = data.shape[1]self.simi_mat = self.cal_simi_mat(data)returndef cal_similarity(self, i, j, data):# 计算物品i和物品j的相似度items = data[:, [i, j]]del_inds = np.where(items == 0)[0]items = np.delete(items, del_inds, axis=0)if items.size == 0:similarity = 0else:v1 = items[:, 0]v2 = items[:, 1]if self.criterion == 'cosine':if np.std(v1) > 1e-3:  # 方差过大，表明用户间评价尺度差别大需要进行调整v1 = v1 - v1.mean()if np.std(v2) > 1e-3:v2 = v2 - v2.mean()similarity = (v1 @ v2) / np.linalg.norm(v1, 2) / np.linalg.norm(v2, 2)elif self.criterion == 'pearson':similarity = np.corrcoef(v1, v2)[0, 1]else:raise ValueError('the method is not supported now')return similaritydef cal_simi_mat(self, data):# 计算物品间的相似度矩阵simi_mat = np.ones((self.n_item, self.n_item))for i in range(self.n_item):for j in range(i + 1, self.n_item):simi_mat[i, j] = self.cal_similarity(i, j, data)simi_mat[j, i] = simi_mat[i, j]return simi_matdef cal_prediction(self, user_row, item_ind):# 计算预推荐物品i对目标活跃用户u的吸引力purchase_item_inds = np.where(user_row > 0)[0]rates = user_row[purchase_item_inds]simi = self.simi_mat[item_ind][purchase_item_inds]return np.sum(rates * simi) / np.linalg.norm(simi, 1)def cal_recommendation(self, user_ind, data):# 计算目标用户的最具吸引力的k个物品listitem_prediction = defaultdict(float)user_row = data[user_ind]un_purchase_item_inds = np.where(user_row == 0)[0]for item_ind in un_purchase_item_inds:item_prediction[item_ind] = self.cal_prediction(user_row, item_ind)res = sorted(item_prediction, key=item_prediction.get, reverse=True)return res[:self.k]class CF_svd(CF_base):"""基于矩阵分解的协同过滤算法"""def __init__(self, k=3, r=3):super(CF_svd, self).__init__(k)self.r = r  # 选取前k个奇异值self.uk = None  # 用户的隐因子向量self.vk = None  # 物品的隐因子向量returndef init_param(self, data):# 初始化，预处理self.n_user = data.shape[0]self.n_item = data.shape[1]self.svd_simplify(data)return datadef svd_simplify(self, data):# 奇异值分解以及简化u, s, v = np.linalg.svd(data)u, s, v = u[:, :self.r], s[:self.r], v[:self.r, :]  # 简化sk = np.diag(np.sqrt(s))  # r*rself.uk = u @ sk  # m*rself.vk = sk @ v  # r*nreturndef cal_prediction(self, user_ind, item_ind, user_row):rate_ave = np.mean(user_row)  # 用户已购物品的评价的平均值(未评价的评分为0)return rate_ave + self.uk[user_ind] @ self.vk[:, item_ind]  # 两个隐因子向量的内积加上平均值就是最终的预测分值def cal_recommendation(self, user_ind, data):# 计算目标用户的最具吸引力的k个物品listitem_prediction = defaultdict(float)user_row = data[user_ind]un_purchase_item_inds = np.where(user_row == 0)[0]for item_ind in un_purchase_item_inds:item_prediction[item_ind] = self.cal_prediction(user_ind, item_ind, user_row)res = sorted(item_prediction, key=item_prediction.get, reverse=True)return res[:self.k]if __name__ == '__main__':data = np.array([[4, 3, 0, 5, 0],[4, 0, 4, 4, 0],[4, 0, 5, 0, 3],[2, 3, 0, 1, 0],[0, 4, 2, 0, 5]])# data = np.array([[3.5, 1.0, 0.0, 0.0, 0.0, 0.0],#                  [2.5, 3.5, 3.0, 3.5, 2.5, 3.0],#                  [3.0, 3.5, 1.5, 5.0, 3.0, 3.5],#                  [2.5, 3.5, 0.0, 3.5, 4.0, 0.0],#                  [3.5, 2.0, 4.5, 0.0, 3.5, 2.0],#                  [3.0, 4.0, 2.0, 3.0, 3.0, 2.0],#                  [4.5, 1.5, 3.0, 5.0, 3.5, 0.0]])cf = CF_svd(k=1, r=3)# cf = CF_knearest(k=1)print(cf.fit(data))

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 基于内容的推荐算法（推荐系统）（三）
下一篇 > 推荐系统基础算法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

推荐系统算法01：快速入门协同过滤算法

0、知识快速介绍

1、算法源码实现

相关文章