【机器学习】案例：探究用户对物品类别的喜好细分

2023-11-24 16:57:33

案例：探究用户对物品类别的喜好细分

学习目标
1. 需求
2. 分析
3. 完整代码
- 3.1 获取数据
- 3.2 数据基本处理
- - 3.2.1 合并表格
  - 3.2.2 交叉表合并
  - 3.2.3 数据截取
- 3.3 特征工程 — pca
- 3.4 机器学习（k-means）
- 3.5 模型评估

学习目标

应用pca和K-means实现用户对物品类别的喜好细分划分

在这里插入图片描述
数据如下：

order_products__prior.csv：订单与商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用户的订单信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所属具体物品类别
- 字段： aisle_id, aisle

1. 需求

在这里插入图片描述

2. 分析

1.获取数据
2.数据基本处理
- 2.1 合并表格
- 2.2 交叉表合并
- 2.3 数据截取
3.特征工程 — pca
4.机器学习（k-means）
5.模型评估
- sklearn.metrics.silhouette_score(X, labels)
  - 计算所有样本的平均轮廓系数
  - X：特征值
  - labels：被聚类标记的目标值

3. 完整代码

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

3.1 获取数据

order_product = pd.read_csv('./data/instacart/order_products__prior.csv')
products = pd.read_csv('./data/instacart/products.csv')
orders = pd.read_csv('./data/instacart/orders.csv')
aisles = pd.read_csv('./data/instacart/aisles.csv')

在这里插入图片描述

3.2 数据基本处理

3.2.1 合并表格

# 2.1 合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])

在这里插入图片描述

3.2.2 交叉表合并

table = pd.crosstab(table["user_id"], table["aisle"])

在这里插入图片描述

3.2.3 数据截取

table = table[:1000]

在这里插入图片描述

3.3 特征工程 — pca

transfer = PCA(n_components=0.9)
trans_data = transfer.fit_transform(new_data)

数据降维，减小复杂度，保留%90的数据
在这里插入图片描述

3.4 机器学习（k-means）

estimator = KMeans(n_clusters=5)
y_pre = estimator.fit_predict(trans_data)

在这里插入图片描述

3.5 模型评估

silhouette_score(trans_data, y_pre)  # 越渐进

在这里插入图片描述
加油!

感谢!

努力!

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Spss K-means聚类分析案例——某移动公司客户细分模型
下一篇 > 机器学习：降维案例（探究用户物品类别喜好细分降维）

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【机器学习】案例：探究用户对物品类别的喜好细分

案例：探究用户对物品类别的喜好细分

学习目标

1. 需求

2. 分析

3. 完整代码

3.1 获取数据

3.2 数据基本处理

3.2.1 合并表格

3.2.2 交叉表合并

3.2.3 数据截取

3.3 特征工程 — pca

3.4 机器学习（k-means）

3.5 模型评估

相关文章