大数据处理实例——Amazon商品评分评论（一）

2023-08-27 15:24:27

概述

在积累了一定的主流大数据分析工具(Hadoop, Spark, Storm, HBase等)的基础知识后，加之以前学习和工作中积累的机器学习和分布式的相关经验，想着尝试一下自己对一个大数据案例完整的分析实践一遍。因此本文所述观点更多的是对自己这一个多月的大数据知识体系的学习的总结和实践，仅供参考。

准备工作

一、案例筛选

个人在这一阶段主要考虑了以下几个方面：

数据真实性：无论是自己采集真实数据还是使用开源的供分析数据，希望这是一次真正有意义的实践
覆盖知识点：希望是可以把之前学习的知识点基本都串联起来的一次完整实践
可实现性：就个人当前技能(前端知识空白)而言，是可以实现的
个人兴趣：希望可以借机温习下以前对机器学习算法和自然语言处理的理解

综合以上因素，我选择了Amazon商品评分&评论这个案例，其实网上也没有关于这个案例的讨论，只是自己在网上找到了Amazon商品评论相关的开源数据和以此为基础的数据分析论文后，决定结合主流大数据分析工具做这么一个案例实践的。

二、资料收集

这里提供两个开源数据索引，一个是自己使用的是Stanford公开的Amazon商品评论信息数据源，另一个是更加全面的整理的比较好的开源数据索引。有需要的同学可以自行下载需要的数据，构建自己想要的案例实践

http://jmcauley.ucsd.edu/data/amazon/
http://snap.stanford.edu/data/#amazon
https://mran.revolutionanalytics.com/documents/data/#networks

由链接可知，Stanford已经对Amazon商品评论按照商品类型进行了分类。为了简化实践，本次只针对乐器类商品评论进行分析，主要参考的数据分析论文：
J. McAuleyHidden and J. Leskovec, Factors and Hidden Topics:Understanding Rating Dimensions with Review Text, ACM, 2013

案例分析

目标及使用场景：

这个案例想要的目标是希望通过用户评分和用户评论信息构建商品的主题模型以及用户感兴趣的主题模型，并以此来做一些推荐和预测的工作，个人想到的该案例可以实现的目标如下：

根据用户评论，学习出某一类商品评论的主题模型
根据用户评分和评论，学习出用户相似度模型
对有少量用户评论的新商品，根据主题和相似用户进行推荐

需求分解：

根据所有评论构建乐器类商品的主题模型（Top K的主题及其对应单词）
归纳用户的每一条评论文本到相应的主题
根据用户对商品的评分和评价主题，学习用户评分-主题模型
根据用户评分-主题模型，找出用户感兴趣主题
根据用户感兴趣主题，建立用户相似度模型
对有少量用户评论的新商品，归纳其所属主题，根据用户评分-主题模型，预测每个用户对其评分
对有少量用户评论的新商品，根据其评价用户及用户相似度模型，找出感兴趣的用户
综合6和7的分析结果，对特定用户推荐该商品

详细分析

商品的主题模型可以通过LDA模型学习出来，这里使用Spark MLlib中的LDA Module实现。使用该模型的前提是要构建出评论文本的词频向量，这就需要对评论文本进行分词，去停用词，词频统计等。本人考虑是使用Storm来对每一条评论文本做这些实时预处理工作，并将预处理结果存到HBase中。
在已知商品主题模型（主题–单词列表）及评论的词频向量后，可以很容易的通过TF-IDF余弦相似度将其归纳到与之有最高相似度的主题
参考论文中给出的HFT模型及主要参数含义如下：

符号	含义
$r_{u,i}$	实际的用户 $u$ 对商品 $i$ 的评分
$rec(u,i)$	预测的用户 $u$ 对商品 $i$ 的评分
$\alpha$	全局因子
$\beta_u$	用户 $u$ 的偏移参数
$\beta_i$	商品 $i$ 的偏移参数
$\gamma_u$	用户 $u$ 对 $K$ 维潜在主题的特征值序列
$\gamma_i$	商品 $i$ 对 $K$ 维潜在主题的特征值序列
$\theta_i$	商品 $i$ 的 $K$ 维主题分布
$\phi_k$	主题 $k$ 的单词序列
$K$	主题或潜在特征的个数

　预测函数： $rec(u,i) = \alpha + \beta_u + \beta_i + \gamma_u * \gamma_i$
　误差函数： $f(T|\Theta,\Phi,k,z)=\sum_{r_{u,i}\in T} (rec(u,i)- r_{u,i})^2 -\mu l(T|\theta,\phi,z)$
　其中的 $\Theta=\{ \alpha, \beta_u, \beta_i, \gamma_u, \gamma_i \}$ , $\Phi=\{ \theta,\phi\}$ 都是待学习的参数。
　使用最小化误差 $argmin_{\Theta,\Phi,k,z} f(T|\Theta,\Phi,k,z)$ 来使得算法收敛，同时学习到以上待学习参数
　　
4. 在3中已经学习到用户 $u$ 对 $K$ 维潜在主题的特征值序列 $\gamma_u$ ，显然较大特征值对应的主题就是用户感兴趣主题
5. 计算用户间潜在主题的特征值序列 $\gamma_u$ 的余弦相似度即可作为用户相似度模型
6. 对有少量用户评论的新商品 $v$ ，通过统计新商品的词频向量，计算其与每个主题单词序列 $\phi_k$ 的相似度，作为该新商品的 $K$ 维潜在主题的特征值序列 $\gamma_v$ 。带入预测函数中计算其 $rec(u,v)$ 即为该用户对其评分的预测值
7. 对有少量用户评论的新商品 $v$ ，根据5中找出的相似用户及该用户对新该新商品的预测评分，决定是否为相似用户推荐该新商品。

下一章将对该案例的实现进行详细分析。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 今日大厂：ZEKU全员被裁，PayPal疑似停止加薪，贝恩“鼓励”员工休半年长假
下一篇 > 亚马逊食品评论舆情分析-思路梳理

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce