机器学习(无监督学习)关联规则Apriori算法原理与python实现

一、关联规则原理:

1、概述:

关联规则算法是在一堆数据集中寻找数据之间的某种关联,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集、关联规则。

  • 频繁项集:经常出现在一块的物品的集合。
  • 关联规则:暗示两种物品之间可能存在很强的关系。

关联分析典型的例子,沃尔玛超市啤酒于尿不湿的关联分析。例如:购物篮数据

订单编号购买商品集合
001羽毛球拍,羽毛球
002羽毛球,球网,纸巾,矿泉水
003羽毛球拍,球网,纸巾,红牛
004羽毛球,羽毛球拍,球网,纸巾
005羽毛球,羽毛球拍,球网,红牛

名词定义:

  • 事物:每一个订单被称为一个事物,上表包含5个事物;
  • 项:订单中的每一个物品被称为一个项;
  • 项集:包含0个或多个项的集合被称为项集,如:{羽毛球拍,羽毛球};
  • k-项集:包含k个项的项集被称为K项集,如{羽毛球拍,羽毛球}称为2-项集;
  • 前件与后件:对于规则{羽毛球拍}-->{羽毛球},{羽毛球拍}叫做前件,{羽毛球}叫做后件。

2、频繁项集的评估标准:

频繁项集:经常出现在一块的物品的集合,当数据量非常大的时候,我们不可能通过人工去算,所以催生了关联规则的算法,如:Apriori、prefixSpan、CBA等。有了计算方法,那么常常出现在一块多少次的物品集合才算频繁项集,则还需要一个评估频繁项集的标准。评估标准有支持度,置信度、和提升度等,需要自定义一个阈值来衡量判别。

  • 支持度(support):几


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部