python 异常点检测 cook距离_数据分析师所需的统计学:异常检测

e8c0a5ce-6913-eb11-8da9-e4434bdf6706.png

近期,工作需要试了很多异常检测的方法,统计学和算法相关的都有,所以来总结一下。

在本篇文章主要从原理、python实现、局限的方式讲述以下几种统计学的异常检测的方法:

1、3Sigma

2、Numeric Outlier

3、格拉布斯准则(Grubbs算法)

4、多维度异常检测:马氏距离

1、3igma

原理:

3Sigma又称为拉依达准则,这种判别处理原理及方法仅局限于对正态或近似正态分布的

样本数据处理,原则:

数值分布在(μ-σ,μ+σ)中的概率为0.6827

数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

所以,数据在(μ-3σ,μ+3σ)的概率低于0.01,我们可以称这些数据为异常值。

Python实现:

1、依据历史数据计算出正常区间(μ-3σ,μ+3σ)

2、判断目标数据是否有异常值

#输出正常区间

<


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部