AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度

2023-08-07 08:55:34

标准差

标准差(Standard Deviation)是离均值平方的算术平均数的平方根，用符号 $\sigma$ 表示，其实标准差就是方差的算术平方根
标准差和方差都是测量离散趋势的最重要、最常见的指标。
标准差和方差的不同点自傲与，标准差和变量的计算单位是相同的，比方差清楚，因此在很多分析的时候使用的是标准差
$\sigma = \sqrt{D(X)} = \sqrt{\frac{\sum (X-\mu)^2}{N}}$

标准差的计算

有这样两组数据
- 一组：
  - $X_1: 2, 4, 6, 8, 10$
  - $P(X_1): 0.2, 0.2, 0.2, 0.2, 0.2$
  - $D(X_1) = 8, \sigma_1 = \sqrt{D(X_1)} = \sqrt{8} = 2.8284$
- 二组：
  - $X_1: 4, 5, 6, 7, 8$
  - $P(X_2): 0.2, 0.2, 0.2, 0.2, 0.2$
  - $D(X_2) = 2, \sigma_2 = \sqrt{D(X_2)} = \sqrt{2} = 1.4142$

例1

有甲乙两个单位愿意聘用你，而你能够获得的信息如下，请根据工资待遇的差异情况，您选择哪家单位？为什么?
甲单位
- 甲单位不同职位与工资 $X_1$ 元: 1200, 1400, 1600, 1800
- 获取该职位的概率 $P_1$ : 0.4, 0.3, 0.2, 0.1
- $E(X_1) = 1400, D(X_1) = 40000$
乙单位
- 一单位不同职位月工资 $X_2$ 元: 1000, 1400, 1800, 2200
- 获取该职位的概率 $P_2$ : 0.4, 0.3, 0.2, 0.1
- $E(X_2) = 1400, D(X_2) = 160000$

例2

已知随机变量X的分布列如下，分别求 $E(X)、E(2X+5)、D(X)、\sigma(X)$ 的值
X:-2, 1, 3
P:0.16, 0.44, 0.40
分析
- $E (X) = - 2 * 0.16 + 1 * 0.44 + 3 * 0.40 = 1.32$
- $E (2 X + 5) = 2 E (X) + 5 = 2 * 1.32 + 5$
- $D(X) = E(X^2) - (E(X))^2 = (-2)^2 * 0.16 + 1^2 * 0.44 + 3^2 * 0.40 - 1.32^2 = 2.9376$
- $\sigma(X) = \sqrt{D(X)} = \sqrt{2.9376} \approx 1.7139$

协方差

协方差常用于衡量两个变量的总体误差；当两个变量相同的情况下，协方差其实就是方差
如果X和Y是统计独立的，那么二值之间的协方差为零。但是如果协方差为零，那么X和Y是不相关的
$C o v (X, Y) = E [(X - E (X)) \cdot (Y - E (Y))] = E [X Y - X E (Y) - Y E (X) + E (X) E (Y)] = E (X Y) - E (X) E (Y)$
假设C为一个常数，X和Y是两个随机变量，那么协方差有性质如下所示：
- $C o v (X, Y) = C o v (Y, X)$
- $C o v (a X, b Y) = a b C o v (X, Y)$
- $Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$
协方差是两个随机变量具有相同方向变化趋势的度量
- (1). 若 $C o v (X, Y) > 0$ , 则X和Y的变化趋势相同
- (2). 若 $C o v (X, Y) < 0$ , 则X和Y的变化趋势相反
- (3). 若 $C o v (X, Y) = 0$ , 则X和Y不相关，也就是变化没有什么相关性

协方差矩阵

对于n个随机向量 $X_1, X_2, X_3, ..., X_n)$ , 任意两个元素 $X_i$ 和 $X_j$ 都可以得到一个协方差，从而形成一个 $n * n$ 的矩阵，该矩阵就叫做协方差矩阵，协方差矩阵为对称矩阵
$C_{ij} = E\{ [X_i - E(X_i)] [X_j - E(X_j)] \} = Cov(X_i, X_j)$
$=\left [\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1n} \\c_{21} & c_{22} & \cdots & c_{2n} \\\cdots & \cdots & \cdots & \cdots \\c_{n1} & c_{n2} & \cdots & c_{nn}\end{array} \right ]$

Pearson相关系数

协方差可以描述X和Y的相关程度，但是协方差的值和X/Y的值采用那个的是不同的量纲，导致协方差在数值上表现出较大的差异，因此可以引入相关系数来标识X和Y的相关性
$\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{D(X)} · \sqrt{D(Y)}}$

绝对值范围	含义
0.8 - 1.0	极强相关
0.6 - 0.8	强相关
0.4 - 0.6	中等程度相关
0.2 - 0.4	弱相关
0 - 0.2	极强相关或无相关

当 $\rho(X,Y) = 0$ 的时候，称X和Y不线性相关
Pearson相关系数取值范围是 $[- 1, 1]$

中心距、原点矩

假设X和Y是随机变量，若 $E(X^k), k=1,2,...$ 存在，则称它为k阶原点距，简称k阶距
若 $E\{ [X - E(X)]^k \}$ , k=1,2,…存在, 则称它为X的k阶中心距
若 $E\{ [X - c]^k \}$ , k=1,2,…存在, 则称它为X的关于点c的k阶矩
若 $E\{ X^k Y^p \}$ , k、p = 1,2,…存在，则称它为X和Y的k+p阶混合原点矩
若 $E\{ [X-E(X)]^k [Y - E(Y)]^p \}$ , k、p = 1,2,…存在, 则称它为X和Y的k+p阶混合中心距
X的数学期望E(X)是X的一阶原点矩
X的方差D(X)是X的二阶中心矩
X和Y的协方差Cov(X,Y)是X和Y的二阶混合中心矩

峰度

峰度(peakedness, kurtosis)又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数，直观来说，峰值反映的是峰部的尖度。
样本的峰度是和正态分布相比较而言的统计量，如果峰度值大于三，那么峰的形状比较尖，比正态分布峰要陡峭，反之亦然。
峰度计算公式：随机变量的四阶中心矩与方差平方的比值
- $\frac{\sum_{i=1}^N (x_i - \bar{x})^4}{(N-1) · s^4}$

偏度

偏度系数(skewness)是描述分布偏离对称性程度的一个特征数。
当分布左右对称的时候，偏度系数为0
当偏度系数大于0的时候，即重尾在右侧时，该分布为右偏
当偏度系数小于0的时候，即重尾在左侧时，该分布为左偏
偏度计算公式：随机变量的三阶中心距与标准差立方的比值
- $\frac{\sum_{i=1}^N (x_i - \bar{x})^3}{(N-1)·s^3}$

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度

标准差

标准差的计算

协方差

协方差矩阵

Pearson相关系数

中心距、原点矩

峰度

偏度

相关文章