AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度

标准差

  • 标准差(Standard Deviation)是离均值平方的算术平均数的平方根,用符号 σ \sigma σ 表示,其实标准差就是方差的算术平方根
  • 标准差和方差都是测量离散趋势的最重要、最常见的指标。
  • 标准差和方差的不同点自傲与,标准差和变量的计算单位是相同的,比方差清楚,因此在很多分析的时候使用的是标准差
  • σ = D ( X ) = ∑ ( X − μ ) 2 N \sigma = \sqrt{D(X)} = \sqrt{\frac{\sum (X-\mu)^2}{N}} σ=D(X) =N(Xμ)2

标准差的计算

  • 有这样两组数据
    • 一组:
      • X 1 : 2 , 4 , 6 , 8 , 10 X_1: 2, 4, 6, 8, 10 X1:2,4,6,8,10
      • P ( X 1 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_1): 0.2, 0.2, 0.2, 0.2, 0.2 P(X1):0.2,0.2,0.2,0.2,0.2
      • D ( X 1 ) = 8 , σ 1 = D ( X 1 ) = 8 = 2.8284 D(X_1) = 8, \sigma_1 = \sqrt{D(X_1)} = \sqrt{8} = 2.8284 D(X1)=8,σ1=D(X1) =8 =2.8284
    • 二组:
      • X 1 : 4 , 5 , 6 , 7 , 8 X_1: 4, 5, 6, 7, 8 X1:4,5,6,7,8
      • P ( X 2 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_2): 0.2, 0.2, 0.2, 0.2, 0.2 P(X2):0.2,0.2,0.2,0.2,0.2
      • D ( X 2 ) = 2 , σ 2 = D ( X 2 ) = 2 = 1.4142 D(X_2) = 2, \sigma_2 = \sqrt{D(X_2)} = \sqrt{2} = 1.4142 D(X2)=2,σ2=D(X2) =2 =1.4142

例1

  • 有甲乙两个单位愿意聘用你,而你能够获得的信息如下,请根据工资待遇的差异情况,您选择哪家单位?为什么?
  • 甲单位
    • 甲单位不同职位与工资 X 1 X_1 X1元: 1200, 1400, 1600, 1800
    • 获取该职位的概率 P 1 P_1 P1: 0.4, 0.3, 0.2, 0.1
    • E ( X 1 ) = 1400 , D ( X 1 ) = 40000 E(X_1) = 1400, D(X_1) = 40000 E(X1)=1400,D(X1)=40000
  • 乙单位
    • 一单位不同职位月工资 X 2 X_2 X2元: 1000, 1400, 1800, 2200
    • 获取该职位的概率 P 2 P_2 P2: 0.4, 0.3, 0.2, 0.1
    • E ( X 2 ) = 1400 , D ( X 2 ) = 160000 E(X_2) = 1400, D(X_2) = 160000 E(X2)=1400,D(X2)=160000

例2

  • 已知随机变量X的分布列如下,分别求 E ( X ) 、 E ( 2 X + 5 ) 、 D ( X ) 、 σ ( X ) E(X)、E(2X+5)、D(X)、\sigma(X) E(X)E(2X+5)D(X)σ(X)的值
  • X:-2, 1, 3
  • P:0.16, 0.44, 0.40
  • 分析
    • E ( X ) = − 2 ∗ 0.16 + 1 ∗ 0.44 + 3 ∗ 0.40 = 1.32 E(X) = -2 * 0.16 + 1 * 0.44 + 3 * 0.40 = 1.32 E(X)=20.16+10.44+30.40=1.32
    • E ( 2 X + 5 ) = 2 E ( X ) + 5 = 2 ∗ 1.32 + 5 E(2X+5) = 2E(X) + 5 = 2 * 1.32 + 5 E(2X+5)=2E(X)+5=21.32+5
    • D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = ( − 2 ) 2 ∗ 0.16 + 1 2 ∗ 0.44 + 3 2 ∗ 0.40 − 1.3 2 2 = 2.9376 D(X) = E(X^2) - (E(X))^2 = (-2)^2 * 0.16 + 1^2 * 0.44 + 3^2 * 0.40 - 1.32^2 = 2.9376 D(X)=E(X2)(E(X))2=(2)20.16+120.44+320.401.322=2.9376
    • σ ( X ) = D ( X ) = 2.9376 ≈ 1.7139 \sigma(X) = \sqrt{D(X)} = \sqrt{2.9376} \approx 1.7139 σ(X)=D(X) =2.9376 1.7139

协方差

  • 协方差常用于衡量两个变量的总体误差;当两个变量相同的情况下,协方差其实就是方差
  • 如果X和Y是统计独立的,那么二值之间的协方差为零。但是如果协方差为零,那么X和Y是不相关的
  • C o v ( X , Y ) = E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) = E[(X - E(X)) · (Y - E(Y))] = E[XY - XE(Y) - YE(X) + E(X)E(Y)] = E(XY) - E(X)E(Y) Cov(X,Y)=E[(XE(X))(YE(Y))]=E[XYXE(Y)YE(X)+E(X)E(Y)]=E(XY)E(X)E(Y)
  • 假设C为一个常数,X和Y是两个随机变量,那么协方差有性质如下所示:
    • C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y,X) Cov(X,Y)=Cov(Y,X)
    • C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
    • C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
  • 协方差是两个随机变量具有相同方向变化趋势的度量
    • (1). 若 C o v ( X , Y ) > 0 Cov(X,Y) > 0 Cov(X,Y)>0, 则X和Y的变化趋势相同
    • (2). 若 C o v ( X , Y ) < 0 Cov(X,Y) < 0 Cov(X,Y)<0, 则X和Y的变化趋势相反
    • (3). 若 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0, 则X和Y不相关,也就是变化没有什么相关性

协方差矩阵

  • 对于n个随机向量 ( X 1 , X 2 , X 3 , . . . , X n ) (X_1, X_2, X_3, ..., X_n) (X1,X2,X3,...,Xn), 任意两个元素 X i X_i Xi X j X_j Xj都可以得到一个协方差,从而形成一个 n ∗ n n*n nn的矩阵,该矩阵就叫做协方差矩阵,协方差矩阵为对称矩阵
  • C i j = E { [ X i − E ( X i ) ] [ X j − E ( X j ) ] } = C o v ( X i , X j ) C_{ij} = E\{ [X_i - E(X_i)] [X_j - E(X_j)] \} = Cov(X_i, X_j) Cij=E{[XiE(Xi)][XjE(Xj)]}=Cov(Xi,Xj)
  • C = [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] C =\left [\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1n} \\c_{21} & c_{22} & \cdots & c_{2n} \\\cdots & \cdots & \cdots & \cdots \\c_{n1} & c_{n2} & \cdots & c_{nn}\end{array} \right ] C=c11c21cn1c12c22cn2c1nc2ncnn

Pearson相关系数

  • 协方差可以描述X和Y的相关程度,但是协方差的值和X/Y的值采用那个的是不同的量纲,导致协方差在数值上表现出较大的差异,因此可以引入相关系数来标识X和Y的相关性
  • ρ ( X , Y ) = C o v ( X , Y ) D ( X ) ⋅ D ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{D(X)} · \sqrt{D(Y)}} ρ(X,Y)=D(X) D(Y) Cov(X,Y)
绝对值范围 含义
0.8 - 1.0 极强相关
0.6 - 0.8 强相关
0.4 - 0.6 中等程度相关
0.2 - 0.4 弱相关
0 - 0.2 极强相关或无相关
  • ρ ( X , Y ) = 0 \rho(X,Y) = 0 ρ(X,Y)=0的时候,称X和Y不线性相关
  • Pearson相关系数取值范围是 [ − 1 , 1 ] [-1, 1] [1,1]

中心距、原点矩

  • 假设X和Y是随机变量,若 E ( X k ) , k = 1 , 2 , . . . E(X^k), k=1,2,... E(Xk),k=1,2,...存在,则称它为k阶原点距,简称k阶距
  • E { [ X − E ( X ) ] k } E\{ [X - E(X)]^k \} E{[XE(X)]k}, k=1,2,…存在, 则称它为X的k阶中心距
  • E { [ X − c ] k } E\{ [X - c]^k \} E{[Xc]k}, k=1,2,…存在, 则称它为X的关于点c的k阶矩
  • E { X k Y p } E\{ X^k Y^p \} E{XkYp}, k、p = 1,2,…存在,则称它为X和Y的k+p阶混合原点矩
  • E { [ X − E ( X ) ] k [ Y − E ( Y ) ] p } E\{ [X-E(X)]^k [Y - E(Y)]^p \} E{[XE(X)]k[YE(Y)]p}, k、p = 1,2,…存在, 则称它为X和Y的k+p阶混合中心距
  • X的数学期望E(X)是X的一阶原点矩
  • X的方差D(X)是X的二阶中心矩
  • X和Y的协方差Cov(X,Y)是X和Y的二阶混合中心矩

峰度

  • 峰度(peakedness, kurtosis)又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数,直观来说,峰值反映的是峰部的尖度。
  • 样本的峰度是和正态分布相比较而言的统计量,如果峰度值大于三,那么峰的形状比较尖,比正态分布峰要陡峭,反之亦然。
  • 峰度计算公式:随机变量的四阶中心矩与方差平方的比值
    • k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 4 ( N − 1 ) ⋅ s 4 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^4}{(N-1) · s^4} kurtosis=(N1)s4i=1N(xixˉ)4

偏度

  • 偏度系数(skewness)是描述分布偏离对称性程度的一个特征数。
  • 当分布左右对称的时候,偏度系数为0
  • 当偏度系数大于0的时候,即重尾在右侧时,该分布为右偏
  • 当偏度系数小于0的时候,即重尾在左侧时,该分布为左偏
  • 偏度计算公式:随机变量的三阶中心距与标准差立方的比值
    • k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 3 ( N − 1 ) ⋅ s 3 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^3}{(N-1)·s^3} kurtosis=(N1)s3i=1N(xixˉ)3


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部