AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度
标准差
- 标准差(Standard Deviation)是离均值平方的算术平均数的平方根,用符号 σ \sigma σ 表示,其实标准差就是方差的算术平方根
- 标准差和方差都是测量离散趋势的最重要、最常见的指标。
- 标准差和方差的不同点自傲与,标准差和变量的计算单位是相同的,比方差清楚,因此在很多分析的时候使用的是标准差
- σ = D ( X ) = ∑ ( X − μ ) 2 N \sigma = \sqrt{D(X)} = \sqrt{\frac{\sum (X-\mu)^2}{N}} σ=D(X)=N∑(X−μ)2
标准差的计算
- 有这样两组数据
- 一组:
- X 1 : 2 , 4 , 6 , 8 , 10 X_1: 2, 4, 6, 8, 10 X1:2,4,6,8,10
- P ( X 1 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_1): 0.2, 0.2, 0.2, 0.2, 0.2 P(X1):0.2,0.2,0.2,0.2,0.2
- D ( X 1 ) = 8 , σ 1 = D ( X 1 ) = 8 = 2.8284 D(X_1) = 8, \sigma_1 = \sqrt{D(X_1)} = \sqrt{8} = 2.8284 D(X1)=8,σ1=D(X1)=8=2.8284
- 二组:
- X 1 : 4 , 5 , 6 , 7 , 8 X_1: 4, 5, 6, 7, 8 X1:4,5,6,7,8
- P ( X 2 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_2): 0.2, 0.2, 0.2, 0.2, 0.2 P(X2):0.2,0.2,0.2,0.2,0.2
- D ( X 2 ) = 2 , σ 2 = D ( X 2 ) = 2 = 1.4142 D(X_2) = 2, \sigma_2 = \sqrt{D(X_2)} = \sqrt{2} = 1.4142 D(X2)=2,σ2=D(X2)=2=1.4142
- 一组:
例1
- 有甲乙两个单位愿意聘用你,而你能够获得的信息如下,请根据工资待遇的差异情况,您选择哪家单位?为什么?
- 甲单位
- 甲单位不同职位与工资 X 1 X_1 X1元: 1200, 1400, 1600, 1800
- 获取该职位的概率 P 1 P_1 P1: 0.4, 0.3, 0.2, 0.1
- E ( X 1 ) = 1400 , D ( X 1 ) = 40000 E(X_1) = 1400, D(X_1) = 40000 E(X1)=1400,D(X1)=40000
- 乙单位
- 一单位不同职位月工资 X 2 X_2 X2元: 1000, 1400, 1800, 2200
- 获取该职位的概率 P 2 P_2 P2: 0.4, 0.3, 0.2, 0.1
- E ( X 2 ) = 1400 , D ( X 2 ) = 160000 E(X_2) = 1400, D(X_2) = 160000 E(X2)=1400,D(X2)=160000
例2
- 已知随机变量X的分布列如下,分别求 E ( X ) 、 E ( 2 X + 5 ) 、 D ( X ) 、 σ ( X ) E(X)、E(2X+5)、D(X)、\sigma(X) E(X)、E(2X+5)、D(X)、σ(X)的值
- X:-2, 1, 3
- P:0.16, 0.44, 0.40
- 分析
- E ( X ) = − 2 ∗ 0.16 + 1 ∗ 0.44 + 3 ∗ 0.40 = 1.32 E(X) = -2 * 0.16 + 1 * 0.44 + 3 * 0.40 = 1.32 E(X)=−2∗0.16+1∗0.44+3∗0.40=1.32
- E ( 2 X + 5 ) = 2 E ( X ) + 5 = 2 ∗ 1.32 + 5 E(2X+5) = 2E(X) + 5 = 2 * 1.32 + 5 E(2X+5)=2E(X)+5=2∗1.32+5
- D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = ( − 2 ) 2 ∗ 0.16 + 1 2 ∗ 0.44 + 3 2 ∗ 0.40 − 1.3 2 2 = 2.9376 D(X) = E(X^2) - (E(X))^2 = (-2)^2 * 0.16 + 1^2 * 0.44 + 3^2 * 0.40 - 1.32^2 = 2.9376 D(X)=E(X2)−(E(X))2=(−2)2∗0.16+12∗0.44+32∗0.40−1.322=2.9376
- σ ( X ) = D ( X ) = 2.9376 ≈ 1.7139 \sigma(X) = \sqrt{D(X)} = \sqrt{2.9376} \approx 1.7139 σ(X)=D(X)=2.9376≈1.7139
协方差
- 协方差常用于衡量两个变量的总体误差;当两个变量相同的情况下,协方差其实就是方差
- 如果X和Y是统计独立的,那么二值之间的协方差为零。但是如果协方差为零,那么X和Y是不相关的
- C o v ( X , Y ) = E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) = E[(X - E(X)) · (Y - E(Y))] = E[XY - XE(Y) - YE(X) + E(X)E(Y)] = E(XY) - E(X)E(Y) Cov(X,Y)=E[(X−E(X))⋅(Y−E(Y))]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)
- 假设C为一个常数,X和Y是两个随机变量,那么协方差有性质如下所示:
- C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y,X) Cov(X,Y)=Cov(Y,X)
- C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
- C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- 协方差是两个随机变量具有相同方向变化趋势的度量
- (1). 若 C o v ( X , Y ) > 0 Cov(X,Y) > 0 Cov(X,Y)>0, 则X和Y的变化趋势相同
- (2). 若 C o v ( X , Y ) < 0 Cov(X,Y) < 0 Cov(X,Y)<0, 则X和Y的变化趋势相反
- (3). 若 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0, 则X和Y不相关,也就是变化没有什么相关性
协方差矩阵
- 对于n个随机向量 ( X 1 , X 2 , X 3 , . . . , X n ) (X_1, X_2, X_3, ..., X_n) (X1,X2,X3,...,Xn), 任意两个元素 X i X_i Xi和 X j X_j Xj都可以得到一个协方差,从而形成一个 n ∗ n n*n n∗n的矩阵,该矩阵就叫做协方差矩阵,协方差矩阵为对称矩阵
- C i j = E { [ X i − E ( X i ) ] [ X j − E ( X j ) ] } = C o v ( X i , X j ) C_{ij} = E\{ [X_i - E(X_i)] [X_j - E(X_j)] \} = Cov(X_i, X_j) Cij=E{[Xi−E(Xi)][Xj−E(Xj)]}=Cov(Xi,Xj)
- C = [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] C =\left [\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1n} \\c_{21} & c_{22} & \cdots & c_{2n} \\\cdots & \cdots & \cdots & \cdots \\c_{n1} & c_{n2} & \cdots & c_{nn}\end{array} \right ] C=⎣⎢⎢⎡c11c21⋯cn1c12c22⋯cn2⋯⋯⋯⋯c1nc2n⋯cnn⎦⎥⎥⎤
Pearson相关系数
- 协方差可以描述X和Y的相关程度,但是协方差的值和X/Y的值采用那个的是不同的量纲,导致协方差在数值上表现出较大的差异,因此可以引入相关系数来标识X和Y的相关性
- ρ ( X , Y ) = C o v ( X , Y ) D ( X ) ⋅ D ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{D(X)} · \sqrt{D(Y)}} ρ(X,Y)=D(X)⋅D(Y)Cov(X,Y)
| 绝对值范围 | 含义 |
|---|---|
| 0.8 - 1.0 | 极强相关 |
| 0.6 - 0.8 | 强相关 |
| 0.4 - 0.6 | 中等程度相关 |
| 0.2 - 0.4 | 弱相关 |
| 0 - 0.2 | 极强相关或无相关 |
- 当 ρ ( X , Y ) = 0 \rho(X,Y) = 0 ρ(X,Y)=0的时候,称X和Y不线性相关
- Pearson相关系数取值范围是 [ − 1 , 1 ] [-1, 1] [−1,1]
中心距、原点矩
- 假设X和Y是随机变量,若 E ( X k ) , k = 1 , 2 , . . . E(X^k), k=1,2,... E(Xk),k=1,2,...存在,则称它为k阶原点距,简称k阶距
- 若 E { [ X − E ( X ) ] k } E\{ [X - E(X)]^k \} E{[X−E(X)]k}, k=1,2,…存在, 则称它为X的k阶中心距
- 若 E { [ X − c ] k } E\{ [X - c]^k \} E{[X−c]k}, k=1,2,…存在, 则称它为X的关于点c的k阶矩
- 若 E { X k Y p } E\{ X^k Y^p \} E{XkYp}, k、p = 1,2,…存在,则称它为X和Y的k+p阶混合原点矩
- 若 E { [ X − E ( X ) ] k [ Y − E ( Y ) ] p } E\{ [X-E(X)]^k [Y - E(Y)]^p \} E{[X−E(X)]k[Y−E(Y)]p}, k、p = 1,2,…存在, 则称它为X和Y的k+p阶混合中心距
- X的数学期望E(X)是X的一阶原点矩
- X的方差D(X)是X的二阶中心矩
- X和Y的协方差Cov(X,Y)是X和Y的二阶混合中心矩
峰度
- 峰度(peakedness, kurtosis)又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数,直观来说,峰值反映的是峰部的尖度。
- 样本的峰度是和正态分布相比较而言的统计量,如果峰度值大于三,那么峰的形状比较尖,比正态分布峰要陡峭,反之亦然。
- 峰度计算公式:随机变量的四阶中心矩与方差平方的比值
- k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 4 ( N − 1 ) ⋅ s 4 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^4}{(N-1) · s^4} kurtosis=(N−1)⋅s4∑i=1N(xi−xˉ)4
偏度
- 偏度系数(skewness)是描述分布偏离对称性程度的一个特征数。
- 当分布左右对称的时候,偏度系数为0
- 当偏度系数大于0的时候,即重尾在右侧时,该分布为右偏
- 当偏度系数小于0的时候,即重尾在左侧时,该分布为左偏
- 偏度计算公式:随机变量的三阶中心距与标准差立方的比值
- k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 3 ( N − 1 ) ⋅ s 3 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^3}{(N-1)·s^3} kurtosis=(N−1)⋅s3∑i=1N(xi−xˉ)3
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
