统计建模笔记7 残差分析

2023-10-06 23:49:32

残差

定义残差是响应变量中回归模型所未解释的变异性度量：
$e_i = y_i − \hat y+i$
其中 $y_i$ 表示样本的观测值， $\hat y_i$ 表示样本的预测值
- 残差是模型误差的观测值, 误差的任何对基本假设的违背都可以通过残差体现出来
- 残差分析是探索几种模型不适用性类型的有效办法
用向量来描述 $n$ 个数据的残差，记为： $\hat y$ 其中 $\hat y = X \hat β$ .
将最小二乘估计的结果 $\hat β = (X^TX) ^{−1}X^Ty$ 代入其中，有回归向量：
$\hat y = X(X^TX)^{−1}X^T y = Hy$
其中 $H = X(X^TX)^{−1}X^T$ 称为帽子矩阵。可以证明，帽子矩阵是幂等对称矩阵，具有如下的性质：
- $H^T = H$
- $H^2 = H$
- $(I - H) X = 0$
- $(I - H) H = 0$
残差向量可以表示为：
$y−\hat y = (I−H)y = (I−H)(Xβ + e) = (I−H)e$
残差向量实际上是对误差项的一个估计量。关于残差，有如下的性质：

定理

对残差向量，我们有：

(1) $E(\hat e) = 0, cov(\hat e) = σ^2 (I−H)$

(2) 若进一步假设误差向量 $\sim N(0, σ^2 I)$ ，则 $\hat e \sim N(0, σ^2 (I − H))$

(3) $\hat e$ 和 $\hat y$ 相互独立， $cov(\hat e, \hat y) = 0$

方差齐性检验

注意到：
$var(\hat e_i) = σ^2(1 − h_{ii})$
可见在一般情况下，ˆei 的方差是不相等的。因此我们不能直接使用残差来检验方差齐性，需要首先对残差尺度化，记：
$\frac{\hat e_i}{\sqrt {var(\hat e_i)}} = \frac{\hat e_i}{\sigma^2 \sqrt {1-h_{ii}}}$
其中 $\large \hat σ^2 = \Large \frac{SSE}{(n − p)}$ .

$r_i$ 近似服从正态分布 $r_i \sim N(0, 1)$

因而，
$P(−2 ≤ r_i ≤ 2) = 95.5\%, ~~~i = 1, 2, · · · , n$
即一个观测样本的残差有 95.5% 的概率落在区间 [−2, 2] 之间。

如果违背了这一点，我们就有理由拒绝方差齐性假设。

残差图分析

在这里插入图片描述

分析：

（a）对所有 $x$ 值， $e$ 的方差都相同，且描述变量 $x$ 和 $y$ 之间的回归模型是合理的，残差图中的所有点落在一条水平带中间。

（b）对所有的值， $e$ 的方差是不同的，对于较大的 $x$ 值，相应的残差也较大，违背了 $e$ 的方差相等的假设

（c）表明所选的回归模型不合理，应考虑曲线回归或多元回归模型。

在这里插入图片描述

表明 $y$ 与 $X$ 之间不是线性关系，应该考虑使用曲线回归来拟合样本观测值；

在这里插入图片描述

蛛网现象，表明 $Y$ 存在自相关

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > pli测试50题题库_马士基笔试、面试汇总
下一篇 > 信息安全置换密码c语言代码,替代密码及置换密码的C语言实现

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

统计建模笔记7 残差分析

残差

定理

方差齐性检验

残差图分析

相关文章