机器学习与线性代数

2023-08-31 01:11:46

目录索引

一矩阵
- 1.线性代数的应用（以SVD为例）
- 2.方阵的行列式
- - (1)方阵的行列式
  - (2)代数余子式
  - (3)行列式计算
  - (4)范德蒙行列式
- 3.矩阵乘法和状态转移矩阵
- - (1)矩阵乘法
  - (2)概率转移矩阵
  - (3)矩阵和向量的乘法
二特征值和特征向量
1.对称阵，正交阵和正定阵
- - (1)正交阵
  - (2)特征值和特征向量
  - (3)正定阵
三矩阵求导

一矩阵

1.线性代数的应用（以SVD为例）

SVD是在机器学习中广泛使用的算法，不光可以用于降维算法的特征分解，也可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。
奇异值分解是一种重要的矩阵分解方法，可以看作方阵在任意矩阵上的推广。
假设A是一个 $m\times n$ 阶实矩阵，则存在一个分解使得
$A_{m\times n}=U_{m\times m}\sum_{m\times n}V_{n\times n}^{T}$
求解如下 $(A^T\cdot A)\nu_i=\lambda_i\nu_i\Rightarrow \begin{cases} \delta_i=\sqrt{\lambda_i} \\ \mu_i=\frac{1}{\delta_i}A\cdot \nu_i \end{cases}$
其中, $\sum$ 对角线上的元素称为矩阵A的奇异值
$U$ 的第 $i$ 列称为A的关于 $\delta_i$ 的右奇异向量
$V$ 的第 $i$ 列称为A的关于 $\delta_i$ 的左奇异向量

2.方阵的行列式

(1)方阵的行列式

一阶方阵的行列式为元素的本身；
$n$ 阶方阵的行列式等于它的任一行（或列）的各元素与其对应的代数余子式和。

(2)代数余子式

任一个 $n$ 阶行列式A中，把 $(i, j)$ 元素 $a_{ij}$ 所在的第i行和第j列划去后，留下的n-1阶方阵的行列式叫做 $a_{ij}$ 的余子式，记作 $M_{ij}$ ，代数余子式为 $A_{ij}=(-1)^{i+j}M_{ij}$ 。

(3)行列式计算

$\forall 1 \le i \le n, |A|=\sum_{j=1}^{n}a_{ij}\cdot (-1)^{i+j}M_{ij}$
$\forall 1 \le j \le n, |A|=\sum_{i=1}^{n}a_{ij}\cdot (-1)^{i+j}M_{ij}$

(4)范德蒙行列式

$D_n=\begin{vmatrix} 1 & 1 & 1 & \cdots & 1 \\ x_1 & x_2 & x_3 & \cdots & x_n \\ x_1^2 & x_2^2 & x_3^2 & \cdots & x_n^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_1^{n-1} & x_2^{n-1} & x_3^{n-1} & \cdots & x_n^{n-1} \\ \end{vmatrix}=\prod_{i,j(n\ge i>j \ge 1)}(x_i-x_j)$
举例：
$D=\begin{vmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 1 & 4 & 9 & 16 \\ 1 & 8 & 27 & 64 \\ \end{vmatrix}=(2-1)(3-2)(3-1)(4-3)(4-2)(4-1)=12$

3.矩阵乘法和状态转移矩阵

(1)矩阵乘法

$A$ 为 $m\times s$ 阶矩阵， $B$ 为 $s\times n$ 阶矩阵，那么 $C=A\times B$ 是 $m\times n$ 阶矩阵，其中
$c_{ij}=\sum_{k=1}^{s}a_{ik}b_{kj}$

(2)概率转移矩阵

考虑某随机过程 $\pi$ ，它的状态有 $n$ 个，用 $1\sim n$ 表示。记在当前时刻 $t$ 时位于 $i$ 状态，它在 $t + 1$ 时刻位于 $j$ 状态的概率为 $P (i, j) = P (j ∣ i)$ ，即状态转移概率只依赖于前一个概率。
在这里插入图片描述
举例，假定按照经济状况将人群分成上、中、下三个阶乘，用1、2、3表示。假定当前处于某阶层只和上一代有关，即：考虑父代为第 $i$ 阶层，则子代为第 $j$ 阶层的概率。如果一个人的收入属于下层类别，则它的孩子属于下层收入的概率为0.65，属于中层收入的概率为0.28，属于上层收入的概率为0.07。从父代到子代，有如下转移概率矩阵:
在这里插入图片描述
转移状态图为

第 $n + 1$ 代中处于第 $j$ 个阶层的概率为
$\pi_{n+1}=\sum_{i=1}^{k}\pi(X_n=i)\cdot P(X_{n+1}=j|X_n=i)$
$\Rightarrow \pi^{n+1}=\pi^{n}\cdot P$
因此，矩阵 $P$ 为（条件）概率转移矩阵，第 $i$ 行元素表示为在上一个状态为 $i$ 时的分布概率，即每一行元素概率和为1。
思考：初始概率分布 $\pi$ 对最终分布的影响？
探索1：初始概率分布为 $\pi=[0.21,0.68,0.1]$ 迭代结果
在这里插入图片描述
探索2：初始概率分布为 $\pi=[0.75,0.15,0.1]$ 迭代结果

可以看出，初始概率不同，但经过若干次迭代， $\pi$ 将最终稳定到某个分布上，这是概率转移矩阵的性值，事实上P矩阵的n次幂最终也会收敛。具体原因以及深入的研究会在马尔可夫模型中继续探讨，本次暂不深入探讨。

(3)矩阵和向量的乘法

A为 $\times n$ 的矩阵，x为 $\times 1$ 的列向量，则Ax为 $\times 1$ 的列向量，记为 $\vec{y}=A\cdot \vec{x}$
由于 $n$ 维向量和 $n$ 维空间上的点一一对应，上式实际上给出了从n维空间上的点到m维空间上的点的线性变换。特殊地，若 $m = n$ ，则Ax完成了n维空间内的线性变换，比如旋转或者平移等。
4.矩阵和向量组
(1)矩阵的秩
设在矩阵A中有一个不等于零的r阶子式D，且所有r+1阶子式（若存在）为0，那么D为矩阵A的最高阶非零子式，r称为矩阵A的秩，记为 $R (A) = r$ 。
$n\times n$ 可逆矩阵秩为n；
可逆矩阵又称为满秩矩阵；
矩阵的秩等于它行（列）向量组的秩。
(2)秩和线性方程组解的关系
$\left\{ \begin{array}{c} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1 \\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n=b_2 \\ \cdots \cdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n=b_m \\ \end{array} \right. \Rightarrow A\vec{x}=\vec{b}$
无解的充要条件是： $R ( A ) < R ( A , b ) R(A)；有唯一解的充要条件是： R ( A ) = R ( A , b ) = n R(A)=R(A,b)=n ；有无穷多解的充要条件是： R ( A ) = R ( A , b ) < n R(A)=R(A,b)； A x ⃗ = 0 A\vec{x}=0 有非零解的充要条件是 R ( A ) < n R(A)。 (3)向量组等价向量 b ⃗ \vec{b} 可由向量组: a 1 ⃗ , a 2 ⃗ , ⋯ , a m ⃗ \vec{a_1},\vec{a_2},\cdots,\vec{a_m} 线性表出的充要条件是矩阵 A = ( a 1 ⃗ , a 2 ⃗ , ⋯ , a m ⃗ ) A=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m}) 的秩等于矩阵 B = ( a 1 ⃗ , a 2 ⃗ , ⋯ , a m ⃗ , b ⃗ ) B=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m},\vec{b}) 的秩。设有两个向量组 A : a 1 ⃗ , a 2 ⃗ , ⋯ , a m ⃗ A:\vec{a_1},\vec{a_2},\cdots,\vec{a_m} 和 B : b 1 ⃗ , b 2 ⃗ , ⋯ , b n ⃗ B:\vec{b_1},\vec{b_2},\cdots,\vec{b_n} ，若向量组A和向量组B能够相互表出，则称向量组A和向量组B等价。若向量组B可以由向量组A线性表出，则对于每个向量 b j ⃗ \vec{b_j} ，存在 k 1 j , k 2 j , ⋯ , k m j k_{1j},k_{2j},\cdots,k_{mj} ，使得 b j ⃗ = k 1 j a 1 ⃗ + k 2 j a 2 ⃗ + ⋯ + k m j a m ⃗ = ( a 1 ⃗ , a 2 ⃗ , ⋯ , a m ⃗ ) { k 1 j k 2 j ⋯ k m j } \vec{b_j}=k_{1j}\vec{a_1}+k_{2j}\vec{a_2}+\cdots+k_{mj}\vec{a_m}=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m})\begin{Bmatrix} k_{1j} \\ k_{2j} \\ \cdots \\ k_{mj} \\ \end{Bmatrix} 从而得到系数矩阵K ( b 1 ⃗ b 2 ⃗ ⋯ b n ⃗ ) = ( a 1 ⃗ a 2 ⃗ ⋯ a m ⃗ ) ( k 11 ⃗ k 12 ⃗ ⋯ k 1 n ⃗ k 21 ⃗ k 22 ⃗ ⋯ k 2 n ⃗ ⋮ ⋮ ⋱ ⋮ k m 1 ⃗ k m 2 ⃗ ⋯ k m n ⃗ ) \begin{pmatrix}\vec{b_1}&\vec{b_2}& \cdots &\vec{b_n} \end{pmatrix}=\begin{pmatrix}\vec{a_1}&\vec{a_2}& \cdots &\vec{a_m} \end{pmatrix}\begin{pmatrix}\vec{k_{11}}&\vec{k_{12}}& \cdots &\vec{k_{1n}} \\ \vec{k_{21}}&\vec{k_{22}}& \cdots &\vec{k_{2n}}\\ \vdots&\vdots& \ddots &\vdots\\ \vec{k_{m1}}&\vec{k_{m2}}& \cdots &\vec{k_{mn}}\\ \end{pmatrix}$

二特征值和特征向量

1.对称阵，正交阵和正定阵

(1)正交阵

若 $n$ 阶矩阵 $A$ 满足 $A^T A=I$ ，则称A为正交矩阵，简称为正交阵。A是正交阵的充要条件是A的列（行）向量都是单位向量，且两两正交。若A为正交阵，则 $A\vec{x}$ 为正交变换，正交变换不改变向量长度。

(2)特征值和特征向量

$A$ 是 $n$ 阶矩阵，若数 $\lambda$ 和 $n$ 维非0列向量 $\vec{x}$ 满足 $A\vec{x}=\lambda \vec{x}$ ，则称 $\lambda$ 为A的特征值， $\vec{x}$ 为A的对应于特征值 $\lambda$ 的特征向量。
根据定义，立刻可以得到 $(A-\lambda I)\vec{x}=0$ ，令关于 $\lambda$ 的多项式 $|A-\lambda I|$ 为0，方程 $|A-\lambda I|=0$ 的根是特征值；将根 $\lambda_0$ 带入方程组 $(A-\lambda I)\vec{x}=0$ 求解到的非零解，即 $\lambda_0$ 对应的特征向量。
特征值的性质：
设n阶矩阵 $A=(a_{ij})$ 的特征值为 $\lambda1,\lambda1,\cdots,\lambda_n$ ，则有
$\lambda_1+\lambda_2+\cdots+\lambda_n=a_{11}+a_{22}+\cdots +a_{nn}$ ；
$\lambda_1 \cdot \lambda_2 \cdots \lambda_n=|A|$ 。
另外，已知 $\lambda$ 是方阵A的特征值，则有
$\lambda^2$ 是 $A^2$ 的特征值；
A可逆时， $\lambda^{-1}$ 是 $A^{-1}$ 的特征值（定义很容易证明）。
不同特征值对应的特征向量性质：
设 $\lambda_1，\lambda_2，\cdots,\lambda_m$ 是方阵A的特征值， $p_1，p_2，\cdots,p_m$ 是依次与之对应的特征向量，若 $\lambda_1，\lambda_2，\cdots,\lambda_m$ 各不相等，则 $p_1，p_2，\cdots,p_m$ 线性无关。
实对称矩阵引理：
实对称矩阵的特征值是实数；
实对称矩阵的特征向量可以取实向量；
实对称矩阵不同特征值的特征向量正交
结果证明：令实对称矩阵为A，其两个不同特征值分别 $\lambda_1，\lambda_2$ ，对应的特征向量分别为 $\mu_1,\mu_2$
$\begin{cases} A\mu_1=\lambda_1 \mu_1\\ A\mu_2=\lambda_2 \mu_2 \Rightarrow \mu_1^T\underline{A\mu_2}= \mu_1^T\underline{\lambda_2\mu_2} \\ \end{cases}$
$\Rightarrow (A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \Rightarrow (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$
$\Rightarrow (\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \Rightarrow \lambda_1\mu_1^T\mu_2=\lambda_2\mu_1^T\mu_2$
$\underrightarrow{\lambda_1\neq\lambda_2} \mu_1^T\mu_2=0$
得证。
最终结论:设A为实对称n阶矩阵，则必有正交阵P使得
$P^{-1}AP=P^{T}AP=\Lambda$
其中， $\Lambda$ 是以A的特征值为对角元的对角阵，该变换也成为合同变换，A和 $\Lambda$ 互为合同矩阵。

(3)正定阵

对于n阶方阵A，若任意n阶向量 $\vec{x}$ 都有 $x^TAx>0$ ，则称矩阵A为正定矩阵。若条件改为 $x^TAx\geq0$ ，则称A为半正定。任意给定 $A^TA$ ，一定是半正定矩阵。
正定判定：
对称阵A为正定阵；
A的特征值都为正；
A的顺序主子式都大于0;
以上三命题等价。
4.QR分解
对于 $\times n$ 列满秩矩阵，必有 $A_{mn}=Q_{mn}\times R_{nn}$
其中， $Q^TQ=I$ ,即列正交矩阵，R为非奇异上三角矩阵。当要求R的对角元素为正时，该分解唯一。可用于求解A的逆矩阵以及A的特征值。
QR分解计算特征值(A为n阶方阵)
$\Rightarrow A_1=Q^TAQ=RQ$
$\cdots$
$A_k=Q_kR_k \Rightarrow A_{k+1}=R_kQ_k$
$\cdots$
$A_k\rightarrow diag(\lambda_1,\lambda_1,\cdots,\lambda_n)$

三矩阵求导

1.向量对向量求导
A为 $m\times n$ 矩阵， $\vec{x}$ 为 $n\times 1$ 的列向量，则 $A\vec{x}$ 为 $m\times1$ 的列向量，记 $\vec{y}=A\cdot \vec{x}$ ，则 $\frac{\partial{\vec{y}}}{\partial{\vec{x}}}=A^T$
公式推导
$A=\begin{bmatrix} a_{11} & a_{12}& \cdots &a_{1n} \\ a_{21} & a_{22}& \cdots &a_{2n} \\ \cdots & \cdots& \cdots& \cdots \\ a_{m1} & a_{m2}& \cdots &a_{mn} \\ \end{bmatrix} \vec{x}=\begin{Bmatrix} x_{1}\\ x_{2}\\ \vdots\\ x_{n}\\ \end{Bmatrix}A\cdot \vec{x}= \begin{Bmatrix} a_{11}x_1+a_{12}x_2+\cdots + a_{1n}x_n\\ a_{21}x_1+a_{22}x_2+\cdots + a_{2n}x_n\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots + a_{mn}x_n\\ \end{Bmatrix}$
$\frac{\partial{\vec{y}}}{\partial{\vec{x}}}=\frac{\partial{A\vec{x}}}{\partial{\vec{x}}}= \begin{Bmatrix} a_{11} & a_{21}& \cdots &a_{m1} \\ a_{12} & a_{22}& \cdots &a_{m2} \\ \vdots & \vdots& \ddots& \vdots \\ a_{1n} & a_{2n}& \cdots &m_{mn} \\ \end{Bmatrix}=A^T$
结论推广： $\frac{\partial{\vec{y}}}{\partial{\vec{x}^T}}=A$
$\frac{\partial{\vec{x}^TA}}{\partial{\vec{x}}}=A$
2.标量对向量求导
A为 $\times n$ 矩阵， $\vec{x}$ 为 $\times 1$ 列向量，记 $y=\vec{x}^TA\vec{x}$ 。
$\frac{\partial{y}}{\vec{x}}=(A^T+A)\vec{x}$
公式推导
$A=\begin{bmatrix} a_{11} & a_{12}& \cdots &a_{1n} \\ a_{21} & a_{22}& \cdots &a_{2n} \\ \cdots & \cdots& \cdots& \cdots \\ a_{n1} & a_{n2}& \cdots &a_{nn} \\ \end{bmatrix} \vec{x}=\begin{Bmatrix} x_{1}\\ x_{2}\\ \vdots\\ x_{n}\\ \end{Bmatrix}$
$有：\vec{x}^TA\vec{x}=(x_1,x_2,\cdots,x_n) \cdot \begin{pmatrix} \sum_{j=1}^{n}a_{1j}x_j & \sum_{j=1}^{n}a_{2j}x_j & \cdots & \sum_{j=1}^{n}a_{nj}x_j \end{pmatrix}^T$
$=\sum_{i=1}^{n}((\sum_{j=1}^{n}a_{ij}x_j)x_i)=\sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j$
$则：\frac{\partial{\vec{x}^T}A\vec{x}}{\partial{\vec{x_i}}}=\begin{pmatrix} \sum_{j=1}^{n}a_{ij}x_{j} \end{pmatrix}+\begin{pmatrix} \sum_{i=1}^{n}a_{ji}x_{i} \end{pmatrix}=\sum_{j=1}^{n}(a_{ij}+a_{ji})x_j$
若A为对称矩阵，则 $\frac{\partial{y}}{\vec{x}}=2A\vec{x}$
3.标量对矩阵求导
A为 $\times n$ 方阵，|A| 为A的行列式，则 $\frac{\partial|A|}{\partial{A}}=(A^*)^T=|A|\cdot (A)^{-1}$

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > node.js入门教程
下一篇 > 【Mybtis】05：注解开发

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce