CS229《机器学习》笔记 | 多元高斯分布的边缘分布和条件分布

吴恩达的《机器学习(CS229)》Lecture note 9(Part X Factor analysis)中提及了多元高斯分布的边缘分布和条件分布,指出这两者本身亦是高斯分布,但没有给出详细的证明。我自己尝试着推导,但不得要领,直到上网搜索后才恍然大悟。现将该证明过程记录于此,关键在于对协方差矩阵进行LDU分解。

边缘分布

一个多元概率分布的部分元所服从的概率分布即边缘分布,通过将剩余元求和或积分得到。比如,对于一个二元(用X,Y代表其随机变量)概率密度函数p_{X,Y}(x,y)(可理解为X∈[x, x+dx]且Y∈[y, y+dy]的概率),X所服从的边缘分布的密度函数通过将变量Y积分得到,即

p_X(x)=\int p_{X,Y}(x,y)dy                                                                                                                                  (1)

代表X∈[x, x+dx]而Y可以是任意值的概率。

条件分布

设A和B是两个事件,条件概率定义为在事件A发生的条件下,事件B发生的概率

P(B|A)=\frac{P(AB)}{P(A)}                                                                                                                                            (2)

依旧以上述的二元概率密度为例,根据定义,其条件概率密度即为

p_{X|Y}(x|y)=\frac{p_{X,Y}(x,y)}{p_Y(y)}                                                                                                                                    (3)

于是,上述的边缘概率密度也可进一步表示为

p_X(x)=\int p_{X,Y}(x,y)dy=\int p_{X|Y}(x|y)p_Y(y)dy                                                                                         (4)

多元高斯分布

多元高斯分布是一维情况的推广。在一维时,假设随机变量X服从高斯分布,其概率密度为

p_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^2}{2\sigma^2} \right]                                                                                                                   (5)

记作X\sim N\left ( \mu,\sigma^2 \right ),其中\mu为随机变量X的期待值,\sigma^2为方差。现推广到n个随机变量\{ X_1,\ X_2,\ \cdots, X_n\},此时,对应的密度函数指数部分为这n个变量的一个二次型(假设各随机变量的期待值均为0),即一个实系数的二次齐次函数

f(x_1,x_2,\cdots,x_n)\\=a_{11}x_1^2+a_{12}x_1x_2+a_{13}x_1x_3+\cdots+a_{1n}x_1x_n \\+a_{22}x_2^2+a_{23}x_2x_3+\cdots+a_{2n}x_2x_n \\+\cdots \\+a_{nn}x_n^2                                                                                              (6)

更一般地,记n个随机变量的期待值为\large \{ \mu_1,\ \mu_2,\ \cdots, \mu_n\},则对应的密度函数由上式平移得到:


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部