GMM和EM算法详解

2023-10-04 07:49:49

混合高斯模型和EM算法

一、单个一维高斯参数学习

数据集X={ $x_1,x_2.......x_N$ },参数为θ={μ， $σ^2$ },图像为：

在这里插入图片描述

一维高斯函数的分布如下所示：

$\begin{aligned} p(x)=\frac{1}{\sqrt {2π}σ}exp(\frac{1}{2σ^2}(x-μ)^2) \tag{1.1}\\ \end{aligned}$

我们通过极大似然法来求解高斯分布的参数θ,即μ和 $σ^2$ 。

我们可以通过数据集直接得到log似然函数：

$\begin{aligned} P(X|θ)=&\displaystyle\sum_{i=1}^{N} log\frac{1}{\sqrt {2π}σ}exp(\frac{1}{2σ^2}(x_i-μ)^2) \\ &=\displaystyle\sum_{i=1}^{N} (-\frac{1}{2}log(2π)-logσ-\frac{1}{2σ^2}(x_i-μ)^2)\tag{1.2} \end{aligned}$

得到了对数似然函数的表达式，我们就可以根据求导为零得到函数的最优解，并且解出参数的最优值。

例：我们这边求一个μ。

$\begin{aligned} \frac{\partial P(X|θ)}{\partial μ}=\displaystyle\sum_{i=1}^{N}(x_i-μ)=0 \tag{1.3}\\ \end{aligned}$

解出

$\begin{aligned} μ=\frac{\displaystyle\sum_{i=1}^{N}x_i}{N} \tag{1.4}\\ \end{aligned}$

二、单个D维高斯分布的参数求解问题

数据集X={ $x_1,x_2.......x_N$ },参数为θ={μ， $\Sigma$ },图像为：

我这边只给出2维的高斯分布图，再高维的不能进行可视化了
在这里插入图片描述

D维高斯函数的分布如下所示：

$\begin{aligned} p(x)=\frac{1}{(2π)^\frac{D}{2}|\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-μ)^T\Sigma^{-1}(x-μ)) \tag{2.1}\\ \end{aligned}$

我们通过极大似然法来求解高斯分布的参数θ,即μ和 $\Sigma$ 。

首先写出似然函数：

$\begin{aligned} P(X|θ)=\displaystyle\prod_{i=1}^{N} p(x_i|θ) \end{aligned}$

他所对应的对数似然函数为：

$\begin{aligned} P(X|θ)=\displaystyle\sum_{i=1}^{N} logp(x_i|θ) \tag{2.2}\\ \end{aligned}$

我们将一维高斯密度函数带入对数似然函数中可以得到

$\begin{aligned} P(X|θ)=&\displaystyle\sum_{i=1}^{N} log\frac{1}{(2π)^\frac{D}{2}|\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-μ)^T\Sigma^{-1}(x-μ))\\ &=\displaystyle\sum_{i=1}^{N} (-\frac{D}{2}log(2π)-\frac{1}{2}log|\Sigma|-\frac{1}{2}((x_i-μ)^T\Sigma^{-1}(x_i-μ)) \tag{2.3}\\ \end{aligned}$

得到了对数似然函数的表达式，我们就可以根据求导为零得到函数的最优解，并且解出参数的最优值。

例：我们这边求一个μ。

$\begin{aligned} \frac{\partial P(X|θ)}{\partial μ}=\displaystyle\sum_{i=1}^{N}(x_i-μ)=0 \tag{2.4}\\ \end{aligned}$
解出

$\begin{aligned} μ=\frac{\displaystyle\sum_{i=1}^{N}x_i}{N} \tag{2.5}\\ \end{aligned}$

三、混合高斯模型

混合高斯模型就是类似于一个聚类算法，他不仅考虑了数据的均值，也考虑了数据的协方差，所以说它是属于无监督学习的范畴，不需要类标签。它是由K个高斯模型混合而成，比如说对于下面的这张数据图：

在这里插入图片描述

我们可以看出，它并不能只由单一的高斯分布来表示，所以我们引入了混合高斯模型，他将K个高斯模型进行加权求和来表示。理论上来说，只要K足够大，那么混合高斯就可以拟合任意的曲线，或者空间。

下面我们就开始对高斯混合模型进行详细的阐述：

首先，数据集X同样为{ $x_1,x_2.......x_N$ },但是，我们这边的参数相对于之前的单一模型要多出来一个权重 $π_i$ ,所以整个参数空间为

$\begin{aligned} θ=(μ_1,μ_2,,,,μ_k,\Sigma_1,\Sigma_2,,,,\Sigma_k,π_1,π_2,,,,π_k)\\ \end{aligned}$

我们先写出单个高斯的一个分布函数
$\begin{aligned} p(x)=N(x|μ_i,\Sigma_i)=\frac{1}{(2π)^\frac{D}{2}|\Sigma_i|^\frac{1}{2}}exp(-\frac{1}{2}(x-μ_i)^T\Sigma_i^{-1}(x-μ_i)) \tag{3.1}\\ \end{aligned}$

接下来我们就可以写出模型的对数似然函数(log-likehood function)
$\begin{aligned} P(X|θ)=&log\displaystyle\sum_{i=1}^{K}\pi_iN(X|μ_i,\Sigma_i)\\ &=log\displaystyle\sum_{i=1}^{K}\displaystyle\prod_{j=1}^{N}\pi_iN(x_j|μ_i,\Sigma_i)\\ &=\displaystyle\sum_{j=1}^{N}log\displaystyle\sum_{i=1}^{K}\pi_iN(x_j|μ_i,\Sigma_i)\\ \tag{3.2}\\ \end{aligned}$

其中 $\pi_i$ 代表的是每一个样本 $x_i$ 属于第k个高斯分布的一个概率，并且这k个概率的和应该为1. $μ_i,\Sigma_i$ 为第 $i$ 个高斯分布的均值和协方差。

我们根据混合高斯分布的似然函数可以知道，要计算它的极大似然通过求导的方式显然是不现实的（由于log函数中存在求和符号），所以我们引入了一种迭代的思想，通过对参数的多次迭代，我们可以渐渐的逼近似然函数的最值。

四、EM算法详解

EM算法又叫做期望最大化算法，它由两步组成，第一步求期望Q，第二步将期望Q最大化。

E—step:

$\begin{aligned} Q(\theta,\theta^t)=\int_ZP(X,Z|\theta)*P(Z|X,\theta^t)d(Z) \tag{3.3}\\ \end{aligned}$

其中Z为我们引入的隐变量，在GMM模型中代表的就是每一个样本所在的高斯分布的概率。 $\theta^t$ 为上一次迭代之后的参数值，是一个确定的值，而 $\theta$ 为变量，在M步中我们需要对Q函数关于 $\theta$ 求最大值。

M—step:

$\begin{aligned} \theta^{t+1}=argmaxQ(\theta,\theta^t) \tag{3.5}\\ \end{aligned}$

下面我们需要证明EM算法对于似然函数来说，在迭代过程中是收敛的。即证明混合高斯模型的 $l o g$ 似然函数

$\begin{aligned} logP(X|\theta^{t+1})>=logP(X|\theta^t) \tag{3.6}\\ \end{aligned}$

下面给出证明过程：

$\begin{aligned} logP(X|\theta)=logP(X,Z|\theta)-logP(Z|X,\theta) \tag{3.7}\\ \end{aligned}$

将上式两边分别对 $P(Z|X,\theta^t)$ 求积分

$\begin{aligned} 左边=&\int_ZP(Z|X,\theta^t)logP(X|\theta)dZ\\ &=logP(X|\theta)*\int_ZP(Z|X,\theta^t)dZ\\ &=logP(X|\theta) \tag{3.8}\\ \end{aligned}$

$\begin{aligned} 右边=&\int_ZlogP(X,Z|\theta)P(Z|X,\theta^t)dZ-\int_ZlogP(Z|X,\theta)P(Z|X,\theta^t)dZ\\ &=Q(\theta,\theta^t)-H(\theta,\theta^t) \tag{3.9}\\ \end{aligned}$

其中Q就是我们上面提到的期望，H我们后面阐述。
所以说由上面可以得到

$\begin{aligned} logP(X|\theta)=Q(\theta,\theta^t)-H(\theta,\theta^t) \end{aligned}$

$\begin{aligned} logP(X|\theta^t)=Q(\theta^t,\theta^t)-H(\theta^t,\theta^t) \tag{3.10}\\ \end{aligned}$

$\begin{aligned} logP(X|\theta^{t+1})=Q(\theta^{t+1},\theta^t)-H(\theta^{t+1},\theta^t) \tag{3.11}\\ \end{aligned}$

因为Q函数最大化后参数 $\theta$ 为 $\theta^{t+1}$ ，所以说

$\begin{aligned} Q(\theta^{t+1},\theta^t)>=Q(\theta^t,\theta^t) \end{aligned}$

所以只要证明 $H(\theta^{t+1},\theta^t)<=H(\theta^t,\theta^t)$ ,我们就可以证明 $l o g$ 似然函数

$\begin{aligned} logP(X|\theta^{t+1})>=logP(X|\theta^t) \end{aligned}$

下面证明 $H(\theta^{t+1},\theta^t)<=H(\theta^t,\theta^t)$ ，

$\begin{aligned} &H(\theta^{t+1},\theta^t)-H(\theta^t,\theta^t)\\ &=\int_ZlogP(Z|X,\theta^{t+1})P(Z|X,\theta^t)dZ\int_ZlogP(Z|X,\theta^t)P(Z|X,\theta^t)dZ\\ &=\int_ZP(Z|X,\theta^t)\frac{logP(Z|X,\theta^{t+1})}{logP(Z|X,\theta^t)}dZ \tag{3.12}\\ \end{aligned}$

这边我们可以看做是-KL散度，可以证明 $- K L < = 0$ ，即 $H(\theta^{t+1},\theta^t)<=H(\theta^t,\theta^t)$ 成立。

我们以上我们就证明了EM算法的收敛性，当然我们也可以根据Jesion不等式来证明，在这里就不做过多阐述了。

接下来我们将EM算法用于GMM模型的参数估计，为什么GMM模型的参数要用EM算法估计在上面我们说明过了。

E—step:

我们求出 $g a m a [i] [j]$ 矩阵，代表的是第i个数据属于第j个高斯分布的概率，公式如下

$\begin{aligned} gama[i][j]=\frac{N(x_i|μ_j,\Sigma_j)}{\displaystyle\sum_{j=1}^{K}N(x_i|μ_j,\Sigma_j)} \tag{3.13}\\ \end{aligned}$

其中 $g a m a [i] [j]$ 里面的参数都是在时刻t时的。

下面我们根据 $g a m a [i] [j]$ 矩阵来更新混合高斯里面的参数

M—step:
更新 $\mu_j^{t+1}$

$\begin{aligned} \mu_j^{t+1}=\frac{\displaystyle\sum_{i=1}^{N}x_igama[i][j]}{\displaystyle\sum_{i=1}^{N}gama[i][j]} \tag{3.14}\\ \end{aligned}$

更新 $\Sigma_j^{t+1}$

$\begin{aligned} \Sigma_j^{t+1}=\frac{\displaystyle\sum_{i=1}^{N}[x_i-\mu_j^{t+1}][x_i-\mu_j^{t+1}]^Tgama[i][j]}{\displaystyle\sum_{i=1}^{N}gama[i][j]} \tag{3.15}\\ \end{aligned}$

更新 $\pi_j^{t+1}$

$\begin{aligned} \pi_j^{t+1}=\frac{\displaystyle\sum_{i=1}^{N}}{N} \tag{3.16}\\ \end{aligned}$

所以，这样迭代多次，当极大似然函数的值变化小于某一个阈值后，我们就可以停止迭代，此时参数的值就是极大似然函数的最优解。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

GMM和EM算法详解

相关文章