最大熵模型中的对数似然函数的解释

最大熵模型中的对数似然函数的解释

最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式:

                                                                              L_{\widetilde{p}} = \prod_{x}p(x)^{\overline{p}(x)}

 

其实并没有解决问题。为了方便以后其他人的学习和理解,我结合自己的理解给出完整的解释。
其实第一眼之所以不理解,因为这是最大似然函数的另外一种形式。一般书上描述的最大似然函数的一般形式是各个样本集X中各个样本的联合概率:

                                                                          L\left ( x_{1} \right ,x_{2} \right ,...., x_{n} \right;\Theta ) = \prod_{i=_{}1}^{n}p\left (x_{i}; \Theta \right )

其实这个公式和上式是等价的。x_{1},x_{2},....x_{n}是样本具体观测值。随机变量X是离散的,所以它的取值范围是一个集合,假设样本集的大小为nX的取值有 k个 ,分别是 v_{1},v_{2},v_{3},.....v_{n}。用C\left ( X= \right v_{i}) 表示在观测值中样本v_{i} 出现的频数。所以L\left ( x_{1},x_{2},....x_{n} ; \Theta \right ) 可以表示为:

                                                                        L\left ( x_{1} \right ,x_{2} \right ,...., x_{n} \right;\Theta ) = \prod_{i=_{}1}^{k}p\left (v_{i}; \Theta \right )^{C\left ( X=v_{i} \right )}

对等式两边同时开n次方,可得

                                                                     L\left ( x_{1} \right ,x_{2} \right ,...., x_{n} \right;\Theta ) = \prod_{i=_{}1}^{k}p\left (v_{i}; \Theta \right )^{C\left ( X=v_{i} \right ) / n}

 

因为经验概率\overline{p}(x)=\frac{C\left ( X= v_i \right )}{n},所以简写得到:

                                                                          L\left ( x_{1} \right ,x_{2} \right ,...., x_{n} \right;\Theta ) = \prod_{i=_{}1}p\left (x_{i}; \Theta \right )^\overline{p}(x)

很明显对 L(x_1,x_2,...x_n;\Theta ) 求最大值和对  L(x_1,x_2,...x_n;\Theta )^\frac{1}{n}    求最大值的优化的结果是一样的。整理上式所以最终的最大似然函数可以表示为:

                                                                            L(x;\Theta ) = \prod_{x}p(x)^{\overline{p}(x)}                                        

忽略θ \thetaθ,更一般的公式就是本文的第一个公式。结合公式一,参考v_JULY_v博客中的最大熵模型中的数学推导,可得到联合概率密度的似然函数,即最大熵中的对数似然函数:
                                                                            L( \overline{p} ) =log \prod_{x,y}p(x,y)^{\overline{p}(x,y)}

                                                                                    =\sum_{x,y}\overline{p}(x,y) log p(x,y)

                                                                                     =\sum_{x,y}\overline{p}(x,y) log \left [ \overline{p}(x) p(y|x)\right ]

                                                                                    =\sum_{x,y}\overline{p}(x,y) log \left {p}(y|x) \right + \sum_{x,y}\overline{p}(x,y) log \left \overline{p}(x) \right

上述公式第二项是一个常数项(都是样本的经验概率),一旦样本集确定,就是个常数,可以忽略。所以最终的对数似然函数为:

                                                                          L_\overline{p}(x) =\sum_{x,y} \overline{p}(x,y) logp(y|x)

上式就是最大熵模型中用到的对数似然函数。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部