01、频率派和贝叶斯派
频率派和贝叶斯派
频率派
频率派认为 θ \theta θ是一个未知的常量,而数据服从于未知的分布,一般利用极大似然的思想来进行求解问题。
θ M L E ^ = a r g m a x Σ i = 1 N l o g P ( X i ∣ θ ) \hat{\theta_{MLE}}=argmax \Sigma_{i=1}^{N}logP(X_i|\theta) θMLE^=argmaxΣi=1NlogP(Xi∣θ)
频率派会利用极大似然估计将问题转化成一个优化问题(统计机器学习)
贝叶斯派
贝叶斯派认为 θ \theta θ服从于一个未知的分布,有 θ ∼ P ( θ ) \theta \sim P(\theta) θ∼P(θ),这里的 P ( θ ) P(\theta) P(θ)一般被称为先验,而后利用贝叶斯公式和全概率公式来进行先验和后验的一个关系建立
P ( θ ∣ X ) = P ( θ ; X ) P ( X ) = P ( X ∣ θ ) P ( θ ) P ( x ) P(\theta|X) = \frac{P(\theta;X)}{P(X)}= \frac{P(X|\theta)P(\theta)}{P(x)} P(θ∣X)=P(X)P(θ;X)=P(x)P(X∣θ)P(θ)
贝叶斯派会利用最大后验,问题转变成一个积分问题,但是对于 P ( θ ∣ X ) P(\theta|X) P(θ∣X) ,一般都很难求得(概率论图模型)
举个例子来说:
假设上帝玩摸球的游戏,总共摸了1000次,其中501次是黑球,499次是白球,对于频率派来说,利用极大似然估计,侧重于数据本身,认为 θ \theta θ= 0.5 0.5 0.5,但是对于贝叶斯学派来说,他认为 θ \theta θ本身存在这一个分布,但是自然条件下有干扰的噪声,虽然 θ \theta θ是0.5,但是由于有噪声的存在,导致501次的黑球
经验风险最小化和结构风险最小化
经验风险最小化的意思就是侧重于数据出发,通过调整模型的参数,让模型在数据集上达到损失最小
而结构风险最小化的意思是在经验风险最小化的基础上,让模型的架构达到最简单,给模型增加约束。
当然,结构风险最小化符合奥卡姆剃刀原理
极大似然和最大后验的关系
极大似然有:
θ M L E ^ = P ( X ; θ ) = ∏ 1 N P ( X i ; θ ) log θ M L E ^ = a r g m a x Σ 1 N log P ( X i ; θ ) = a r g m i n − Σ 1 N log P ( X i ; θ ) \begin{aligned} \hat{\theta_{MLE}} =& P(X;\theta) =\prod_1^N P(X_i;\theta)\\ \log \hat{\theta_{MLE}} = &argmax\Sigma_{1}^{N} \log P(X_i;\theta) \\ =&argmin - \Sigma_{1}^{N} \log P(X_i;\theta) \end{aligned} θMLE^=logθMLE^==P(X;θ)=1∏NP(Xi;θ)argmaxΣ1NlogP(Xi;θ)argmin−Σ1NlogP(Xi;θ)
最大后验有:
θ M L P ^ = P ( θ ∣ X ) = P ( X ; θ ) P ( X ) = P ( X ∣ θ ) P ( θ ) P ( X ) log θ M L P ^ = a r g m a x log P ( X ∣ θ ) + log P ( θ ) − log P ( X ) = a r g m i n − log P ( X ∣ θ ) − log P ( θ ) + log P ( X ) = a r g m i n − log P ( X ∣ θ ) − log P ( θ ) \begin{aligned} \hat{\theta_{MLP}} = &P(\theta|X) = \frac{P(X;\theta)}{P(X)} \\ =&\frac{P(X|\theta)P(\theta)}{P(X)} \\ \log \hat{\theta_{MLP}} = &argmax \log P(X|\theta) +\log P(\theta) - \log P(X) \\ =&argmin -\log P(X|\theta) -\log P(\theta) +\log P(X) \\ =&argmin-\log P(X|\theta) -\log P(\theta) \end{aligned} θMLP^==logθMLP^===P(θ∣X)=P(X)P(X;θ)P(X)P(X∣θ)P(θ)argmaxlogP(X∣θ)+logP(θ)−logP(X)argmin−logP(X∣θ)−logP(θ)+logP(X)argmin−logP(X∣θ)−logP(θ)
由此可以看出,极大后验=极大似然+先验
参考
频率派和贝叶斯派的区别
结构风险最小化和经验风险最小化
极大似然和最大后验的区别
最大似然估计和逻辑回归
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
