(四)广义线性模型

文章目录

  • 前言
  • 1. 指数型分布族
    • 1.1 理论
    • 1.2 实例
  • 2. 广义线性模型
    • 2.1 模型
    • 2.2 再看逻辑回归
    • 2.3 再看线性回归
  • 3. 再次理解


前言

这是观看吴恩达课程——广义线性模型后的自我总结与理解。


1. 指数型分布族

1.1 理论

​若随机变量 x x x 的密度函数可以写成如下形式:
p ( x ; η ) = h ( x ) exp ⁡ ( η T T ( x ) − a ( η ) ) p\left( x;\eta \right) =h\left( x \right) \exp \left( \eta ^TT\left( x \right) -a\left( \eta \right) \right) p(x;η)=h(x)exp(ηTT(x)a(η))
x x x 的分布属于指数型分布族。上式中 η \eta η 叫做自然参数,是一个向量, T ( x ) T\left( x \right) T(x) 是只关于 x x x 的向量函数, h ( x ) h\left( x \right) h(x) 是只关于 x x x 的函数, a ( η ) a\left( \eta \right) a(η) 叫做配分函数,是归一化因子,因为上式可以写为:
p ( x ; η ) = h ( x ) exp ⁡ ( η T T ( x ) ) exp ⁡ ( a ( η ) ) p\left( x;\eta \right) =\frac{h\left( x \right) \exp \left( \eta ^TT\left( x \right) \right)}{\exp \left( a\left( \eta \right) \right)} p(x;η)=exp(a(η))h(x)exp(ηTT(x))
a ( η ) a\left( \eta \right) a(η) 会保证密度函数的积分为 1 1 1

​指数型分布族具有这几个重要性质:

  • T ( x ) T\left( x \right) T(x) 是参数 θ \theta θ 的充分统计量;
  • E [ T ( x ) ] = ∂ a ( η ) ∂ η , V a r [ T ( x ) ] = ∂ 2 a ( η ) ∂ η 2 E\left[ T\left( x \right) \right] =\frac{\partial a\left( \eta \right)}{\partial \eta}, Var\left[ T\left( x \right) \right] =\frac{\partial ^2a\left( \eta \right)}{\partial \eta ^2} E[T(x)]=ηa(η),Var[T(x)]=η22a(η)

1.2 实例

下面来看看几个例子:

  1. 针对伯努利分布 x ∼ b ( 1 , ϕ ) x\sim b\left( 1,\phi \right) xb(1,ϕ) ,证明伯努利分布属于指数型分布族。
    p ( x ; ϕ ) = ϕ x ( 1 − ϕ ) 1 − x = exp ⁡ ( x log ⁡ ϕ + ( 1 − x ) log ⁡ ( 1 − ϕ ) ) = exp ⁡ ( x log ⁡ ϕ 1 − ϕ + log ⁡ ( 1 − ϕ ) ) p\left( x;\phi \right) =\phi ^x\left( 1-\phi \right) ^{1-x}=\exp \left( x\log \phi +\left( 1-x \right) \log \left( 1-\phi \right) \right) \\ =\exp \left( x\log \frac{\phi}{1-\phi}+\log \left( 1-\phi \right) \right) p(x;ϕ)=ϕx(1ϕ)1x=exp(xlogϕ+(1x)log(1ϕ))=exp(xlog1ϕϕ+log(1ϕ))
    η = log ⁡ ϕ 1 − ϕ \eta =\log \frac{\phi}{1-\phi} η=log1ϕϕ T ( x ) = x T\left( x \right) =x T(x)=x h ( x ) = 1 h\left( x \right) =1 h(x)=1,可以推导出: ϕ = 1 1 + e − η \phi =\frac{1}{1+e^{-\eta}} ϕ=1+eη1 ,因此:
    a ( η ) = − log ⁡ ( 1 − ϕ ) = − log ⁡ ( 1 − 1 1 + e − η ) = log ⁡ ( 1 + e η ) a\left( \eta \right) =-\log \left( 1-\phi \right) =-\log \left( 1-\frac{1}{1+e^{-\eta}} \right) =\log \left( 1+e^{\eta} \right) a(η)=log(1ϕ)=log(11+eη1)=log(1+eη)
    因此,伯努利分布族属于指数型分布族。

  2. 针对高斯分布 x ∼ N ( μ , σ 2 ) x\sim N\left( \mu , \sigma ^2 \right) xN(μ,σ2) ,证明高斯分布属于指数型分布族。
    p ( x ; μ , θ ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) = 1 2 π exp ⁡ ( − x 2 2 σ 2 + μ x σ 2 − μ 2 2 σ 2 − ln ⁡ σ ) p\left( x;\mu ,\theta \right) =\frac{1}{\sqrt{2\pi}\sigma}\exp \left( -\frac{\left( x-\mu \right) ^2}{2\sigma ^2} \right) =\frac{1}{\sqrt{2\pi}}\exp \left( -\frac{x^2}{2\sigma ^2}+\frac{\mu x}{\sigma ^2}-\frac{\mu ^2}{2\sigma ^2}-\ln \sigma \right) p(x;μ,θ)=2π σ1exp(2σ2(xμ)2)=2π 1exp(2σ2x2+σ2μx2σ2μ2lnσ)
    ​令 T ( x ) = ( x 2 , x ) T T\left( x \right) =\left( x^2,x \right) ^T T(x)=(x2,x)T η = ( η 1 , η 2 ) = ( − 1 2 σ 2 , μ σ 2 ) T \eta =\left( \eta _1,\eta _2 \right) =\left( -\frac{1}{2\sigma ^2},\frac{\mu}{\sigma ^2} \right) ^T η=(η1,η2)=(2σ21,σ2μ)T h ( x ) = 1 2 π h\left( x \right) =\frac{1}{\sqrt{2\pi}} h(x)=2π 1 a ( η ) = μ 2 2 σ 2 + ln ⁡ σ a\left( \eta \right) =\frac{\mu ^2}{2\sigma ^2}+\ln \sigma a(η)=2σ2μ2+lnσ
    ​因此, μ = − η 2 2 η 1 , σ = − 1 2 η 1 \mu =-\frac{\eta _2}{2\eta _1}, \sigma =\sqrt{-\frac{1}{2\eta _1}} μ=2η1η2,σ=2η11 ,因此有:
    a ( η ) = − η 2 2 4 η 1 + 1 2 log ⁡ ( − 1 2 η 1 ) a\left( \eta \right) =-\frac{\eta _{2}^{2}}{4\eta _1}+\frac{1}{2}\log \left( -\frac{1}{2\eta _1} \right) a(η)=4η1η22+21log(2η11)
    ​因此高斯分布是指数型分布族。

  3. 针对高斯分布 x ∼ N ( μ , 1 ) x\sim N\left( \mu , 1 \right) xN(μ,1) ,证明它属于指数型分布族。
    p ( x ; μ ) = 1 2 π exp ⁡ ( − ( x − μ ) 2 2 ) = 1 2 π exp ⁡ ( − x 2 2 ) exp ⁡ ( μ x − μ 2 2 ) p\left( x;\mu \right) =\frac{1}{\sqrt{2\pi}}\exp \left( -\frac{\left( x-\mu \right) ^2}{2} \right) =\frac{1}{\sqrt{2\pi}}\exp \left( -\frac{x^2}{2} \right) \exp \left( \mu x-\frac{\mu ^2}{2} \right) p(x;μ)=2π 1exp(2(xμ)2)=2π 1exp(2x2)exp(μx2μ2)
    T ( x ) = x T\left( x \right) =x T(x)=x η = μ \eta =\mu η=μ h ( x ) = 1 2 π exp ⁡ ( − x 2 2 ) h\left( x \right) =\frac{1}{\sqrt{2\pi}}\exp \left( -\frac{x^2}{2} \right) h(x)=2π 1exp(2x2) a ( η ) = μ 2 2 = η 2 2 a\left( \eta \right) =\frac{\mu ^2}{2}=\frac{\eta ^2}{2} a(η)=2μ2=2η2
    因此该分布属于指数型分布族。


2. 广义线性模型

2.1 模型

​令特征向量为 x = ( x 0 , x 1 , x 2 , ⋯ , x n ) = ( 1 , x 1 , x 2 , ⋯ , x n ) x=\left( x_0,x_1,x_2,\cdots ,x_n \right) =\left( 1,x_1,x_2,\cdots ,x_n \right) x=(x0,x1,x2,,xn)=(1,x1,x2,,xn) ,参数 θ = ( θ 0 , θ 1 , θ 2 , ⋯ , θ n ) \theta =\left( \theta _0,\theta _1,\theta _2,\cdots ,\theta _n \right) θ=(θ0,θ1,θ2,,θn)

​令指数型分布族的参数 η = θ T x \eta =\theta ^Tx η=θTx ,这时假设:
( y ∣ x ; θ ) ∼ E x p o n e n t i a l f a m i l y \left( y|x;\theta \right) \sim Exponential\,\,family (yx;θ)Exponentialfamily
可以根据预测任务假设 ( y ∣ x ; θ ) \left( y|x;\theta \right) (yx;θ) 的具体分布,例如:高斯分布,伯努利分布,伽马分布,Poisson分布等等。这时指数型分布族是关于随机变量 y y y 的,并非是关于 x x x 的。指数型分布族密度函数可如下写出:
p ( y ∣ x ; θ ) = h ( y ) exp ⁡ ( θ T x T ( y ) − a ( θ T x ) ) p\left( y|x;\theta \right) =h\left( y \right) \exp \left( \theta ^TxT\left( y \right) -a\left( \theta ^Tx \right) \right) p(yx;θ)=h(y)exp(θTxT(y)a(θTx))
记似然函数 L ( θ ) = ∏ i = 1 m p ( y ( i ) ; θ T x ( i ) ) L\left( \theta \right) =\prod_{i=1}^m{p\left( y^{\left( i \right)};\theta ^Tx^{\left( i \right)} \right)} L(θ)=i=1mp(y(i);θTx(i)), 在训练模型时,只需要:
max ⁡ θ ln ⁡ L ( θ ) \max_{\theta} \,\,\ln L\left( \theta \right) θmaxlnL(θ)
即可。

​在预测时,我们利用指数型分布族的这个性质:
E [ T ( y ) ] = ∂ a ( η ) ∂ η = ∂ a ( θ T x ) ∂ ( θ T x ) E\left[ T\left( y \right) \right] =\frac{\partial a\left( \eta \right)}{\partial \eta}=\frac{\partial a\left( \theta ^Tx \right)}{\partial \left( \theta ^Tx \right)} E[T(y)]=ηa(η)=(θTx)a(θTx)
来预测 T ( y ) T\left( y \right) T(y) 。很多时候, T ( y ) = y T\left( y \right) =y T(y)=y ,这样直接预测出的也就是 y y y 了。

2.2 再看逻辑回归

​在逻辑回归问题中,我们假设 ( y ∣ x ; θ ) ∼ b ( 1 , ϕ ) \left( y|x;\theta \right) \sim b\left( 1,\phi \right) (yx;θ)b(1,ϕ) ,根据前面的计算可知 T ( y ) = y T\left( y \right) =y T(y)=y a ( η ) = log ⁡ ( 1 + e η ) a\left( \eta \right) =\log \left( 1+e^{\eta} \right) a(η)=log(1+eη) ,因此:
E y = E [ T ( y ) ] = ∂ log ⁡ ( 1 + e η ) ∂ η = 1 1 + e − η = 1 1 + e − θ T x Ey=E\left[ T\left( y \right) \right] =\frac{\partial \log \left( 1+e^{\eta} \right)}{\partial \eta}=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta ^Tx}} Ey=E[T(y)]=ηlog(1+eη)=1+eη1=1+eθTx1
这个也就是Logistic回归中的 h θ ( x ) h_{\theta}\left( x \right) hθ(x) ,在Logistic回归中,我们或许最终不使用 h θ ( x ) h_{\theta}\left( x \right) hθ(x) 的值作为预测值,而是看 h θ ( x ) h_{\theta}\left( x \right) hθ(x) 更接近 0 0 0 还是 1 1 1 ,更接近谁我们就用谁的值作为预测值,但是这个值却可以作为 y y y 取值为 1 1 1 的概率值,为什么呢?

( y ∣ x ; θ ) ∼ b ( 1 , ϕ ) \left( y|x;\theta \right) \sim b\left( 1,\phi \right) (yx;θ)b(1,ϕ) 的意思是在 x x x 的条件下, y ∼ b ( 1 , ϕ ) y\sim b\left( 1,\phi \right) yb(1,ϕ) ,伯努利分布的期望 E y = ϕ Ey=\phi Ey=ϕ ,因而:
ϕ = 1 1 + e − θ T x \phi =\frac{1}{1+e^{-\theta ^Tx}} ϕ=1+eθTx1
ϕ \phi ϕ 就是 y y y 取值为 1 1 1 的概率值,因此这样的函数值可以作为 y y y 取值为 1 1 1 的概率值。这也更加深入解释了逻辑回归。

2.3 再看线性回归

​在线性回归问题中,我们假设 ( y ∣ x ; θ ) ∼ N ( μ , 1 ) \left( y|x;\theta \right) \sim N\left( \mu , 1 \right) (yx;θ)N(μ,1) ,这是因为 σ \sigma σ 的值并不影响参数的确定(这里我也不清楚),根据前面计算可知: T ( y ) = y T\left( y \right) =y T(y)=y η = μ \eta =\mu η=μ a ( η ) = η 2 2 a\left( \eta \right) =\frac{\eta ^2}{2} a(η)=2η2 ,同样的我们求解 T ( y ) T\left( y \right) T(y) 的期望,也就是 y y y 的期望:
E y = ∂ a ( η ) ∂ η = η = θ T x Ey=\frac{\partial a\left( \eta \right)}{\partial \eta}=\eta =\theta ^Tx Ey=ηa(η)=η=θTx
在预测时,这个期望值就会被作为预测值,即线性回归中的 h θ ( x ) h_{\theta}\left( x \right) hθ(x)


3. 再次理解

下面假设 x = ( x 0 , x 1 ) = ( 1 , x 1 ) x=\left( x_0,x_1 \right) =\left( 1,x_1 \right) x=(x0,x1)=(1,x1) ,用实际例子绘制图形来说明线性回归和逻辑回归。

  • 下图是线性回归,横坐标是 x 1 x_1 x1 ,纵坐标是 y y y 。蓝色点是数据,红色实线是 θ T x \theta ^Tx θTx ,绿色虚线就是 y y y 的期望 E y Ey Ey ,也就是输出变量的预测值,线性回归中 E y = θ T x Ey=\theta ^Tx Ey=θTx ,因此两个线重合在一起,有些看不清。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uCPb5IEQ-1650186051783)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20220410144848734.png)]

  • 下图是逻辑回归,同样,横坐标是 x 1 x_1 x1 ,纵坐标是 y y y 。蓝色点是数据,红色实线是 θ T x \theta ^Tx θTx ,绿色虚线就是 y y y 的期望 E y Ey Ey ,也就是输出变量的预测值(概率值),在逻辑回归中 E y = 1 1 + exp ⁡ ( − θ T x ) Ey=\frac{1}{1+\exp \left( -\theta ^Tx \right)} Ey=1+exp(θTx)1 ,绿色的虚线大致就是 y y y 等于 1 1 1 的概率。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Et5T70Y-1650185450930)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20220410155454238.png)]

​这两幅图中或许能使我们对线性回归和逻辑回归的理解更为深入。无论是逻辑回归还是线性回归,我们都要找到一个 θ \theta θ ,我们对 θ T x \theta^Tx θTx 进行一个作用 f f f ,用这个作用后的函数 f ( θ T x ) f(\theta^Tx) f(θTx) 来进行预测。对线性回归,我们使用了 f ( x ) = x f(x)=x f(x)=x 这样的函数来作用,那么 f ( θ T x ) = θ T x f(\theta^Tx)=\theta^Tx f(θTx)=θTx ;对于逻辑回归,我们使用 sigmoid 函数来作用,那么 f ( θ T x ) = 1 1 + exp ⁡ ( − θ T x ) f\left( \theta ^Tx \right) =\frac{1}{1+\exp \left( -\theta ^Tx \right)} f(θTx)=1+exp(θTx)1


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部