向量求导规则--最小二乘法求解最优解

1. 向量求导规则

此部分主要是对Matrix Differentiation的转载。

2.1. 导数定义(一阶导数)

y⃗ =ϕ(x⃗ ) ,其中 y⃗  x⃗  均为向量。
定义
definition
特别地,如果 y 是标量,则有yx⃗  1×n 的行向量;如果 x 是标量,则有y⃗ x m×1 的列向量。

2.2. 导数规则

  1. y⃗ =Ax⃗  ,其中 A x⃗  y⃗  无关,则有 y⃗ x⃗ =A
    证明: yi=jaijxjyixj=aij
  2. y⃗ =Ax⃗  ,其中 A x⃗ ,z⃗  y⃗  无关,则有 y⃗ z⃗ =Ax⃗ z⃗ 
    证明: yi=jaijxjyizk=jaijx⃗ jz⃗ k
  3. α=y⃗ TAx⃗  ,其中 A x⃗  y⃗  无关,则有 αx⃗ =y⃗ TA ,而 αy⃗ =x⃗ TAT
    证明: α=(y⃗ TA)x⃗ =Ax⃗ αx⃗ =A=y⃗ TA
    同理, αT=(x⃗ TAT)y⃗ =A′′y⃗ αy⃗ =A′′=x⃗ TAT
  4. α=x⃗ TAx⃗  ,其中 A x⃗ 无关,则有 αx⃗ =x⃗ T(AT+A)
    证明: α=ijaijxixjαxi=jaijxj+jajixjx⃗ TA+x⃗ TAT=x⃗ T(AT+A)
  5. α=y⃗ Tx⃗  ,则有 αz⃗ =y⃗ Tx⃗ z⃗ +x⃗ Ty⃗ z⃗ 
    证明: α=ixiyiαzj=i(xiyizj+yixizj)
  6. α=x⃗ Tx⃗  ,则有 αz⃗ =2xTx⃗ z⃗ 

之后的就不一一列举了,基本就是chain rule的应用,例如 α=y⃗ TAx⃗ αz⃗ =αx⃗ x⃗ y⃗ +αy⃗ y⃗ z⃗ =y⃗ TAx⃗ z⃗ +x⃗ TATy⃗ z⃗ 

2. 一个应用例子:最小二乘法的最优解

Least Square是二分类问题的经典分类器。
具体地,输入 X ,输出Y,其中 Y{0,1} ,预测输出 y^=β0+ixiβi 。对于 y^0.5 预测输出1,若 y^<0.5 预测输出0。
不同的参数 β 对应于不同的超平面,如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义 RSS(Y,X;β)=i(y^iyi)2=i(xiβyi)2=(YXβ)T(YXβ) ,最优分类超平面为 argminβ(YXβ)T(YXβ)
首先对 β 求导, RSSβ=2(YXβ)T(YXβ)β=2(YXβ)T(YβXββ)=2(YXβ)T(X) 。令导数为零,有 β^=(XTX)1XTY


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部