向量求导规则--最小二乘法求解最优解
1. 向量求导规则
此部分主要是对Matrix Differentiation的转载。
2.1. 导数定义(一阶导数)
设 y⃗ =ϕ(x⃗ ) ,其中 y⃗ 和 x⃗ 均为向量。
定义
特别地,如果 y 是标量,则有
2.2. 导数规则
- y⃗ =Ax⃗ ,其中 A 与
x⃗ 和 y⃗ 无关,则有 ∂y⃗ ∂x⃗ =A
证明: yi=∑jaijxj⇒∂yi∂xj=aij - y⃗ =Ax⃗ ,其中 A 与
x⃗ ,z⃗ 和 y⃗ 无关,则有 ∂y⃗ ∂z⃗ =A∂x⃗ ∂z⃗
证明: yi=∑jaijxj⇒∂yi∂zk=∑jaij∂x⃗ j∂z⃗ k - α=y⃗ TAx⃗ ,其中 A 与
x⃗ 和 y⃗ 无关,则有 ∂α∂x⃗ =y⃗ TA ,而 ∂α∂y⃗ =x⃗ TAT 。
证明: α=(y⃗ TA)x⃗ =A′x⃗ ⇒∂α∂x⃗ =A′=y⃗ TA
同理, αT=(x⃗ TAT)y⃗ =A′′y⃗ ⇒∂α∂y⃗ =A′′=x⃗ TAT - α=x⃗ TAx⃗ ,其中 A 与
x⃗ 无关,则有 ∂α∂x⃗ =x⃗ T(AT+A) 。
证明: α=∑i∑jaijxixj⇒∂αxi=∑jaijxj+∑jajixj⇒x⃗ TA+x⃗ TAT=x⃗ T(AT+A) - α=y⃗ Tx⃗ ,则有 ∂α∂z⃗ =y⃗ T∂x⃗ ∂z⃗ +x⃗ T∂y⃗ ∂z⃗ 。
证明: α=∑ixiyi⇒∂α∂zj=∑i(xi∂yi∂zj+yi∂xi∂zj) - α=x⃗ Tx⃗ ,则有 ∂α∂z⃗ =2xT∂x⃗ ∂z⃗
之后的就不一一列举了,基本就是chain rule的应用,例如 α=y⃗ TAx⃗ ⇒∂α∂z⃗ =∂α∂x⃗ ∂x⃗ ∂y⃗ +∂α∂y⃗ ∂y⃗ ∂z⃗ =y⃗ TA∂x⃗ ∂z⃗ +x⃗ TAT∂y⃗ ∂z⃗
2. 一个应用例子:最小二乘法的最优解
Least Square是二分类问题的经典分类器。
具体地,输入 X ,输出
不同的参数 β 对应于不同的超平面,如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义 RSS(Y,X;β)=∑i(y^i−yi)2=∑i(xiβ−yi)2=(Y−Xβ)T(Y−Xβ) ,最优分类超平面为 argminβ(Y−Xβ)T(Y−Xβ) 。
首先对 β 求导, ∂RSS∂β=2(Y−Xβ)T∂(Y−Xβ)∂β=2(Y−Xβ)T(∂Y∂β−∂Xβ∂β)=2(Y−Xβ)T(−X) 。令导数为零,有 β^=(XTX)−1XTY 。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
