机器学习-2 多元线性回归、多项式回归
多元线性回归:
通过尺寸预测房价,只有尺寸一个特征,如果有多个特征比如楼层、房间数等,则
1. Hypothesis:假设(输入到输出的映射)
2. Parameters:参数/特征权重
3. cost function:代价函数
4. Goal:目标函数
梯度下降迭代过程:
repeat {
}
特征归一化:(featurescaling)目标将不同特征的不同特征值范围,比如尺寸(30,500),楼层(1,30)归一化到-1到1的范围;归一化后能寻找最优点会更迅速,如下图:
归一化的方法有:
1) 最大最小值归一化
2) 均值归一化
多项式回归
对于一个特征预测结果的情况,多项式比一元线性的表现更好,更鲁棒,如下图:
绿线的线性假设函数是:
黄线的多项式假设函数是:
根据weierstrass(魏尔斯特拉斯)第一逼近定理:设f(x)是闭区间[a,b]上的连续函数,则存在多项式序列{Pn(x)}在[a,b]上一致收敛于f(x)。也就是对任意给定的>0,则存在多项式P(x),使得
对一切
均成立;简单的说,任意的连续函数,都可以用多项式逼近;
这里,我们将多项式回归转化为线性回归,设x1,x2,x3为特征:
就转化为线性假设函数了;
另外,在设特征幂次的时候,可<1,即开根;
比较一下:
的趋势不一定单调,或上升或下降的速度较快;
的趋势是单调的,上升或下降速度缓慢;
NormalEquation
Normal Equation(NE)是除了梯度下降外另外一种通过行列式转换而无需迭代的逼近最优的方法;推导如下:
假设函数:
在设样本数为m,则每个样本的 都期望与实际值y相等,如下:
转为为向量表达为:
由于X不一定是方阵,因此
不一定等于E,因此先乘以转置编程方阵可得;
Normal Equation(NE) 和 Gradient Descent(GD)(梯度下降)的对比:
1) NE方法无需特征归一化,也无需迭代,但需要大量的矩阵运算,当样本和特征很大时,求解过程需要矩阵求逆,复杂度很高;
2) GD需要特征归一化,需要多次迭代逼近,无需矩阵运算,求解复杂度对特征和样本规模不是很敏感;
最后,对线性回归/分类做个定义:通过特征的线性组合来进行回归和分类,即利用超平面划分高维空间;线性组合是向量(特征向量)和标量(特征权重)的点乘;
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
