Python机器学习:用极差标准化min-max处理连续变量

因为变量之间的量纲不一样会影响训练的准确性,所以要对变量进行标准化。极差标准化就是常用的标准化方法之一(又叫min-max标准化),处理后可以使多个变量统一量纲,值都落在[0,1]之间。

标准化变量值 =(原变量值-最小值)/(最大值-最小值)

minVec = X_train_new['Balance'].min()
maxVec = X_train_new['Balance'].max()X_train_new['Balance'] = (X_train_new['Balance']-minVec)/(maxVec-minVec)

语法讲解:先判断字段的最大值、最小值是什么,再代入公式即可。

注意要划分数据集之后才能 进行连续变量标准化,不能先标准化再去划分数据集。因为有一个原则是尽量不影响测试集的数据。如果先把数据作为一个整体标准化,测试集会受到总体的最大最小值判断的影响。

同理填充空值也是要在划分数据集之后进行,因为填充空值也是要判断总体的众数、中位数、平均数是什么。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部