数据挖掘实验(一)数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】
本文代码均已在 MATLAB R2019b 测试通过,如有错误,欢迎指正。
文章目录
- 一、数据规范化的原理
- 二、Matlab代码实现
- 1.最小-最大规范化
- 代码运行结果
- 2.零-均值规范化
- 代码运行结果
- 3.小数定标规范化
- 代码运行结果
一、数据规范化的原理
数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
(1)最小-最大规范化
假定min和max分别为属性A的最小值和最大值,则通过下面公式将属性A上的值v映射到区间[new_min, new_max]中的v’:
v ′ = v − m i n m a x − m i n ( n e w _ m a x − n e w _ m i n ) + n e w _ m i n v'=\frac {v-min} {max-min}(new\_max-new\_min)+new\_min v′=max−minv−min(new_max−new_min)+new_min
(2)零-均值规范化
将属性A的值根据其平均值mean和标准差std进行规范化:
v ′ = v − m e a n s t d v'=\frac {v-mean} {std} v′=stdv−mean
(3)小数定标规范化
通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值:
v ′ = v 1 0 j v'=\frac {v} {10^j} v′=10jv
其中,j是使 Max(| v’ |)<1的最小整数。
二、Matlab代码实现
1.最小-最大规范化
Matlab的代码可以写简单一点,不用像C++那样写两个for循环。
mi=min(A)默认求矩阵A每列的最小值,返回一个行向量mi。repmat(mi,n,1)重复mi,重复行n次,重复列1次,从而形成与A相同大小的矩阵。./可直接将两个矩阵所有相同位置的元素相除(不用写两个for循环)。
clear;clc;%% 数据存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];fprintf("原数据:"); Anew=input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi=new(1);
new_mx=new(2);[n,m]=size(A);
mi=min(A); % 求出A每列的最小值,形成行向量mi(不用for循环)
mx=max(A); % 求出A每列的最大值,形成行向量mx
mi=repmat(mi,n,1); % 将矩阵mi重复,行n次,列1次,调整到与A相同大小(之后就不用for循环了)
mx=repmat(mx,n,1); % 将矩阵mx重复,行n次,列1次,调整到与A相同大小
B=(A-mi)./(mx-mi)*(new_mx-new_mi)+new_mi; % ./的含义是将两个矩阵所有相同位置的元素相除fprintf("\n经过最小最大规范化后:"); B
Matlab也有现成的mapminmax()函数直接实现最小-最大规范化:
B1=mapminmax(A')'; % 每列规范化到[-1,1]
B2=mapminmax(A',0,1)'; % 每列规范化到[0,1]
解释一下:
mapminmax()函数,默认按行最小最大规范化到[-1,1]。- 由于默认是按行,如果要按列规范化,传参时需将A进行转置,将
mapminmax()函数返回的结果再转置一下即可。 B2=mapminmax(A',0,1)',后面加上两个参数表示新区间的左右端点。
代码运行结果
输入的新区间范围为[0,1]:
原数据:
A =78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571请输入需要映射到的新区间。输入格式示例:[0,1]
[0,1]经过最小最大规范化后:
B =0.0744 0.9373 0.9235 1.00000.6198 0 0 0.85090.2149 0.1196 0.8133 00 1.0000 1.0000 0.56371.0000 0.9423 0.9967 0.80410.2645 0.8386 0.8150 0.90930.6364 0.8470 0.7862 0.9296
2.零-均值规范化
clear;clc;%% 数据存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-repmat(A_mean,n,1))./repmat(A_std,n,1);fprintf("原数据:"); A
fprintf("经过零均值规范化后:"); B
Matlab也有现成的zscore()函数直接实现零-均值规范化:
[B,A_mean,A_std]=zscore(A); % 返回按列进行零均值规范化后的矩阵、每列均值、每列标准差
B=zscore(A); % 只返回按列进行零均值规范化后的矩阵
代码运行结果
原数据:
A =78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571经过零均值规范化后:
B =-0.9054 0.6359 0.4645 0.79810.6047 -1.5877 -2.1932 0.3694-0.5164 -1.3040 0.1474 -2.0783-1.1113 0.7846 0.6846 -0.45691.6571 0.6478 0.6752 0.2348-0.3791 0.4018 0.1521 0.53730.6504 0.4216 0.0693 0.5956
3.小数定标规范化
clear;clc;%% 数据存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];mx=max(abs(A)); % 求每列绝对值最大的数mx
len=floor(log10(mx))+1; % 求绝对值最大的数的位数len
B=A./(10.^len); % 按列将A中每个元素除以相同的10^lenfprintf("原数据:"); A
fprintf("经过小数定标规范化后:"); B
代码运行结果
原数据:
A =78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571经过小数定标规范化后:
B =0.0780 0.5210 0.6020 0.28630.1440 -0.6000 -0.5210 0.22450.0950 -0.4570 0.4680 -0.12830.0690 0.5960 0.6950 0.10540.1900 0.5270 0.6910 0.20510.1010 0.4030 0.4700 0.24870.1460 0.4130 0.4350 0.2571
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
