scikit-learn中离散特征二值化

2023-10-24 03:46:16

scikit-learn中离散特征二值化

最近在看西瓜书用scikit-learn中的CART去跑西瓜数据集，结果遇到麻烦了，西瓜数据集特征不光离散的，而且还是中文的。。（PS：其实我们的数据集中特征值常常是离散的类别，这个很正常），但在scikit-learn中不支持这种离散的类别特征作为输入，这点不得不说weka的人性化，直接输入原始数据集就可以了。。为了解决这个问题，就要用到独热编码（One-Hot Encoding），下面来说下这个One-Hot Encoding：

One-Hot Encoding

关于one-hot编码的定义，简单的说就是用n位bit（0和1）表示n个状态，并且任意时候只有一位有效数字。直接看例子，我觉得举例子比较好理解。用西瓜数据集（只选了部分样本）举例子吧，西瓜数据集如下：

就拿“色泽”这个属性来看看one-hot encoding，显然色泽有“青绿，乌黑，浅白”三个不同的离散值（类别），那么就需要三位二进制数来表示这个特征，则边玩码后应该是这样的:

来讲下上图中数据是怎样产生的，即one-hot encoding是怎样编码的。显然“色泽”这个属性的三个离散值按照[乌黑，浅白，青绿]排列的，来看第一个样本（图中index为0的）色泽=青绿，因此和[乌黑，浅白，青绿]一比对，对应的编码就是001，依次类推2,3,4,5个样本色泽这个属性的编码分为为100,100,001,010。其实说白了就是把一个属性变成了“三个”，因为模型才不关心你几个特征呢，它只管你给他他能计算的，能挖掘出信息的。这就是one-hot编码的大概内容。下面回到scikit-learn中的实现：自然而言想到sklearn的的Preprocessing模块中的 OneHotEncoder函数，这个函数的具体细节大家去看文档链接。但这个函数最坑的地方在于没法对字符串类型的变量进行编码。。这个是最让人无语的地方，不知道后续的更新版本中会不会支持字符串类型的变量。下面只能造个例子来展示下OneHotEncoder怎么用：

造的数据集

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelBinarizer
from sklearn.feature_extraction import DictVectorizerdata = pd.DataFrame({'name':['Tom','Andy','David'],'age':[20,21,22],'height':[175,165,180]})
print(data)

运行结果如下：

下面使用OneHotEncoder类来对特征进行onehot编码：

#新版本不允许传入一维数组，因此传入data[['age']],sparse=False为不使用稀疏矩阵表示
arr = OneHotEncoder(sparse = False).fit_transform(data[['age']])
print(arr)

输出结果为（ OneHotEncoder会按属性排序，形成有序值，因此下面三列是20,21,22）：

讲到这个地方，要插一个插曲，也是遇到的坑，记录一下，就是当时OneHotEncoder(sparse = False).fit_transform( data['age'] )参数传的是 data['age']，然后有提示就是新版不再允许传入一维数组，一直没搞懂data['age']和data[['age']]的区别，请教石神后，方知data['age']返回的是series，data[['age']]因为传入的是列表['age']所以返回的是dataframe，知道这点区别，为了更加弄明白本质区别是什么，做了实验，相信看完下面的对比，还有和我一样不明白的同学能够有一个清晰的认识：

一目了然，转成列表后，一个是一维的一个是二维的。回到正题，还可以传入多个特征一次性处理完：

arr = OneHotEncoder(sparse = False).fit_transform(data[['age','height']])
print(arr)

结果为（注意：列名20 21.....是我为了方便大家看加的，并不是实际输出结果）：

LabelBinarizer()

OneHotEncoder()千般好万般好，唯一的不好就是这货没法处理字符串类型的特征值。。比如我们处理‘name’属性就会报错。。提示不能处理字符串类型。。没办法生活还得继续啊，只能曲线救国了，查看文档后发现了LabelBinarizer()类，大家看名字也能看出是干嘛的，对，就是用于类别（label）编码的，上代码：

发现完全可以解决问题，但新问题是LabelBinarizer()只能传入一维数组处理，不接受二维的，也就是说如果你想一次对多个特征处理，不能全部传入。。。博主试图用pandas的apply（）解决，但无奈水平不到家，没解决，有解决的可以在下方评论贴出，只求别太麻烦。

新大陆1(get_dummies())

经过探索发现pandas的get_dummies()函数可以完美解决问题，这个函数的功能用官方文档的话就是Convert categorical variable into dummy/indicator variables，把类别型的变量转换成dummy variables（用0和1表示类别的出现）。上代码看效果吧：

新大陆2(DictVectorizer)

翻了参考资料,发现sklearn的feature_extraction模块中提供了DictVectorizer类，即把字典向量化，采用0/1二值向量化。上代码：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 针对特征多值离散的 embedding
下一篇 > 离散值计算方法JAVA实现

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

scikit-learn中离散特征二值化

scikit-learn中离散特征二值化

相关文章