Python数据可视化-seaborn Iris鸢尾花数据

2023-08-30 19:15:31

原文链接：http://tecdat.cn/?p=5261

首先介绍一下Iris鸢尾花数据集，内容摘自百度百科：Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类”。

导入库

读取数据

数据字段介绍：

sepal_length:花萼长度，单位cm
sepal_width:花萼宽度，单位cm
petal_length:花瓣长度，单位cm
petal_width:花瓣宽度，单位cm
种类:setosa(山鸢尾)，versicolor(杂色鸢尾)，virginica(弗吉尼亚鸢尾)

在做categorical visualization的时候，seaborn给出了基础的stripplot & swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。

StripplotStripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。

我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化

plt.show()

上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下，stripplot中的点会重叠，使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot)，仅沿着类别坐标轴的方向去随机微调整点的位置，显示出分布情况。

Swarmplot另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法，在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。

plt.subplot(1,2,1)sns.swarmplot(x='Species',y='Petal.Length',data=iris)plt.show()

Boxplot箱形图，主要包含六个数据节点，将一组数据从大到小排列，分别计算出上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，还有异常值。下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。

fig = plt.figure(1,figsize=(12,12))plt.show()

Violinplot

Violinplot相当于结合了箱形图与核密度图，更好地展现出数据的量化形态。展示如下：

plt.figure(1,figsize=(12,12))for i in range(4):plt.show()

Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。

与此同时，也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下：

In [8]:plt.figure(1,figsize=(12,12))plt.title(str(var[i])+ ' in Iris species')plt.show()

BarplotBarplot主要是展现在分类中的quantitative变量的平均值情况，并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下：

Countplot如果想知道在每个类别下面有多少个观察值，用countplot就可以，相当于是做一个observation counts，用鸢尾花数据集展示如下：

PointplotPointplot相当于是对barplot做了一个横向延伸，一方面，用point estimate和confidence level去展示barplot的内容；另一方面，当每一个主类别下面有更细分的sub-category的时候，pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下：

FactorplotFactorplot可以说是seaborn做category visualization的精髓，前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。

In [12]:g.map(sns.violinplot,palette='pastel')plt.show()

附上各plot function的API，今后将会对API中的参数结合tutorial讲讲，如何做出更好的可视化效果。更新ing

seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,ata=None, order=None, hue_order=None,bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box',split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None,saturation=0.75, ax=None, **kwargs)seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True,

小结

seaborn是一个很棒的可视化库，尤其是当数据维度很大的时候，seaborn可以让我们用最少的代码去绘制一些描述性统计的图，便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记，这次整理的内容是关于category visualization。下次将会选取其他数据集去整理关于distribution visualization的内容。

点击标题查阅往期内容

R语言生存分析可视化分析

通过SAS网络分析对人口迁移进行可视化分析

R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

R语言实现拟合神经网络预测和结果可视化

python主题建模可视化LDA和T-SNE交互式可视化

R语言动态图可视化：如何、创建具有精美动画的图

Tableau制作地图可视化和树形图、条形图

Tableau 数据可视化：探索性图形分析新生儿死亡率数据

使用R语言对进行空间数据可视化

基于matlab的Lorenz系统仿真可视化

如何用r语言制作交互可视化报告图表

R语言无监督学习：PCA主成分分析可视化

更多内容，请点击左下角“阅读原文”查看

关注我们

案例精选、技术干货第一时间与您分享

长按二维码加关注

更多内容，请点击左下角“阅读原文”查看

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python数据可视化-seaborn Iris鸢尾花数据

原文链接：http://tecdat.cn/?p=5261

导入库

读取数据

Violinplot

小结

相关文章