熊猫的python小课_Python入门-Pandas练习

在使用Python的数据分析中,Pandas,Numpy、Matplotlib是三个重要的包,本文将结合医院销售数据案例着重介绍Pandas的使用。

当我们拿到一份数据时,首先应该做到的就是明确自己要分析探究的问题是什么,将问题细化在数据指标上,通过适当计算得出相应可以反映问题的指标。数据分析主要分为提出问题-理解问题-数据清理-建立模型-数据可视化五大步骤。下文将逐步按照分析步骤对医院销售数据进行分析。

一 提出问题

拿到数据之后看到各项指标后,我们想要得到以下各指标:

1.月均消费次数

2.月均消费金额

3.客单件

二 理解问题

注:1.在导入pandas包时,由于在jupyter notebook我使用的是Python3环境,所以在导 入包之前在conda里进去Python3环境并且安装pandas包 和xlrd包

2.读取Excel文件时在文件名称前添加‘r’。

上文对数据条目和类型以及数据指标的战士,让我们对数据有了初步简单的了解

三 清理数据

1.数据重命名:

2.删除缺失值:

3.数据类型转换:

(1)字符串类型转换:

(2)日期格式转换

4.数据排序

5.异常值处理

对数据进行描述统计后发现销售数量有负值,所以判断有异常值,所以选择销售数量大于0 的数据

四 建立模型

以上即为数据分析的一个简单思路,关于数据可视化制作将在后期学习中展示。。。

学习结论:

1.对数据分析的一个脉络框架有了更加清晰的理解,拿到一份数据一定要看各项数据指标,明确研究分析目的,问自己几个问题,可以在这份数据得到,然后再开始动手分析。

2.分析过程中数据清理是重中之重,没有把数据清理完毕,后面的分析就有可能出现不符合实际的结论,所以对待数据清洗工作要十分谨慎。

3.敲代码,.敲代码,.敲代码,,重要的事情说三遍,由于个人工作原因,多数时间在听课书写笔记,自己书写了两三遍,等到在电脑上实际操作时,各种小问题就出来了,所以一定要在电脑上练习,练习,练习。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部