用python进行数据分析（入门学习）

2023-09-27 23:34:45

做笔记啦！！！这几天突击了一下使用python进行数据分析，觉得还是梳理一遍比较好，不然学得快忘得也快[捂脸] 所以，今天这篇文章就主要介绍一下用python进行数据分析中常用到的三个库：numpy、pandas、matplotlib的入门使用。上课！

什么叫数据分析？

理解1：数据分析就是把隐藏在杂乱数据背后的有效信息提炼出来，总结所研究对象的内在规律。

利用数据分析可以帮助把数据的价值最大化，例如：

分析用户的消费行为

通过数据分析研究用户的消费金额、消费品类、消费时间、消费频率等等，可以帮助企业去制定一个合适的促销方案；分析促销方案的最佳实践和频次；计算各类客户的活跃度；分析各类产品的回购力度；分析产品的目标销售对象等等。

分析广告的点击率

通过数据分析可以确定出广告投放的最佳时间；制订广告方案定向投放目标人群等等。

理解2：数据分析就是利用适当的方法对大量收集来的数据进行分析，帮助人们做出判断，从而采取适当的行动。

下面进入正题，先简单介绍一下利用python进行数据分析的事先工具准备。

工具准备

——anaconda：集成环境，集成了数据分析和机器学习中所需要的全部环境。

anaconda中已经帮我们准备好了python以及数据分析常使用到的numpy、pandas、matplotlib库，也就是说，我们只需要下载安装好anaconda这个工具，其他的都不用我们操心啦！

相比起使用python搭配pycharm使用，每次需要使用到一个新库都要手动下载配置，要是在没网的情况下就更加麻烦了，所以就数据分析而言，还是使用anaconda比较方便。

在anaconda里面，还自动为我们安装了jupyter这个工具，这是一个基于浏览器的可视化开发工具，可以创建ipynb文件，做到代码随写随运行，还能很方便地在里面使用markdown做笔记，真的非常好用！

数据分析三剑客之numpy模块

介绍：numpy是python语言中做科学计算的基础库，重在数值计算，多用于在大型、多维数组上执行的数值运算。（可以把它理解为一个进行数值计算的容器）

一、numpy的创建

首先在窗口导入numpy库：

import numpy as np

使用np.array() 创建
使用plt 创建
使用np 的routines 函数创建

arr = np.array([1,2,3])

注：array数组——其中存储的数据类型必须是统一的，否则会进行强行转换。转换优先级：字符串>浮点型>整数，即如果遇到其中一个是字符串类型的，则优先将另外的数据转换为字符串类型。

再创建一个随机数组：

arr = np.random.randint(0,100,size=(5,3)) # 返回一个5行3列、元素在0-100之间的随机数组
————显示结果———————
array([[38, 69, 54],[43, 87, 75],[75, 39, 23],[67, 80, 14],[54, 84, 84]])

二、numpy的常用属性

shape
ndim
size
dtype
reshape

arr.shape # 返回数组的形状
————显示结果——————
(5, 3)arr.ndim # 返回数组的维度
————显示结果————
2arr.size # 返回数组元素的个数
————显示结果————
15arr.dtype # 返回数组的数据元素
————显示结果————
dtype('int32')

使用type()函数可查看数据的返回类型：

type(arr)
————显示结果————
numpy.ndarray

创建array数组时可以指定数组元素类型：

arr = np.array([1,2,3],dtype='int64')arr.dtype = 'uint8' # 将数组元素修改为uint8类型

三、numpy的索引和切片操作

先创建一个随机数组：

arr = np.random.randint(1,100,size=(5,6)) # 创建一个5行6列的随机数组
————显示结果————
array([[98, 62, 31, 14,  1, 54],[17, 49, 33, 36, 17, 89],[ 7, 29, 87, 36, 54, 31],[ 5, 41, 89, 39, 47, 67],[72, 30, 55, 41, 71, 29]])

array数组的取数：

arr[1] # 取出numpy数组中的下标为1的行数据（python中行标从0开始计）
————显示结果————
array([17, 49, 33, 36, 17, 89])arr[[1,3,4]] # 取出多行数据
————显示结果————
array([[17, 49, 33, 36, 17, 89],[ 5, 41, 89, 39, 47, 67],[72, 30, 55, 41, 71, 29]])

对数组进行任意行或列的切片操作：

a1 = arr[0:2] # 切出数组的前两行数据
a2 = arr[:,0:2] # 切出数组的前两列数据
————显示结果————array([[98, 62, 31, 14,  1, 54],[17, 49, 33, 36, 17, 89]])array([[98, 62],[17, 49],[ 7, 29],[ 5, 41],[72, 30]])a3 = arr[0:2,0:2] # 切出前两行的前两列
————显示结果————
array([[98, 62],[17, 49]])

对数组数据进行翻转：

arr[::-1] # 将数组的行倒置
arr[:,::-1] # 将数组的列倒置
————显示结果————
array([[72, 30, 55, 41, 71, 29],[ 5, 41, 89, 39, 47, 67],[ 7, 29, 87, 36, 54, 31],[17, 49, 33, 36, 17, 89],[98, 62, 31, 14,  1, 54]]))
array([[54,  1, 14, 31, 62, 98],[89, 17, 36, 33, 49, 17],[31, 54, 36, 87, 29,  7],[67, 47, 39, 89, 41,  5],[29, 71, 41, 55, 30, 72]])arr[::-1,::-1] # 将所有的元素倒置
————显示结果————
array([[29, 71, 41, 55, 30, 72],[67, 47, 39, 89, 41,  5],[31, 54, 36, 87, 29,  7],[89, 17, 36, 33, 49, 17],[54,  1, 14, 31, 62, 98]])

使用reshape()函数可以对数组维度变形：

arr1 = arr.reshape(30) # 将二维数组变形成一维数组
————显示结果————
array([98, 62, 31, 14,  1, 54, 17, 49, 33, 36, 17, 89,  7, 29, 87, 36, 54,31,  5, 41, 89, 39, 47, 67, 72, 30, 55, 41, 71, 29])arr2 = arr1.reshape(3,10) # 将二维数组变形为二维数组
————显示结果————
array([[98, 62, 31, 14,  1, 54, 17, 49, 33, 36],[17, 89,  7, 29, 87, 36, 54, 31,  5, 41],[89, 39, 47, 67, 72, 30, 55, 41, 71, 29]])

四、numpy的级联操作

将多个numpy数组进行横向或纵向的拼接
axis轴向的表示：在numpy的大多数函数中，axis=0表示纵向操作；axis=1表示横向操作。但是，在drop类函数中，二者相反。

注：拼接的两个数组必须维度和行列数一致。

np.concatenate((arr,arr),axis=0)
————显示结果————
array([[98, 62, 31, 14,  1, 54],[17, 49, 33, 36, 17, 89],[ 7, 29, 87, 36, 54, 31],[ 5, 41, 89, 39, 47, 67],[72, 30, 55, 41, 71, 29],[98, 62, 31, 14,  1, 54],[17, 49, 33, 36, 17, 89],[ 7, 29, 87, 36, 54, 31],[ 5, 41, 89, 39, 47, 67],[72, 30, 55, 41, 71, 29]])np.concatenate((arr,arr),axis=1)
————显示结果————
array([[98, 62, 31, 14,  1, 54, 98, 62, 31, 14,  1, 54],[17, 49, 33, 36, 17, 89, 17, 49, 33, 36, 17, 89],[ 7, 29, 87, 36, 54, 31,  7, 29, 87, 36, 54, 31],[ 5, 41, 89, 39, 47, 67,  5, 41, 89, 39, 47, 67],[72, 30, 55, 41, 71, 29, 72, 30, 55, 41, 71, 29]])

五、常用的聚合函数

sum, max, min, mean

arr.sum() # 求出数组元素之和
————显示结果————
1331arr.sum(axis=1) # 求出数组每一行元素之和；如果axis=0，则求出数组每一列元素之和
————显示结果————
array([260, 241, 244, 288, 298])# 其他聚合函数的使用方法大致相同

六、常用的数学函数

numpy提供了标准的三角函数：sin(), cos(), tan()
numpy.around(a, decimals)函数返回指定数字的四舍五入值

参数说明：a-数组；decimal-舍入的小数位数，默认值为0，如果为负，整数将四舍五入到小数点左侧的位置。

np.around(3.14,1)
————显示结果————
3.1np.around(3.14,-1)
————显示结果————
0.0np.around(6.34,-1)
————显示结果————
10.0

七、常用的统计函数

numpy.amin() 和numpy.amax()，用于计算数组中的元素沿指定轴的最小、最大值
numpy.ptp() 函数计算数组中元素最大值与最小值的差（可指定轴向）
numpy.median() 函数用于计算数组中元素的中位数
标准差std()
方差var()

np.ptp([[1,2,3],[6,9,23]],axis=0) # 返回数组中每一列元素的极差
np.ptp([[1,2,3],[6,9,23]],axis=1) # 返回数组中每一行元素的极差
————显示结果————
array([ 5, 7, 20])
array([ 2, 17])arr[1].std() # 返回数组第一行的标准差
arr[1].var() # 返回数组第一行的方差

八、矩阵相关的函数

numpy中包含了一个矩阵库numpy.matlib，该模块中的函数返回的是一个矩阵，而不是ndarray对象
numpy.matlib.identity() 函数返回给定大小的单位矩阵
行列转置
两个矩阵相乘

arr.T # xx.T 将xx数组行列转置a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
np.dot(a1,a2) # 将a1和a2两个矩阵相乘
————结果显示————
array([[3, 4],[7, 8]])

数据分析三剑客之pandas模块

为什么要学习pandas？——numpy能够帮助我们处理的是数值型的数据，pandas可以帮我们很好的处理除了数值型的其他数据。

在pandas中常用的两个类：Series、DataFrame

一、Series的用法

Series是一种类似于一维数组的对象，由下面两个部分组成：

values- 一组数据（ndarray类型）
index- 相关的数据索引标签

1、Series的创建

由列表或numpy数组创建
由字典创建

首先导入模块：

from pandas import Series
s = Series(data=[1,2,3,'four']) # 创建一个Series类的数组
————显示结果————
0       1
1       2
2       3
3    four
dtype: object

可以为Series类的数组指定显式索引，增强Series的可读性：

s = Series(data=[1,2,3,'four'],index=['a','b','c','d']) # 指定行索引为'a','b','c','d'
————结果显示————
a       1
b       2
c       3
d    four
dtype: object

由字典创建一个Series类的数组：

dic = {'语文':100,'数学':99,'英语':89}
s1 = Series(data=dic) # 字典里面的key成为Series对象里的显式行索引
————结果显示————
语文    100
数学     99
英语     89
dtype: int64s1.语文 # 返回显式索引所对应的数值
————结果显示————
100s1[0:2] # 取s1中的前两行数据
————结果显示————
语文    100
数学     99
dtype: int64

2、Series的常用属性

shape
size
index
values
dtype

s1.shape # 返回数组形状
————结果显示————
(3,)s1.size # 返回元素个数
————结果显示————
3s1.index # 返回数组索引
————结果显示————
Index(['语文', '数学', '英语'], dtype='object')s1.values # 返回元素
————结果显示————
array([100,  99,  89], dtype=int64)s1.dtype # 返回元素类型
————结果显示————
dtype('int64')

注：Series中只能存储同类型的元素。

3、Series的常用方法

head(), tail()
unique()
isnull(), notnull()
add(), sub(), mul(), div()

s2 = Series(data=np.random.randint(60,100,size=(10)))
s2.head(4) # 显示s2数组中的前4个数据，如果不指定个数，则默认为前5个
————结果显示————
0    98
1    97
2    83
3    66
dtype: int32s2.tail(4) # 显示数组中的后4个数据s2.unique() # 表示数据去重s2.isnull() # 用于判断每个元素是否为空，是返回true，否返回false
————结果显示————
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
dtype: bool

4、Series的算术运算

法则：索引一致的元素进行算术运算，不一致则补空

d1 = Series(data=[1,2,3],index=['a','b','c'])
d2 = Series(data=[1,2,3],index=['a','d','c'])
d = d1 + d2
————结果显示————
a    2.0
b    NaN
c    6.0
d    NaN
dtype: float64

二、DataFrame的用法

介绍：DataFrame是一个表格型的数据结构。DataFrame由按一定顺序排列的多列数据组成，将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

index - 行索引
columns - 列索引
values - 值

1、DataFrame的创建

ndarray创建
字典创建

首先从pandas库导入DataFrame：

from pandas import DataFrame
df = DataFrame(data=[[1,2,3],[4,5,6]]) # 用ndarray的形式创建
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
dic = {'name':['zhangsan','lisi','wangwu'],'salary':[100,2000,3000]}
df = DataFrame(data=dic) # 用字典的形式创建
————结果显示————name	salary
0	zhangsan 100
1	lisi	2000
2	wangwu	3000

可以为DataFrame表格指定行索引：

df = DataFrame(data=dic,index=['a','b','c'])
————结果显示————name	salary
a	zhangsan 100
b	lisi	2000
c	wang	3000
# 指定列索引时同理，添加columns=['a','b','c','d']

2、DataFrame的属性

values
columns
index
shape

df.values # 返回表格元素
————结果显示————
array([['zhangsan', 100],['lisi', 2000],['wang', 3000]], dtype=object)df.columns # 返回表格的列
————结果显示————
Index(['name', 'salary'], dtype='object')df.index # 返回表格的行索引
————结果显示————
Index(['a', 'b', 'c'], dtype='object')df.shape # 返回表格的形状
————结果显示————
(3, 2)

3、DataFrame的索引操作

取列元素
取行元素
取元素
iloc - 隐式索引；loc - 显式索引

ddf = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])
————结果显示————a	b	c	d
0	70	77	97	88
1	67	67	80	60
2	95	69	79	99
3	77	84	83	68
4	94	85	70	68
5	64	78	86	86
6	83	62	98	70
7	92	67	60	65ddf['a'] # 取指定单列值，如果ddf有显式的索引，通过索引机制取行或取列的时候只可以使用显示索引
————结果显示————
0    70
1    67
2    95
3    77
4    94
5    64
6    83
7    92
Name: a, dtype: int32ddf[['a','c']] # 取指定的多列值
————结果显示————a	c
0	70	97
1	67	80
2	95	79
3	77	83
4	94	70
5	64	86
6	83	98
7	92	60ddf.iloc[0] # 通过隐式索引取指定单行值
————结果显示————
a    70
b    77
c    97
d    88
Name: 0, dtype: int32ddf.iloc[[0,3,5]] # 取多行值
————结果显示————a	b	c	d
0	70	77	97	88
3	77	84	83	68
5	64	78	86	86ddf.loc[[1,3,5],'b'] # 取指定位置的元素值
————结果显示————
1    67
3    84
5    78
Name: b, dtype: int32

4、DataFrame的切片操作

对行进行切片
对列进行切片

ddf[0:2] # 切前两行
————结果显示————a	b	c	d
0	70	77	97	88
1	67	67	80	60ddf.iloc[:,0:2] # 切前两列
————结果显示————
a	b
0	70	77
1	67	67
2	95	69
3	77	84
4	94	85
5	64	78
6	83	62
7	92	67

5、DataFrame的运算

同Series一样的规则

三、其他

转换数据类型为时间序列类型
设置某列作为源数据的行索引

首先导入pandas库：

import pandas as pd
dic = {'time':['2020-10-10','2020-11-23','2021-02-12'],'temp':[33,31,30]}
ddf = DataFrame(data=dic) # 创建一个DataFrame表格
————结果显示————time	temp
0	2020-10-10	33
1	2020-11-23	31
2	2021-02-12	30ddf['time'].dtype # 查看time列的类型
————结果显示————
dtype('O')pd.to_datetime(ddf['time]) # 将time列的数据类型转换为时间序列类型
————结果显示————
dtype('

 
 
至于matplotlib，其实我还没学......先记到这吧，之后我学完了再上来更新~ 
Python经验分享 
学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！ 
Python学习路线 
这里把Python常用的技术点做了整理，有各个领域的知识点汇总，可以按照上面的知识点找对应的学习资源。
 
学习软件 
Python常用的开发软件，会给大家节省很多时间。
 
学习视频 
编程学习一定要多多看视频，书籍和视频结合起来学习才能事半功倍。
 
100道练习题 
 
实战案例 
光学理论是没用的，学习编程切忌纸上谈兵，一定要动手实操，将自己学到的知识运用到实际当中。

 最后祝大家天天进步！！ 
上面这份完整版的Python全套学习资料已经上传至CSDN官方，朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。 
 
 
 
                        
                        
本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！



                    



                    

    收藏
    



                    
    
        
        标签：技术
        
    

    
        
                
            上一篇 >
            Python数据分析指南(全)
        
                
            下一篇 >
            线性表文档之顺序表
        
                
    



                    
    
        
        
            相关文章
        
                
            Duilib中list控件支持ctrl和shif多行选中的实现
        
                
            [ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif
        
                
            win10系统 微软输入法 于eclipse ctrl+shif+f冲突间接处理办法
        
                
            Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif
        
                
            读LDD3，内存映射与DMA--PAGE_SHIF…
        
                
            VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】
        
                
            更换iBus五笔的左与右Shif
        
                
            sublime ctrl+shif+f 没用解决办法
        
                
            idea 对 ctrl + z 的撤销 是 ctrl + shif + z
        
                
            计算机最早的设计师应用于,计算机应用基础选择题doc.doc
        
                
            win10自带截图神器：Win+Shift+S
        
                
            Python基础之文件目录操作
        
                
            python简述目录_Python基础之文件目录操作(示例代码)
        
                
            tp5 如何做数据采集
        
                
            任务2-7(服务器字体+阿里巴巴矢量库)
        
                
            html标签（1)：h1~h6,p,br,pre,hr
        
                
            TI 电量计介绍与芯片选型指南
        
                
            几款TI电源芯片简介
        
                
            TI DSP芯片C2000系列读取FLASH数据
        
                
            德州仪器(Ti)平台嵌入式开发基础
        
                
            TI三相电机智能栅极驱动芯片特点分类
        
                
            省选模拟（12.08） T3 圈圈圈圈圈圈圈圈
        
                
            Hadoop生态圈技术栈（上）
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询
        
                
            小猿圈之Linux下Mysql 操作命令
        
                
            大数据Hadoop生态圈常用面试题
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
        
                
            备战Noip2018模拟赛11（B组）T3 Monogatari 物语
        
                
            【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码
        
                
            NYOJ 78 圈水池
        
                
            递归问题 跑道 汽车 绕圈问题 Python实现
        
                
            Hadoop生态圈（三）：MapReduce



        
            


            

    
        内容推荐
    
    
                
            
                1
            
            
                大厂出品！保姆级教程帮你掌握「用户体验要素」
            
        
                
            
                2
            
            
                大厂实战案例！设计师如何助力京东快递业务增长？
            
        
                
            
                3
            
            
                总监干货！5个常见的UI设计规范创建误区
            
        
                
            
                4
            
            
                数据库管理利器——Navicat Premium v17.0.4学习版(Windows+MacOS+Linux)
            
        
                
            
                5
            
            
                进阶必学！快速掌握10种国际主流设计模型
            
        
                
            
                6
            
            
                春节期间，10个大厂的产品细节走心设计
            
        
                
            
                7
            
            
                如何帮助用户度过新人期？来看雪球APP的实战总结！
            
        
                
            
                8
            
            
                Sketch 95.3最新版下载 (Sketch矢量绘图应用软件)
            
        
                
            
                9
            
            
                Axure RP 9 最新正式版安装软件与汉化语言包下载(2023年3月30日更新)
            
        
                
            
                10
            
            
                嘘！SaaS产品的差异化设计细节，一般人我不告诉他
            
        
            




    





    
    
        最新更新
    
    
        
                        
                [产品经理]
                3分钟绘制流程图！这个AI+绘图工具的神仙组合，学完老板直呼内行
            
                        
                [产品经理]
                商业潜规则：打败你的不是AI，而是人性
            
                        
                [产品设计]
                DeepSeek+智能派单系统的实践分享
            
                        
                [产品经理]
                一文读懂本年实际损益借(贷)方发生额
            
                        
                [创业学院]
                大客户 vs 中小企业：需求竟天差地别？以企业培训数字化为例
            
                        
                [产品经理]
                不要将员工的“猴子”背到自己身上：职场管理中的权责划分
            
                        
                [产品经理]
                人工智能的三层架构：从应用层到基础服务层，解密智能革命
            
                        
                [产品设计]
                一文讲清楚iOS的SKAN4.0
            
                    
    
    



    
        热门标签
    
    
        
                         数量
                         AI技术趋势
                         用户角色
                         心智游移
                         自然生态系统
                         会员权益
                         AirDrop
                         hashmap
                         小龙虾
                         焦虑
                         危机处理
                         发展
                         微信群折叠
                         toast
                         测评新算法
                         改版
                         wireshark
                         投放方式
                         音频播放动效
                         timer
                         女性商业
                         古典自媒体
                         海外博主
                         repeater
                         转账
                         万能钥匙
                         秋招
                         快服务
                         个人演讲
                         客户共识