python数据分析-数据处理

2023-11-24 12:42:09

数据导入：

 导入csv
from pandas import read_csv;df = read_csv('D://PA//4.1//1.csv')
导入文本，要转成UTF-8无BOM格式：
from pandas import read_table;df = read_table('D://PA//4.1//2.txt')
导入excle
from pandas import read_excel;df = read_excel('C:/PA/4.1/3.xlsx')

View Code

数据导出：

数据的导出：

from pandas import DataFrame;df = DataFrame({'age': [21, 22, 23], 'name': ['KEN', 'John', 'JIMI']
});df.to_csv("c:/PA/4.1/df.csv");#不导入序号
df.to_csv("c:/PA/4.1/df.csv", index=False);

View Code

重复值处理：

from pandas import read_csv;df = read_csv('C:/PA/4.1/data.csv')newDF = df.drop_duplicates();

View Code

缺失值处理：

from pandas import read_csv;df = read_csv('C:/PA/4.4/data.csv')newDF = df.dropna();

View Code

空格值处理：

from pandas import read_csv;df = read_csv('C:/PA/4.5/data.csv')newDF = df["name"].str.strip();
df["name"]=newDF;

View Code

字段抽取：

astype(str) 转换成字符型数据，以便于处理。

from pandas import read_csv;df = read_csv('C:/PA/4.6/data.csv')df["tel"]=df["tel"].astype(str);bands=df["tel"].str.slice(0,3);areas=df["tel"].str.slice(3,7);numbs=df["tel"].str.slice(7,11);

View Code

字段拆分：

from pandas import read_csv;
df=read_csv("C:/PA/4.7/data.csv");newDF=df["name"].str.split(" ",1,True);
newDF.columns=["band","name"];

View Code

记录抽取：

import pandas;
from pandas import read_csv;
df=read_csv("C:/PA/4.8/data.csv",sep="|");
df[df.comments>1000];
df[df.comments.between(1000,10000)];
df[pandas.isnull(df.title)];
df[df.title.str.contains("台电",na=False)];
df[(df.comments>=1000)&(df.comments<=10000)]

View Code

随机抽样：

import numpy;
from pandas import read_csv;
df=read_csv("C:/PA/4.9/data.csv");
r=numpy.random.randint(0,10,3);
df.loc[r,:];

View Code

记录合并：

import pandas;
from pandas import read_csv;df1=read_csv("C:/PA/4.10/data1.csv",sep="|");
df2=read_csv("C:/PA/4.10/data2.csv",sep="|");
df3=read_csv("C:/PA/4.10/data3.csv",sep="|");df=pandas.concat([df1,df2,df3])

View Code

字段合并：

from pandas import read_csv;df = read_csv("C:/PA/4.11/data.csv",sep=" ", names=['band', 'area', 'num']
);df = df.astype(str);tel = df['band'] + df['area'] + df['num']

View Code

字段匹配：

import pandas;
from pandas import read_csv;
item=read_csv("C:/PA/4.12/data1.csv",sep="|",names=["id","comments","title"]
);
prices=read_csv("C:/PA/4.12/data1.csv",sep="|",names=["id","oldprice","newprice"])
itemprices=pandas.merge(item,prices,left_on="id",right_on="id");

View Code

简单计算：

import pandas;
from pandas import read_csv;df=read_csv("C:/PA/4.13/data.csv",sep="|");
result=df.price*df.num
df["sum"]=result

View Code

数据标准化：

import pandas;
from pandas import read_csv;df=read_csv("C:/PA/4.14/data.csv");scale=(df.score-df.score.min())/(df.score.max()-df.score.min())

View Code

数据分组：

import pandas;
from pandas import read_csv;df = read_csv("C:\\PA\\4.15\\data.csv", sep='|');bins = [min(df.cost)-1, 20, 40, 60, 80, 100, max(df.cost)+1];labels = ['20以下', '20到40', '40到60', '60到80', '80到100', '100以上'];pandas.cut(df.cost, bins)pandas.cut(df.cost, bins, right=False)pandas.cut(df.cost, bins, right=False, labels=labels)

View Code

日期转换：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");

View Code

日期格式化：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");
df_dt_str=df_dt.apply(lambda x:datatime.strftime(x,"%d-%m-%Y"))

View Code

日期抽取：

import pandas;
from pandas import read_csv;
from pandas import to_datetime;df = read_csv("C:\\PA\\4.18\\data.csv",encoding="utf-8");
df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");
df_dt.dt.year;
df_dt.dt.second;
df_dt.dt.minute;
df_dt.dt.hour;
df_dt.dt.day;
df_dt.dt.month;
df_dt.dt.weekday;

View Code

转载于:https://www.cnblogs.com/qiuyuyu/p/9144034.html

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 吞吐？带宽？傻傻分不清楚
下一篇 > PyTorch学习笔记-5.PyTorch可视化

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python数据分析-数据处理

数据导入：

数据导出：

数据的导出：

重复值处理：

缺失值处理：

空格值处理：

字段抽取：

字段拆分：

记录抽取：

随机抽样：

记录合并 ：

字段合并：

字段匹配：

简单计算：

数据标准化：

数据分组：

日期转换：

日期格式化：

日期抽取：

相关文章

记录合并：