python数据分析自动化办公实战(二）：批量输入输出excel文件

2023-10-24 04:01:46

此篇起皆为实战总结，以代码+注释+相关总结为主，基础语法请自行学习，注意各种数据类型间的不同就好。

任务目标：给定一年中每个月每一笔订单的详细信息（csv），需要输出每个月的客户名称、业务类型、收入、成本并计算毛利（excel）
目标拆解：获取文件夹下所有csv文件的文件路径，依照文件路径读取csv文件，摘取特定字段并做简单计算，输出excel
用到的库：os，sys，numpy，pandas，csv，xlwt

代码展示：

import os,sys
import numpy as np
import pandas as pd
import openpyxl
import csv
import xlwt#遍历文件夹,输出文件夹下所有的文件路径及名称
def walk(path):if not os.path.exists(path):return -1for root,dirs,names in os.walk(path):for filename in names:if os.path.splitext(filename)[1] == '.csv':doc = os.path.join(root,filename)print(doc)csvlist.append(doc)#确定当前所在的文件夹路径
csvlist = []
cur_path = os.getcwd()
walk(cur_path)#读取csv,选择特定字段,输出为xlsx
for doc in csvlist:df = pd.read_csv(doc,encoding = "gbk")df[["月份","客户名称","业务类型","收入不含税","成本"]]df["毛利"] = df.apply(lambda df:df["收入不含税"]-df["成本"],axis=1)excel_name = os.path.splitext(doc)[0] + "-整理后.xlsx"columns = {"月份","客户名称""业务类型",,"收入不含税","成本","毛利"}df.to_excel(excel_writer = excel_name,sheet_name = "商家损益数据",index = False,columns=columns)

接下来开始拆解一下代码：
首先是导入所需要的库，需要什么导入什么即可；
第二部分是通过walk（）函数遍历文件夹并搜寻相关文件，将文件名输入到列表里；
在此其中有些知识补充如下：

 for root,dirs,names in os.walk(path):#root返回根目录，dirs返回路径，names返回文件名，有dirs在可以保证遍历每个子文件夹for filename in names:if os.path.splitext(filename)[1] == '.csv':#此项将文件名拆成了前后两个部分，由于python的索引从0开始,截断文件名后,索引为0的部分是名称,1的部分是扩展名；#扩展名由最后一个“.”后决定,在此之前的都是文件名，“123.456.csv.xlsx”的扩展名是“.xlsx”doc = os.path.join(root,filename)#doc是含文件路径和文件名在的绝对路径，filename只是文件名print(doc)csvlist.append(doc)

第三部分是调用函数读取文件路径；

csvlist = []
#建立一个列表对象，用于存储文件名
cur_path = os.getcwd()
#os.getcwd()是获取当前文件所在的文件路径

第四部分是通过for循环实现依次读取批量操作：

for doc in csvlist:df = pd.read_csv(doc,encoding = "gbk")#函数详情见pandas官方说明文档，主要编码格式有utf-8、gbk、gb2312等，可以在此指定读取的列的数据类型；#读取excel文件时函数为pd.read_excel(excel_name,sheet_name,encoding,usecols=use_cols)df[["月份","客户名称","业务类型","收入不含税","成本"]]#摘取特定列，可以通过df[["客户"]=="a"][["收入"]]等形式同时做行列筛选df["毛利"] = df.apply(lambda df:df["收入不含税"]-df["成本"],axis=1)#添加新列，使用apply函数进行即时运算赋值，axis=1表示列间计算，axis=0为行计算excel_name = os.path.splitext(doc)[0] + "-整理后.xlsx"#规定输出的文件路径和名称，偷懒所以以原文件所在的路径、修改文件名输出columns = {"月份","业务类型","客户名称","收入不含税","成本","毛利"}#指定输出的列及其顺序df.to_excel(excel_writer = excel_name,sheet_name = "sheet1",index = False,columns=columns)

一种可以快速合并csv文件的方法,需要用到glob库:

import glob
import pandas as pdcsv_list = glob.glob('*.csv')for i in csv_list:fr = open(i,'rb').read()with open('result.csv','ab') as f:f.write(fr)df = pd.read_csv("result.csv",encoding="gbk")
df.drop_duplicates(keep=False, inplace=False)
#去除多余的标题行

利用tkinter库选取文件路径：这个库在新版的python中默认集成

import tkinter
from tkinter import filedialog#选择所要上传数据所在的文件夹
root = tkinter.Tk()
File_Path=tkinter.filedialog.askdirectory()
root.destroy()
#选取子文件夹
path_1 = os.path.join(File_Path, '订单文件夹')
list_order = os.listdir(path_1)  for FileName in list_order:       #遍历文件夹所有文件  Data=pd.read_excel(os.path.join(path_1,FileName))

以上，其余总结等后续补充。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > vue实现点击选中，其他的不选中
下一篇 > 用 Python 让 Excel 表格合并飞起来

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python数据分析自动化办公实战(二）：批量输入输出excel文件

相关文章