python大量数据去重
python大量数据去重
实现功能:实现excel表中筛选重复项,对重复项排序取第一个保留。由于excel表处理大批量数据的时候耗时比较久,且容易卡死,十几万的数据便需要几十个小时,该脚本可以在几分钟内快速处理完并一次性输出数据,有效减少耗时及人力。供参考。
# -*- coding:utf-8 -*-# 导入pandas包并重命名为pd
import pandas as pd# 读取Excel中Sheet1中的数据,并且导出
data = pd.DataFrame(pd.read_excel('./excel/input.xlsx', 'Sheet1'))
# 查看读取数据内容
print("读取记录:%s条"%len(data))
repeat_flag = data.duplicated(subset='Column10',keep=False)# print(repeat_flag)
no_rep_data=data[repeat_flag==False]
rep_data=data[repeat_flag==True]
print("重复记录:%s条"%len(rep_data))
rep_data_sort = rep_data.sort_values(axis=0,ascending=True,by=["Column2"])
rep_data_rst=rep_data_sort.drop_duplicates(subset='Column10',keep='first')
result=pd.concat([no_rep_data,rep_data_rst],axis=0)
print("输出记录:%s条"%len(result))
result.to_excel('./excel/output.xlsx',index=False)
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
