6. 批量处理分析数据

本文介绍了一种使用Python批量处理多个Excel文件的方法,通过计算各品牌在特定时间段内的销售额,筛选并汇总销售额最高的前五个品牌及其销售额。此过程涉及数据加载、计算销售额、分组汇总及结果呈现,旨在简化复杂数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需求:有20个品牌共生产了127个类目的产品,筛选出近一年销售额总额TOP5的品牌以及对应的销售额。

思路:先做第一个然后如法炮制将结果汇总即可。

数据信息如下:
在这里插入图片描述
加载数据:
在这里插入图片描述
接着,是要汇总不同品牌在这个细分行业下的销售额,我们要汇总的是各品牌近一年(2018年9月-2019年8月)的销售额,先看看日期是否正确:
在这里插入图片描述
每个品牌每个月份销售额计算如下:
在这里插入图片描述
按照品牌分组计算销售额总和前五的品牌:
在这里插入图片描述
这里有个细节,最终要汇总的是所有细分行业的销售额top5,给所属类别添加标签。
在这里插入图片描述
最终最终结果:

import time
start = time.time()
result = pd.DataFrame()
for name in os.listdir():
    df = pd.read_excel(name)
    df['销售额']= df['访客数']* df['转化率']*df['客单价']
    df_sum = df.groupby('品牌',)['销售额'].sum().reset_index()
    df_sum['类目'] = name.replace(".xlsx","")
    result = pd.concat([result,df_sum])
final = result.groupby('品牌')['销售额'].sum().reset_index().sort_values('销售额',ascending=False)
final.head()

在这里插入图片描述
看起来很奇怪的销售额,是pandas自作主张把实际销售额变成了 科学记数法 形式来展示,要还原数值,需要更改一下原始的设置:在这里插入图片描述
在这里插入图片描述

总结

本文以一个简单又复杂的场景切入,简单是需求本身非常简单,而复杂则是基础数据涉及到的表格多而杂。代码和逻辑本身浅显易懂,主要为了抛出一块砖,敲开批量处理表格的思维藩篱,以引出同志们实践中,在合适场景下用Python来化繁为简的玉。核心是分析出逻辑思维然后逐步细化

参考

提取码:7kyt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SoWhat1412

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值