6. 批量处理分析数据

最新推荐文章于 2023-06-22 06:47:07 发布

原创最新推荐文章于 2023-06-22 06:47:07 发布 · 4.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

pandas 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种使用Python批量处理多个Excel文件的方法，通过计算各品牌在特定时间段内的销售额，筛选并汇总销售额最高的前五个品牌及其销售额。此过程涉及数据加载、计算销售额、分组汇总及结果呈现，旨在简化复杂数据处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：有20个品牌共生产了127个类目的产品，筛选出近一年销售额总额TOP5的品牌以及对应的销售额。

思路：先做第一个然后如法炮制将结果汇总即可。

数据信息如下：
在这里插入图片描述
加载数据：

接着，是要汇总不同品牌在这个细分行业下的销售额，我们要汇总的是各品牌近一年（2018年9月-2019年8月）的销售额，先看看日期是否正确：

每个品牌每个月份销售额计算如下：

按照品牌分组计算销售额总和前五的品牌：
在这里插入图片描述
这里有个细节，最终要汇总的是所有细分行业的销售额top5，给所属类别添加标签。

最终最终结果：

import time
start = time.time()
result = pd.DataFrame()
for name in os.listdir():
    df = pd.read_excel(name)
    df['销售额']= df['访客数']* df['转化率']*df['客单价']
    df_sum = df.groupby('品牌',)['销售额'].sum().reset_index()
    df_sum['类目'] = name.replace(".xlsx","")
    result = pd.concat([result,df_sum])
final = result.groupby('品牌')['销售额'].sum().reset_index().sort_values('销售额',ascending=False)
final.head()