python transform方法_transform函数（来自Python Pandas）的初步应用

最新推荐文章于 2025-07-30 21:33:20 发布

最新推荐文章于 2025-07-30 21:33:20 发布 · 9.4k 阅读

·

2

·

文章标签：

#python transform方法

本文介绍了Python Pandas库中的transform函数，它在数据清洗和转换中非常有用，尤其适用于大量数据处理。通过实例展示了如何利用transform计算每个用户平均购买额，对比了transform与groupby-merge方法的效率，结果显示transform在速度上有显著优势。同时，文章探讨了transform与apply函数的区别，强调transform在保持输出长度与输入相同方面的特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

Pandas(Python)中的transform函数一开始可能有点难以理解，并且大多数数据科学家不会马上使用到它。但对于数据科学家来说，transform函数是一个用于数据清洗、转换或者生成报表的非常方便的工具，尤其是对于大量数据的处理速度上。

应用实例

考虑这样一个例子，我们有来自某商店的表格如下：某商店的销售数据

而我们希望生成一个新列，统计每个用户的平均购买额，如下：我们希望生成的表

我们起码有两种方法实现这个操作：先采用groupby计算平均并生成一个新的dataframe，再和上一个dataframe进行merge

采用transform函数

第一种方法：

import pandas as pd

# 读取数据

df=pd.read_csv(“purchase.csv”)

# 1.生成新的dataframe，计算mean

mean_purchase =df.groupby('User_ID')["Purchase"].mean().rename("User_mean").reset_index()

# 2.和上一步的dataframe合并

df_1 = df.merge(mean_purchase)

第二种方法：

# 直接使用transform函数

df["User_Mean"] = df.groupby('User_ID')["Purchase"].transform('mean')

很明显，使用transform函数非常清晰快捷地达到了我们的目标。

transform函数有多快？

至于transform函数比groupby-merge能快多少，我们可以用一个1000000行的数据来验证这个想法。

首先生成一个1000000行的数据：

import pandas as pd

import random

data = pd.DataFrame({

'C' : [random.choice(('a','b','c')) for i in range(1000000)],

'A' : [random.randint(1,10) for i in range(1000000)],

'B' : [random.randint(1,10) for i in range(1000000)]

})

然后分别计算两种方法的时间：

第一种方法：

%%timeit

data.groupby('C')["A"].mean()

mean =data.groupby('C')["A"].mean().rename("N").reset_index()

df_1 = data.merge(mean)

我在anaconda的ipython里的Output为：268 ms ± 4.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

第二种方法：

%%timeit

data['N1'] = data.groupby(['C'])['A'].transform('mean')

这个得到的output为：68.4 ms ± 590 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

可以看出，具有大量数据的情况下，transform函数比groupby-merge要快得多，并且代码更加简洁清晰，不会带来中间产物(groupby-merge会产生一个中间的dataframe，如果写在一起的话会使函数嵌套层数过多)

transform和apply函数有什么区别？

我尝试了一些情景，发现这两个函数的功能有很多重叠：

df = pd.DataFrame({'A': range(3), 'B': range(1, 4)})

# 下面两个call得到的结果相同

df.apply(lambda x: x+1)

df.transform(lambda x: x+1)

# 下面两个call得到的结果也相同

df['d']=df.transform(lambda x: x.A+x.B, axis=1)

df['d']=df.apply(lambda x: x.A+x.B, axis=1)

# 下面两个call得到的结果还是相同

df.transform([np.exp,np.sqrt])

df.apply([np.exp,np.sqrt])

transform函数的官方文档是这么介绍的：

DataFrame.transform(self,func,axis=0,*args,**kwargs)→ 'DataFrame'[source]

Call func on self producing a DataFrame with transformed values.

Produced DataFrame will have same axis length as self.

看上去和apply区别没有很大。但起码在我刚刚列举的那个场景中，transform函数是很好用的。

如果大家有其他的发现，欢迎留言探讨~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。