简介
Pandas(Python)中的transform函数一开始可能有点难以理解,并且大多数数据科学家不会马上使用到它。 但对于数据科学家来说,transform函数是一个用于数据清洗、转换或者生成报表的非常方便的工具,尤其是对于大量数据的处理速度上。
应用实例
考虑这样一个例子,我们有来自某商店的表格如下:某商店的销售数据
而我们希望生成一个新列,统计每个用户的平均购买额,如下:我们希望生成的表
我们起码有两种方法实现这个操作:先采用groupby计算平均并生成一个新的dataframe,再和上一个dataframe进行merge
采用transform函数
第一种方法:
import pandas as pd
# 读取数据
df=pd.read_csv(“purchase.csv”)
# 1.生成新的dataframe,计算mean
mean_purchase =df.groupby('User_ID')["Purchase"].mean().rename("User_mean").reset_index()
# 2.和上一步的dataframe合并
df_1 = df.merge(mean_purchase)
第二种方法:
# 直接使用transform函数
df["User_Mean"] = df.groupby('User_ID')["Purchase"].transform('mean')
很明显,使用transform函数非常清晰快捷地达到了我们的目标。
transform函数有多快?
至于transform函数比groupby-merge能快多少,我们可以用一个1000000行的数据来验证这个想法。
首先生成一个1000000行的数据:
import pandas as pd
import random
data = pd.DataFrame({
'C' : [random.choice(('a','b','c')) for i in range(1000000)],
'A' : [random.randint(1,10) for i in range(1000000)],
'B' : [random.randint(1,10) for i in range(1000000)]
})
然后分别计算两种方法的时间:
第一种方法:
%%timeit
data.groupby('C')["A"].mean()
mean =data.groupby('C')["A"].mean().rename("N").reset_index()
df_1 = data.merge(mean)
我在anaconda的ipython里的Output为:268 ms ± 4.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
第二种方法:
%%timeit
data['N1'] = data.groupby(['C'])['A'].transform('mean')
这个得到的output为:68.4 ms ± 590 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
可以看出,具有大量数据的情况下,transform函数比groupby-merge要快得多,并且代码更加简洁清晰,不会带来中间产物(groupby-merge会产生一个中间的dataframe,如果写在一起的话会使函数嵌套层数过多)
transform和apply函数有什么区别?
我尝试了一些情景,发现这两个函数的功能有很多重叠:
df = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
# 下面两个call得到的结果相同
df.apply(lambda x: x+1)
df.transform(lambda x: x+1)
# 下面两个call得到的结果也相同
df['d']=df.transform(lambda x: x.A+x.B, axis=1)
df['d']=df.apply(lambda x: x.A+x.B, axis=1)
# 下面两个call得到的结果还是相同
df.transform([np.exp,np.sqrt])
df.apply([np.exp,np.sqrt])
transform函数的官方文档是这么介绍的:
DataFrame.transform(self,func,axis=0,*args,**kwargs)→ 'DataFrame'[source]
Call func on self producing a DataFrame with transformed values.
Produced DataFrame will have same axis length as self.
看上去和apply区别没有很大。但起码在我刚刚列举的那个场景中,transform函数是很好用的。
如果大家有其他的发现,欢迎留言探讨~