python transform方法_transform函数(来自Python Pandas)的初步应用

本文介绍了Python Pandas库中的transform函数,它在数据清洗和转换中非常有用,尤其适用于大量数据处理。通过实例展示了如何利用transform计算每个用户平均购买额,对比了transform与groupby-merge方法的效率,结果显示transform在速度上有显著优势。同时,文章探讨了transform与apply函数的区别,强调transform在保持输出长度与输入相同方面的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

Pandas(Python)中的transform函数一开始可能有点难以理解,并且大多数数据科学家不会马上使用到它。 但对于数据科学家来说,transform函数是一个用于数据清洗、转换或者生成报表的非常方便的工具,尤其是对于大量数据的处理速度上。

应用实例

考虑这样一个例子,我们有来自某商店的表格如下:某商店的销售数据

而我们希望生成一个新列,统计每个用户的平均购买额,如下:我们希望生成的表

我们起码有两种方法实现这个操作:先采用groupby计算平均并生成一个新的dataframe,再和上一个dataframe进行merge

采用transform函数

第一种方法:

import pandas as pd

# 读取数据

df=pd.read_csv(“purchase.csv”)

# 1.生成新的dataframe,计算mean

mean_purchase =df.groupby('User_ID')["Purchase"].mean().rename("User_mean").reset_index()

# 2.和上一步的dataframe合并

df_1 = df.merge(mean_purchase)

第二种方法:

# 直接使用transform函数

df["User_Mean"] = df.groupby('User_ID')["Purchase"].transform('mean')

很明显,使用transform函数非常清晰快捷地达到了我们的目标。

transform函数有多快?

至于transform函数比groupby-merge能快多少,我们可以用一个1000000行的数据来验证这个想法。

首先生成一个1000000行的数据:

import pandas as pd

import random

data = pd.DataFrame({

'C' : [random.choice(('a','b','c')) for i in range(1000000)],

'A' : [random.randint(1,10) for i in range(1000000)],

'B' : [random.randint(1,10) for i in range(1000000)]

})

然后分别计算两种方法的时间:

第一种方法:

%%timeit

data.groupby('C')["A"].mean()

mean =data.groupby('C')["A"].mean().rename("N").reset_index()

df_1 = data.merge(mean)

我在anaconda的ipython里的Output为:268 ms ± 4.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

第二种方法:

%%timeit

data['N1'] = data.groupby(['C'])['A'].transform('mean')

这个得到的output为:68.4 ms ± 590 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

可以看出,具有大量数据的情况下,transform函数比groupby-merge要快得多,并且代码更加简洁清晰,不会带来中间产物(groupby-merge会产生一个中间的dataframe,如果写在一起的话会使函数嵌套层数过多)

transform和apply函数有什么区别?

我尝试了一些情景,发现这两个函数的功能有很多重叠:

df = pd.DataFrame({'A': range(3), 'B': range(1, 4)})

# 下面两个call得到的结果相同

df.apply(lambda x: x+1)

df.transform(lambda x: x+1)

# 下面两个call得到的结果也相同

df['d']=df.transform(lambda x: x.A+x.B, axis=1)

df['d']=df.apply(lambda x: x.A+x.B, axis=1)

# 下面两个call得到的结果还是相同

df.transform([np.exp,np.sqrt])

df.apply([np.exp,np.sqrt])

transform函数的官方文档是这么介绍的:

DataFrame.transform(self,func,axis=0,*args,**kwargs)→ 'DataFrame'[source]

Call func on self producing a DataFrame with transformed values.

Produced DataFrame will have same axis length as self.

看上去和apply区别没有很大。但起码在我刚刚列举的那个场景中,transform函数是很好用的。

如果大家有其他的发现,欢迎留言探讨~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值