pandas 字符串处理方法介绍

本文示例代码及文件已上传至Github仓库:https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

在日常开展数据分析的过程中,我们经常需要对字符串类型数据进行处理,此类过程往往都比较繁琐,而pandas作为表格数据分析利器,其内置的基于Series.str访问器的诸多针对字符串进行处理的方法,以及一些top-level级的内置函数,则可以帮助我们大大提升字符串型数据处理的效率。

本文我就将带大家学习pandas中常用的一些高效字符串处理方法,提升日常数据处理分析效率😋:

2 pandas常用字符串处理方法

pandas中的常用字符串处理方法,可分为以下几类:

2.1 拼接合成类方法

这一类方法主要是基于原有的Series数据,按照一定的规则,利用拼接或映射等方法合成出新的Series,主要有:

2.1.1 利用join()方法按照指定连接符进行字符串连接

当原有的Series中每个元素均为列表,且列表中元素均为字符串时,就可以利用str.join()来将每个列表按照指定的连接符进行连接,主要参数有:

  • 「sep:」 str型,必选,用于设置连接符

它除了可以简化我们常规使用apply()配合'连接符'.join(列表)实现的等价过程之外,还可以在列表中包含非字符型元素时自动跳过此次拼接返回缺失值,譬如下面的例子:

s = pd.Series([
    ['a', 'b', 'c'],
    [1, 'a', 'b'],
    list('pandas')
])

s.str.join('-')

图片

2.1.2 利用cat()方法进行字符串拼接

当需要对整个序列进行拼接,或者将多个序列按位置进行元素级拼接时,就可以使用str.cat()方法来加速这个过程,其主要参数有:

  • 「others:」 序列型,可选,用于传入待进行按位置元素级拼接的字符串序列对象

  • 「sep:」 str型,可选,用于设置连接符,默认为''

    <
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔都飘雪

您的1毛奖励是我创作的源源动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值