【学习笔记】pandas_缺失数据

本文详细介绍Pandas库中处理缺失数据的方法,包括缺失值的识别、统计、填充与剔除,以及各种缺失符号的区别。深入讲解fillna和interpolate函数的使用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习内容是github上的Joyful-Pandas的第六章——缺少数据

github链接为: https://github.com/datawhalechina/joyful-pandas

首先学习到的是缺少观测及其类型
先导入测试用到的数据。
df = pd.read_csv('data/table_missing.csv')
df.head()

在这里插入图片描述

缺失信息包括 isna()notna() 两个方法。
df['Physics'].isna().head()

在这里插入图片描述
然后可以用求和看有多少个缺失值或者非缺失值。

df.isna().sum()

在这里插入图片描述

然后有三种缺失符号,分别是np.nan,None,NaT

其中的None可能会比较容易理解,跟C++语言的NULL,JAVA的null应该是一个意思。而nan就有意思了。它的原意是 Not a number。不是一个数,NaT跟nan类似,只不过是时间序列的缺失值。

不同点 None可以跟自己比较大小并且是相等的,而另外两个不相等。在这里插入图片描述

二、缺失数据的运算与分组

1、加法和乘法规则

使用加法时,缺失值为0。如下图
在这里插入图片描述
使用乘法时,缺失值为1。
在这里插入图片描述

三、填充与剔除

fillna——值填充,意思就是直接填充进去一个值。不过又有前向和后向的方法,method='ffill’的时候为前向,method=‘backfill’的时候为后向填充。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、插值

默认状态下,interpolate会对缺失的值进行线性插值
在这里插入图片描述
不过此时的插值是与索引无关的,如果想要和索引要关,method=‘index’。
在这里插入图片描述
当然还有很多高级的插值方法,因为博主刚入门,不太理解,就不写了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值