pandas基本使用

pandas基本使用

在这里插入图片描述

一、引言

Pandas 是基于 Python 的一个开源数据分析库,它提供了快速、灵活以及富有表达力的数据结构,旨在使数据清洗和分析工作变得更加简单易行。Pandas 包含了 Series 和 DataFrame 两种主要的数据结构,可以用于处理结构化数据。Pandas 广泛用于数据挖掘和数据分析,同时也非常适合处理现实世界中的数据。

二、安装与导入

1、安装 Pandas

在开始使用 Pandas 之前,需要先安装它。可以通过 pip 命令轻松安装:

pip install pandas

2、导入 Pandas

在 Python 代码中使用 Pandas 时,通常使用 pd 作为别名:

import pandas as pd

三、创建数据表

1、创建 DataFrame

DataFrame 是 Pandas 中用于数据处理和分析的主要数据结构,类似于 Excel 中的表格。可以手动创建一个 DataFrame,也可以从外部数据源如 CSV 文件、数据库等导入数据。

data = {
    'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen'],
    'Population': [21500000, 24200000, 13500000, 10700000],
    'Area': [16410, 6340, 7434, 1996]
}
df = pd.DataFrame(data)

2、查看数据

可以使用 head()tail() 方法来查看 DataFrame 的前几行或后几行数据。

print(df.head())  # 查看前五行
print(df.tail())  # 查看后五行

3、数据操作

Pandas 提供了丰富的数据操作功能,包括数据筛选、排序、分组等。

1.1、数据筛选

可以基于条件来筛选数据:

filtered_data = df[df['Population'] > 20000000]
print(filtered_data)
1.2、数据排序

可以对 DataFrame 进行排序:

sorted_data = df.sort_values(by='Population', ascending=False)
print(sorted_data)
1.3、数据分组

可以使用 groupby 方法对数据进行分组:

grouped_data = df.groupby('City')
print(grouped_data)

四、数据清洗

Pandas 在数据清洗方面也非常强大,可以轻松处理缺失值、重复值等。

1、处理缺失值

可以使用 fillna() 方法填充缺失值:

df.fillna(value=0, inplace=True)

2、删除重复值

可以使用 drop_duplicates() 方法删除重复数据:

df.drop_duplicates(inplace=True)

五、数据导出

分析完成后,可以将数据导出到 CSV 或 Excel 文件中。

1、导出到 CSV

使用 to_csv() 方法:

df.to_csv('output.csv', index=False)

2、导出到 Excel

使用 to_excel() 方法:

df.to_excel('output.xlsx', index=False)

四、总结

Pandas 是一个功能强大的数据分析工具,它提供了丰富的数据结构和操作方法,使得数据分析工作变得简单高效。无论是数据清洗、转换还是分析,Pandas 都能提供有效的解决方案。通过本教程,你已经了解了 Pandas 的基本使用方法,包括数据的创建、操作、清洗和导出。


版权声明:本博客内容为原创,转载请保留原文链接及作者信息。

参考文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值