pandas基本使用

原创已于 2025-01-08 14:39:38 修改 · 999 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2024-09-09 08:49:17 首次发布

文章目录

pandas基本使用

pandas基本使用

在这里插入图片描述

一、引言

Pandas 是基于 Python 的一个开源数据分析库，它提供了快速、灵活以及富有表达力的数据结构，旨在使数据清洗和分析工作变得更加简单易行。Pandas 包含了 Series 和 DataFrame 两种主要的数据结构，可以用于处理结构化数据。Pandas 广泛用于数据挖掘和数据分析，同时也非常适合处理现实世界中的数据。

二、安装与导入

1、安装 Pandas

在开始使用 Pandas 之前，需要先安装它。可以通过 pip 命令轻松安装：

pip install pandas

2、导入 Pandas

在 Python 代码中使用 Pandas 时，通常使用 pd 作为别名：

import pandas as pd

三、创建数据表

1、创建 DataFrame

DataFrame 是 Pandas 中用于数据处理和分析的主要数据结构，类似于 Excel 中的表格。可以手动创建一个 DataFrame，也可以从外部数据源如 CSV 文件、数据库等导入数据。

data = {
    'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen'],
    'Population': [21500000, 24200000, 13500000, 10700000],
    'Area': [16410, 6340, 7434, 1996]
}
df = pd.DataFrame(data)

2、查看数据

可以使用 head() 和 tail() 方法来查看 DataFrame 的前几行或后几行数据。

print(df.head())  # 查看前五行
print(df.tail())  # 查看后五行

3、数据操作

Pandas 提供了丰富的数据操作功能，包括数据筛选、排序、分组等。

1.1、数据筛选

可以基于条件来筛选数据：

filtered_data = df[df['Population'] > 20000000]
print(filtered_data)

1.2、数据排序

可以对 DataFrame 进行排序：

sorted_data = df.sort_values(by='Population', ascending=False)
print(sorted_data)

1.3、数据分组

可以使用 groupby 方法对数据进行分组：

grouped_data = df.groupby('City')
print(grouped_data)

四、数据清洗

Pandas 在数据清洗方面也非常强大，可以轻松处理缺失值、重复值等。

1、处理缺失值

可以使用 fillna() 方法填充缺失值：

df.fillna(value=0, inplace=True)

2、删除重复值

可以使用 drop_duplicates() 方法删除重复数据：

df.drop_duplicates(inplace=True)

五、数据导出

分析完成后，可以将数据导出到 CSV 或 Excel 文件中。

1、导出到 CSV

使用 to_csv() 方法：

df.to_csv('output.csv', index=False)

2、导出到 Excel

使用 to_excel() 方法：

df.to_excel('output.xlsx', index=False)

四、总结

Pandas 是一个功能强大的数据分析工具，它提供了丰富的数据结构和操作方法，使得数据分析工作变得简单高效。无论是数据清洗、转换还是分析，Pandas 都能提供有效的解决方案。通过本教程，你已经了解了 Pandas 的基本使用方法，包括数据的创建、操作、清洗和导出。

参考文章：