Pandas数据载入与预处理

本文详细介绍如何使用Pandas处理Excel、文本、JSON和数据库数据,涵盖数据合并、缺失值处理、数据清洗、重复值消除、数据转换和标准化方法。通过实例演示了如何操作,以及对tips_mod.xls文件的数据处理过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pandas数据载入与预处理

一、数据载入

1 读取excel,文本文件,csv

import numpy as np
#读取excel,默认读取第一个sheet
p = pd.read_excel('data//tips.xls')
#如果想读取student的sheet
p = pd.read_excel('data//tips.xls','student')
# print(p.head())
#读取txt文件
a = pd.read_table('data//a.txt')
# print(a.head())
#读取CSV文件
d = pd.read_csv('data//dots.csv')
print(d.head(3))

2、读取json,数据库

二、数据合并

1、merge数据合并

x = pd.DataFrame({'name':['A','B','C','D'],'age':[1,2,3,4]})
print(x)
y = pd.DataFrame({'name':['A','B','E'],'age':[1,5,6]})
print(y)
#默认合并的取的是两个数据的交集
print(pd.merge(x,y))

输出结果:

1.1 内连接-inner

#按name,将 x,y有相同name的进行合并
print('outer:\n',pd.merge(x,y,how='inner',on='name'))

输出结果:

1.2 外连接--outer

#外连:x,y的所有name罗列出来
print('outer:\n',pd.merge(x,y,how='outer',on='name'))

输出结果:

1.3 左连接-left

#外连:x,y的所有name罗列出来
print('outer:\n',pd.merge(x,y,how='outer',on='name'))

输出结果:

1.4 右连接-right

print('right:\n',pd.merge(x,y,how='right',on='name'))

输出结果:

1.5 参数suffiexes作用:重复列名的修改

print(pd.merge(x,y,on='name',suffixes=('_left','_right')))

 输出结果:

2、concat数据连接

默认情况下,会按行堆叠数据。

s1 = pd.Series([0,1],index=['a','b'])
s2 = pd.Series([2,3,4],index=['a','b','c'])
s3 = pd.Series([5,6],index=['f','g'])
print(pd.concat([s1,s2,s3]))

输出结果:

2.2 两个D

Python是一种高级编程语言,广泛应用于数据科学和人工智能领域。在数据科学领域中,预处理数据分析过程中不可或缺的一步,因为它能够清理和转换原始数据,使其适合于建模和分析。 在这篇文章中,我们将讨论小费数据集中数据载入预处理实验,并总结一些重要的观点。 小费数据集 小费数据集是一个经典的数据集,它包含了各种餐厅的小费金额、性别、吸烟习惯、日期、时间和人数等信息。这些信息可以用来分析小费金额其他因素之间的关系,如性别、吸烟习惯、日期和时间等。 数据载入Python中,我们可以使用pandas库来载入小费数据集。pandas是一个功能强大的数据分析工具,它可以轻松地处理各种类型的数据。 以下是载入小费数据集的代码: ```python import pandas as pd # Load the tips dataset tips = pd.read_csv('tips.csv') ``` 这段代码使用read_csv函数来载入tips.csv文件,并将其存储在名为tips的DataFrame中。 预处理 在进行数据分析之前,我们需要对数据进行预处理预处理的目的是清理和转换原始数据,使其适合于建模和分析。 以下是小费数据集中的一些预处理步骤: 1. 检查缺失值 缺失值是指数据集中缺少某些值的情况。在小费数据集中,我们可以使用isnull()函数来检查缺失值。 ```python # Check for missing values tips.isnull().sum() ``` 这段代码将返回一个Series对象,其中包含每列中的缺失值数量。 2. 转换数据类型 在小费数据集中,日期和时间列的数据类型为字符串。为了进行时间序列分析,我们需要将其转换为datetime类型。 ```python # Convert date and time columns to datetime format tips['datetime'] = pd.to_datetime(tips['date'] + ' ' + tips['time']) ``` 这段代码将创建一个名为datetime的新列,并将日期和时间列转换为datetime类型。 3. 创建新列 在小费数据集中,我们可以创建一些新列,例如小费百分比、餐厅开销和每人实际支付金额等。 ```python # Create a new column for tip percentage tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip']) # Create a new column for restaurant expense tips['expense'] = tips['total_bill'] - tips['tip'] # Create a new column for per capita payment tips['per_capita'] = tips['total_bill'] / tips['size'] ``` 这段代码将创建三个新列,分别是小费百分比、餐厅开销和每人实际支付金额。 总结 在本文中,我们讨论了小费数据集中数据载入预处理实验。我们使用了pandas库来载入数据集,并对数据进行了一些基本的预处理,例如检查缺失值、转换数据类型和创建新列等。 预处理数据分析过程中必不可少的一步。通过预处理,我们可以清理和转换原始数据,使其适合于建模和分析。在实际的数据分析任务中,预处理通常占据了相当大的比例,因此我们应该重视预处理的重要性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值