数据框的合并排序、描述统计、分箱

本文详细介绍了数据框的各种操作,包括表的纵向和横向合并、数据框排序、描述性统计、变量与索引的转换、分箱、分类变量转虚拟变量、数据框复制、字符串变量处理、删除重复项以及数据抽样等关键步骤,提供了具体的方法和参数解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据框的合并排序、描述统计、分箱

一、表合并
二、数据框排序
三、描述性统计
四、变量与索引的相互转化
五、分箱
六、分类变量转虚拟变量
七、数据框对象的复制
八、字符串变量的常用方法
九、删除重复项
十、数据抽样
一、表合并
1、纵向合并
# 导入库
import pandas as pd
import numpy as np
#建立两个表
data1=pd.DataFrame(np.random.rand(4,3),columns=['x1','x2','x3'])
data2=pd.DataFrame(np.random.rand(4,3),columns=['x2','x3','x4'])
# append 纵向合并
data1.append(data2,ignore_index=True)
# ignore_index=True  表示忽略本来的索引,合并后生成新的索引,默认False,按原有索引
# 如果data1和data2的index值有重复的话就会提示出错。verify_integrity参数的默认值为False

# pd.concat 纵向合并
pd.concat([data1,data2],axis=0,ignore_index=True) #合并的两个表要放在一个列表中
2、横向合并
# 建两个表
data1=pd.DataFrame(np.random.rand(4,3),columns=["x1","x2","x3"]) 
data2=pd.DataFrame(np.random.rand(4,3),columns=["x4","x5","x6"],index=(range(1,5))) 

pd.concat([data1,data2],axis=1,join='inner')  
#加上join参数的设定,如果为’inner’表示两表的交集,如果是outer(默认)表示两表的并集
#横向合并:pd.merge方法 
# 导入三表
individual1=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual1.xlsx") 
individual2=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual2.xlsx") 
family=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\family.xlsx") 

# 补齐pid列
# 方法1
individual1['pid']=individual1[<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值