数据框的合并排序、描述统计、分箱
一、表合并
二、数据框排序
三、描述性统计
四、变量与索引的相互转化
五、分箱
六、分类变量转虚拟变量
七、数据框对象的复制
八、字符串变量的常用方法
九、删除重复项
十、数据抽样
一、表合并
1、纵向合并
import pandas as pd
import numpy as np
data1=pd.DataFrame(np.random.rand(4,3),columns=['x1','x2','x3'])
data2=pd.DataFrame(np.random.rand(4,3),columns=['x2','x3','x4'])
data1.append(data2,ignore_index=True)
pd.concat([data1,data2],axis=0,ignore_index=True)
2、横向合并
data1=pd.DataFrame(np.random.rand(4,3),columns=["x1","x2","x3"])
data2=pd.DataFrame(np.random.rand(4,3),columns=["x4","x5","x6"],index=(range(1,5)))
pd.concat([data1,data2],axis=1,join='inner')
individual1=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual1.xlsx")
individual2=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual2.xlsx")
family=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\family.xlsx")
individual1['pid']=individual1[<