-
数据合并
-
pd.concat([df1,df2])
-
index 两个df 有相同的行索引, 可以拼接起来, 左右拼接, axis = 1
-
column 两个df 有相同的列名, 可以拼接起来, 上下拼接 默认的
-
-
pd.merge /df.merge
-
类似于SQL的join
-
两个df 有取值相同的列, 可以通过merge 连接起来
-
how = left,right,inner outer
-
-
df.join()
-
默认类似于 pd.concat([df1,df2],axis = 1)
-
df.join(df2,on='列名') df的一列和df2的index值相同可以拼接起来
-
-
-
数据透视表, 作用和分组聚合一样, 只不过展示的方式有差异
-
数据可视化
-
Matplotlib 基本套路
-
import matplotlib.pyplot as plt
-
plt.figure(figsize=()) fig,ax = plt.subplots(figsize=())
-
plt.plot()
-
plt.show()
-
-
直方图 连续型变量, 单变量看分布
-
plt.hist(bins = ) 分成几组
-
-
散点图 两个连续型变量, 看之间的关系
-
plt.scatter()
-
气泡 就是散点, 只不过多了一个维度通过这个维度的数据控制点的大小
-
蜂巢 hexbin 可以显示出不同区域数据点分布的多少
-
-
柱状图 类别型变量,对比数量或者平均值 不同从业时间平均薪资比较
-
plt.bar()
-
-
饼图 每个部分之间对比, 所有的部分相加构成一个完整的整体 年底公司 不同部门收入构成分析
-
plt.pie()
-
-
箱线图
-
1 数据可视化—— seaborn
-
需要画图的场景
-
对外要做数据分析报告, 做文档, 为了直观的向听众、客户、同事说明
-