
如果你已经:
- 安装好python
- 有一点python语言基础
而且
- 没有过系统化的python学习
- 希望掌握常见的dataframe处理方法
这篇文章将帮助你掌握工作中常用的工作表操作。
文章阅读时间约40min。
1. 导入package:pandas
import
2. 数据读取与保存
- 读取文件
temp
- 输出文件
# 输出单个文件
- 输出多个文件到同一个excel中
writer
- 创建新的dataframe
# 使用list创建df
3. 数据初步描述
# 查看前几行与后几行
4. 数据行列操作
4.1 修改列名
### 修改全部列名
temp.columns = ["col_name1","col_name2",...] #需与temp表列数相同
### 修改部分列名
temp_1 = temp.copy()
temp_1.rename(columns={'Province':'省份'},inplace=True)
### 将表格列名放入list中
cols = temp_1.columns.tolist()
4.2 增减行列
- 增加一列
temp
- 基于原有多列增加列
def
- 删除行列
temp
4.3 行列切片与数据选择
- 简单行切片
## 选取第2-4行
- 根据条件做行筛选
1.
- 列切片
temp
5. dataframe相关用法
- 索引:index
temp
- 排序:sort
temp
- 去重:drop_duplicates
temp
- 空值:dropna/fillna
df
- 用指定值填充/替换
values
- 宽表转长表,长表转宽表
## 长转宽:
6. 值统计
6.1 统计值
temp
6.2 数据计算
- group by
temp_groupby
- 分组排名
temp
7. 数据合并
- merge,根据某列匹配两个表格
df1.merge(df2, on = ["key"], how='right')
# 当左右表格键名不一致时使用
df3.merge(df4, left_on='lkey',right_on='rkey')
- concat
# 需要保证列名/行数相同