python dataframe groupby_第1关：了解python数据表操作-CSDN博客

如果你已经：

安装好python
有一点python语言基础

而且

没有过系统化的python学习
希望掌握常见的dataframe处理方法

这篇文章将帮助你掌握工作中常用的工作表操作。

文章阅读时间约40min。

1. 导入package：pandas

import

2. 数据读取与保存

读取文件

temp

输出文件

# 输出单个文件

输出多个文件到同一个excel中

writer

创建新的dataframe

# 使用list创建df

3. 数据初步描述

# 查看前几行与后几行

4. 数据行列操作

4.1 修改列名

### 修改全部列名
temp.columns = ["col_name1","col_name2",...] #需与temp表列数相同

### 修改部分列名
temp_1 = temp.copy()
temp_1.rename(columns={'Province':'省份'},inplace=True)

### 将表格列名放入list中
cols = temp_1.columns.tolist()

4.2 增减行列

增加一列

temp

基于原有多列增加列

def

删除行列

temp

4.3 行列切片与数据选择

简单行切片

## 选取第2-4行

根据条件做行筛选

1.

列切片

temp

5. dataframe相关用法

索引：index

temp

排序：sort

temp

去重：drop_duplicates

temp

空值：dropna/fillna

df

用指定值填充/替换

values

宽表转长表，长表转宽表

## 长转宽：

6. 值统计

6.1 统计值

temp

6.2 数据计算

group by

temp_groupby

分组排名

temp

7. 数据合并

merge，根据某列匹配两个表格

df1.merge(df2, on = ["key"], how='right')
# 当左右表格键名不一致时使用
df3.merge(df4, left_on='lkey',right_on='rkey')

concat

# 需要保证列名/行数相同