6 python数据分析基础——批量进行数据分析（二）

最新推荐文章于 2025-07-02 14:34:02 发布

简时刻

最新推荐文章于 2025-07-02 14:34:02 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python数据分析与可视化专栏（语法+应用）文章标签： python 数据分析 Excel 数据处理

本文链接：https://blog.csdn.net/weixin_44940488/article/details/117431000

练习数据文件下载链接：https://download.csdn.net/download/weixin_44940488/19270592

七、使用相关系数判断数据的相关性

corr()函数默认计算的是两个变量之间的皮尔逊相关系数。该系数用于描述两个变量间线性相关性的强弱，取值范围为[-1,1]。系数为正值表示数据间存在正相关性，为负值则表示存在负相关性，为0则表示不存在线性相关性。系数的绝对值越大，说明相关性越强。

1、使用相关系数判断数据的相关性

数据展示：

实例代码：

import pandas as pd

# 从指定工作簿中读取要进行相关性分析的数据
df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr()    # 计算任意两个变量之间的相关系数
print(result)         # 输出计算出的相关系数

运行结果：

2、求单个变量和其他变量间的相关性

实例代码：

import pandas as pd

df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr()['年销售额（万元）']    # 计算年销售额与其他变量之间的皮尔逊系数
print(result)

运行结果：

八、使用方差分析对比数据的差异

1、使用方差分析对比数据的差异

数据展示：

实例代码：

import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import xlwings as xw

df = pd.read_excel('方差分析.xlsx')   # 读取指定工作簿中的数据
df = df[['A型号','B型号','C型号','D型号','E型号']]   # 选取'A型号','B型号','C型号','D型号','E型号'列的数据用于数据分析
df_melt = df.melt()                                # 将列名转换为列数据，重构DataFrame
df_melt.