目录
七、使用相关系数判断数据的相关性
corr()函数默认计算的是两个变量之间的皮尔逊相关系数。该系数用于描述两个变量间线性相关性的强弱,取值范围为[-1,1]。系数为正值表示数据间存在正相关性,为负值则表示存在负相关性,为0则表示不存在线性相关性。系数的绝对值越大,说明相关性越强。
1、使用相关系数判断数据的相关性
数据展示:
实例代码:
import pandas as pd
# 从指定工作簿中读取要进行相关性分析的数据
df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr() # 计算任意两个变量之间的相关系数
print(result) # 输出计算出的相关系数
运行结果:
2、求单个变量和其他变量间的相关性
实例代码:
import pandas as pd
df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr()['年销售额(万元)'] # 计算年销售额与其他变量之间的皮尔逊系数
print(result)
运行结果:
八、使用方差分析对比数据的差异
1、使用方差分析对比数据的差异
数据展示:
实例代码:
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import xlwings as xw
df = pd.read_excel('方差分析.xlsx') # 读取指定工作簿中的数据
df = df[['A型号','B型号','C型号','D型号','E型号']] # 选取'A型号','B型号','C型号','D型号','E型号'列的数据用于数据分析
df_melt = df.melt() # 将列名转换为列数据,重构DataFrame
df_melt.