6 python数据分析基础——批量进行数据分析(二)

目录

七、使用相关系数判断数据的相关性

1、使用相关系数判断数据的相关性

2、求单个变量和其他变量间的相关性

八、使用方差分析对比数据的差异

1、使用方差分析对比数据的差异

2、绘制箱形图识别异常值

九、使用描述统计和直方图制定目标

1、使用描述统计和直方图制定目标

2、使用自定义区间绘制直方图

十、使用回归分析预测未来值

1、使用回归分析预测未来值

2、使用回归方程计算预测值


练习数据文件下载链接https://download.csdn.net/download/weixin_44940488/19270592

七、使用相关系数判断数据的相关性

 corr()函数默认计算的是两个变量之间的皮尔逊相关系数。该系数用于描述两个变量间线性相关性的强弱,取值范围为[-1,1]。系数为正值表示数据间存在正相关性,为负值则表示存在负相关性,为0则表示不存在线性相关性。系数的绝对值越大,说明相关性越强。

1、使用相关系数判断数据的相关性

数据展示:

实例代码:

import pandas as pd

# 从指定工作簿中读取要进行相关性分析的数据
df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr()    # 计算任意两个变量之间的相关系数
print(result)         # 输出计算出的相关系数

运行结果:

2、求单个变量和其他变量间的相关性

实例代码:

import pandas as pd

df = pd.read_excel('相关性分析.xlsx', index_col = '代理商编号')
result = df.corr()['年销售额(万元)']    # 计算年销售额与其他变量之间的皮尔逊系数
print(result)

 运行结果:

八、使用方差分析对比数据的差异

1、使用方差分析对比数据的差异

数据展示:

实例代码:

import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import xlwings as xw

df = pd.read_excel('方差分析.xlsx')   # 读取指定工作簿中的数据
df = df[['A型号','B型号','C型号','D型号','E型号']]   # 选取'A型号','B型号','C型号','D型号','E型号'列的数据用于数据分析
df_melt = df.melt()                                # 将列名转换为列数据,重构DataFrame
df_melt.
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

简时刻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值