使用线性回归来进行每个人的平均医疗费用预测

最新推荐文章于 2025-06-09 20:22:30 发布

原创

最新推荐文章于 2025-06-09 20:22:30 发布 · 3.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #数据分析 #算法 #预测

本文探讨了如何使用R语言进行线性回归分析以预测个人平均医疗费用。通过分析数据，发现线性模型在极端值预测上表现不佳，多元R方值为0.7509。通过引入年龄的二次项和肥胖因素，优化模型，使得多元R方值提升到0.8643，提高了预测成功率。文章提供了数据来源，鼓励读者进一步探索提高预测准确性的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先贴出代码如下:

insurance<-read.csv("insurance.csv",stringsAsFactors = FALSE)
ins_model<-lm(expenses~.,data = insurance)
summary(ins_model)

(

ins_model<-lm(expenses~.,data = insurance)

这句话的意思就是以insurance为数据源,建立expenses和数据源其他属性的(一次)线性关系. "."表示其他所有属性

)

R语言分析数据的一个很大的优势就是它有很多的第三方包，可以很方便我们使用。所以上面的代码很简介。但是，我们关键是要知道怎么来分析数据。

首先我们先看看结果吧:

1.Residuals表示残差，顾名思义，就是指预测的数据和实际的数据的差值。从四分图可以看出，最大和最小的误差值都挺大的，这说明了线性回归算法在预测极端值的时候，效果并不是很理想。但是可以看出1Q,Median,3Q (也就是在1/4值，1/2值,3/4值)的差距不是很大，所以可以判断出整个值的分布类似正态分布，集中误差在-979左右。

2.还有一个关键的点是:Multiple R-squared,叫做多元R方值。例子中，这个值等于0.7509.表明该线性预测的结果适合75%的案例，也可以说成功为75%.

但是，但是。。。。。75