线性回归是机器学习中比较简单的模型,给定 X 和 Y 的值拟合出一条直线,数据点离线的距离越近想过越好。如果一个特征,最终会呈现为一条直线,如果是多参数,输入就是一个矩阵,通过超平面进行分割。线性回归的损失函数使用均方差,这个好理解是方差和越小越好。我们是用 Sklearn 来实现线性回归。
安装相关类型
pip install numpy
pip install pandas
pip install
加载训练数据
加载数据,442 Batch,10 个特征。
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target
print(data.shape)
print(target.shape)
print(data[:5])
print(target[:5])
制作训练集和测试集
# 导入sklearn diabetes数据接口
from sklearn.datasets import load_diabetes
# 导入sklearn打乱数据函数
from sklearn.utils import shuffle
# 获取diabetes数据集
diabetes = load_diabetes()
# 获取输入和标签
data, target = diabetes.data, diabetes.target
# 打乱数据集
X, y = shuffle(data, target, random_state=13)
# 按照8/2划分训练集和测试集
offset = int(X.shape[0] * 0.8)
# 训练集