更多回归方法:正则化与支持向量回归
1. 练习题引导
在深入探讨回归方法之前,先来看一些值得思考的练习题:
1. 识别变量的应用场景 :像每天的唯一编号这样的识别变量,在哪些场景下对学习目标值有用?当需要预测从未见过的数据(甚至超出保留测试集)时,如何应用它?
2. SVM边界探索 :尝试操作SVM边界和示例点。创建一些正例和反例(可以分别用红色和蓝色标记),用这些示例构建一些模式。然后,绘制并观察训练SVM时生成的线性边界。当类别从完全分离变为存在跨越明显分隔的离群点时,边界会如何变化?
3. 运行时间比较 :比较NuSVC和SVC在不同学习场景和参数下的运行时间。
4. DA方法比较 :使用20次重复的训练 - 测试分割来比较判别分析(DA)方法。对每种方法使用相同的训练 - 测试分割(TTS),统计获胜者。尝试使用不同的数据集。
5. 学生数据预测模型 :现在有了更多工具,尝试为第6章末尾的学生数据找到更好的预测模型。
6. 偏差 - 方差示例 :之前关于支持向量分类器(SVC)的偏差和方差示例有点薄弱。如果想看到非常清晰的偏差 - 方差(过拟合和欠拟合)示例,可以使用高斯核重新进行这些示例。
2. 回归方法概述
我们将深入探讨几种额外的回归技术,这些都是之前见过的技术的变体。其中两种是线性回归的直接变体,一种是将支持向量分类器与线性回归结合创建支持向量回归器,还有一种是使用决策树进行回