摘要:本文是包含第一章和第二章的理论及推导内容
说明: 本次学习是基于西瓜书,南瓜书,及部分网上参考资料(链接会放在最后)
第一章 绪论
1.1 理论
1.1.1 基本术语
- 数据集:记录样本的集合。
- 特征:反应事件或对象在某方面的表示或性质的事例。
- 属性值:属性上的取值(如:“青绿”,“赤红”)。
- 样本空间:由若干特征组成的一个n维空间(n为特征个数)。
- 特征向量:因为在样本空间中一个点即可代表一个向量,因此一个示例即为一个特征向量。
- 分类与回归:如果预测的是离散值即为分类,如果是连续值即为回归。
1.1.2 假设空间
详细可看:《机器学习》中的假设空间和版本空间
1.1.3 版本空间
与已知数据集一致的所有假设的子集集合。
1.1.4 归纳偏好
因为假设空间可以因为不同的归类方式而产生不同的归类效果和预测方法,所以设置归纳偏好以得出符合自己要求的模型
1.2 理论推导
第二章 模型评估和选择
2.1 理论
2.1.1 经验差和过拟合
2.1.1.1 误差
误差类型 | 定义 |
---|---|
误差 | 学习器在实际预测中的输出与样本的真实输出之间的差距 |
训练误差/经验误差 | 学习器在训练集上的误差 |
泛化误差 | 学习器在新样本上的误差 |
2.1.1.2 拟合
拟合类型 | 说明 |
---|---|
欠拟合 | 学习次数较为不足,训练误差和泛化误差均为达到最优解 |
过拟合 | 过度学习,使得训练误差下降,但于此同时降低了泛用性,及泛化误差增大 |
图像来源:过拟合和欠拟合