第27期 Datawhale 组队学习 吃瓜教程——西瓜书+南瓜书第一章和第二章 / 周志华《机器学习》

摘要:本文是包含第一章和第二章的理论及推导内容

说明: 本次学习是基于西瓜书,南瓜书,及部分网上参考资料(链接会放在最后)

第一章 绪论

1.1 理论

1.1.1 基本术语

  1. 数据集:记录样本的集合。
  2. 特征:反应事件或对象在某方面的表示或性质的事例。
  3. 属性值:属性上的取值(如:“青绿”,“赤红”)。
  4. 样本空间:由若干特征组成的一个n维空间(n为特征个数)。
  5. 特征向量:因为在样本空间中一个点即可代表一个向量,因此一个示例即为一个特征向量。
  6. 分类与回归:如果预测的是离散值即为分类,如果是连续值即为回归。

1.1.2 假设空间

在这里插入图片描述
详细可看:《机器学习》中的假设空间和版本空间

1.1.3 版本空间

与已知数据集一致的所有假设的子集集合。

1.1.4 归纳偏好

因为假设空间可以因为不同的归类方式而产生不同的归类效果和预测方法,所以设置归纳偏好以得出符合自己要求的模型

1.2 理论推导

在这里插入图片描述

第二章 模型评估和选择

2.1 理论

2.1.1 经验差和过拟合

2.1.1.1 误差
误差类型 定义
误差 学习器在实际预测中的输出与样本的真实输出之间的差距
训练误差/经验误差 学习器在训练集上的误差
泛化误差 学习器在新样本上的误差
2.1.1.2 拟合
拟合类型 说明
欠拟合 学习次数较为不足,训练误差和泛化误差均为达到最优解
过拟合 过度学习,使得训练误差下降,但于此同时降低了泛用性,及泛化误差增大

图像来源https://blog.csdn.net/weixin_42575020/article/details/82949285
图像来源:过拟合和欠拟合

2.1.2 评估方法(划分训练集及测试集方法)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值