DataWhale机器学习——第一章、第二章笔记

1、绪论

1.1 机器学习的定义

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能在计算机系统中,"经验"通常以"数据"形式存在,因此?机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问.
本书用"模型"泛指从数据中学得的结果有文献用"模型"指全局性结果(例如一棵决策树),而用"模式"指局部性结呆(例如 条规则).

1.2 基本术语

  • 数据集:样本sample/示例instance的集合 D={x1,x2,...xm}
  • 样本sample/示例instance:包含研究对象在某方面的表现,即属性attribute(或特征feature)/属性值attribute value,是样本空间中的一个向量 Xi=(Xi1;Xi2;...Xid)
  • 属性空间attribute space/样本空间sample space:把属性作为坐标轴构造的n维空间
  • 特征向量feature vector:一个样本在样本空间中的坐标表示。
  • 用于训练过程中的数据称为训练数据,训练样本组成的集合称为训练集。模型有时也称为学习器,可看作学习算法在给定数据和参数空间上的实例化,学习过程是为了找出或逼近真相(ground-truth)。
  • 除了有示例数据之外,还需要示例结果——“好瓜”与“坏瓜”,即标记(label)。拥有label的称为样例,表示第i个样例,其中是示例的label,是所有标记的集合,称为“标记空间”或“输出空间”。
  • 若预测的是连续值,则称此类学习任务为“回归”;
  • 若预测的是离散值,则称此类学习任务为“分类”,分类可分为二分类和多分类。
  • 预测任务旨在通过训练集进行学习,建立一个从输入空间X到输出空间Y的映射。
  • 被预测的样本为测试样本,其集合称为测试集。
  • 根据标记信息(label)的有无,学习任务大致可分为两大类:监督学习和无监督学习。回归与分类属于前者,聚类(将训练集按照某种标准划分为若干组,每组都有某种相似特性)属于后者。
  • 模型适用于新样本的能力称为“泛化能力”。一般来说,训练集越大,模型学习的关于未知分布D(假设样本空间全体样本服从该分布)的信息越多,其泛化能力强的可能性越大。

1.3 假设空间

在学习过程中,我们面对的可能是一个庞大的假设空间。有效的学习策略需要在这个空间中找到合适的假设。归纳偏好是学习算法在众多等效假设中进行选择的一种“价值观”,它决定了算法在遇到新样本时的行为。

  • 归纳学习: 从样例中学习概念或规律。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值