1、绪论
1.1 机器学习的定义
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能在计算机系统中,"经验"通常以"数据"形式存在,因此?机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model)
的算法,即"学习算法"
(learning
algorithm).
有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问.
本书用"模型"泛指从数据中学得的结果有文献用"模型"指全局性结果(例如一棵决策树),而用"模式"指局部性结呆(例如 条规则).
1.2 基本术语
- 数据集:样本sample/示例instance的集合 D={x1,x2,...xm}
- 样本sample/示例instance:包含研究对象在某方面的表现,即属性attribute(或特征feature)/属性值attribute value,是样本空间中的一个向量 Xi=(Xi1;Xi2;...Xid)
- 属性空间attribute space/样本空间sample space:把属性作为坐标轴构造的n维空间
- 特征向量feature vector:一个样本在样本空间中的坐标表示。
- 用于训练过程中的数据称为训练数据,训练样本组成的集合称为训练集。模型有时也称为学习器,可看作学习算法在给定数据和参数空间上的实例化,学习过程是为了找出或逼近真相(ground-truth)。
- 除了有示例数据之外,还需要示例结果——“好瓜”与“坏瓜”,即标记(label)。拥有label的称为样例,表示第i个样例,其中是示例的label,是所有标记的集合,称为“标记空间”或“输出空间”。
- 若预测的是连续值,则称此类学习任务为“回归”;
- 若预测的是离散值,则称此类学习任务为“分类”,分类可分为二分类和多分类。
- 预测任务旨在通过训练集进行学习,建立一个从输入空间X到输出空间Y的映射。
- 被预测的样本为测试样本,其集合称为测试集。
- 根据标记信息(label)的有无,学习任务大致可分为两大类:监督学习和无监督学习。回归与分类属于前者,聚类(将训练集按照某种标准划分为若干组,每组都有某种相似特性)属于后者。
- 模型适用于新样本的能力称为“泛化能力”。一般来说,训练集越大,模型学习的关于未知分布D(假设样本空间全体样本服从该分布)的信息越多,其泛化能力强的可能性越大。
1.3 假设空间
在学习过程中,我们面对的可能是一个庞大的假设空间。有效的学习策略需要在这个空间中找到合适的假设。归纳偏好是学习算法在众多等效假设中进行选择的一种“价值观”,它决定了算法在遇到新样本时的行为。
-
归纳学习: 从样例中学习概念或规律。