DataWhale机器学习——第一章、第二章笔记

最新推荐文章于 2025-08-15 23:13:00 发布

原创

最新推荐文章于 2025-08-15 23:13:00 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #笔记 #人工智能

1、绪论

1.1 机器学习的定义

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来玫善系统自身的性能在计算机系统中，"经验"通常以"数据"形式存在，因此?机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型" (model) 的算法，即"学习算法" (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问，那么类似的，可以说机器学习是研究关于"学习算法"的学问.

本书用"模型"泛指从数据中学得的结果有文献用"模型"指全局性结果(例如一棵决策树)，而用"模式"指局部性结呆(例如条规则).

1.2 基本术语

数据集：样本sample/示例instance的集合 D={x1,x2,...xm}
样本sample/示例instance:包含研究对象在某方面的表现，即属性attribute(或特征feature)/属性值attribute value，是样本空间中的一个向量 Xi=(Xi1;Xi2;...Xid)
属性空间attribute space/样本空间sample space：把属性作为坐标轴构造的n维空间
特征向量feature vector：一个样本在样本空间中的坐标表示。
用于训练过程中的数据称为训练数据，训练样本组成的集合称为训练集。模型有时也称为学习器，可看作学习算法在给定数据和参数空间上的实例化，学习过程是为了找出或逼近真相（ground-truth）。
除了有示例数据之外，还需要示例结果——“好瓜”与“坏瓜”，即标记（label）。拥有label的称为样例，表示第i个样例，其中是示例的label，是所有标记的集合，称为“标记空间”或“输出空间”。
若预测的是连续值，则称此类学习任务为“回归”；
若预测的是离散值，则称此类学习任务为“分类”，分类可分为二分类和多分类。
预测任务旨在通过训练集进行学习，建立一个从输入空间X到输出空间Y的映射。
被预测的样本为测试样本，其集合称为测试集。
根据标记信息（label）的有无，学习任务大致可分为两大类：监督学习和无监督学习。回归与分类属于前者，聚类（将训练集按照某种标准划分为若干组，每组都有某种相似特性）属于后者。
模型适用于新样本的能力称为“泛化能力”。一般来说，训练集越大，模型学习的关于未知分布D（假设样本空间全体样本服从该分布）的信息越多，其泛化能力强的可能性越大。