特征工程(完）

最新推荐文章于 2025-07-07 18:39:56 发布

原创

最新推荐文章于 2025-07-07 18:39:56 发布 · 3.9w 阅读

CC 4.0 BY-SA版权

文章标签：

机器学习入门系列（2）–如何构建一个完整的机器学习项目，第六篇！

该系列的前五篇文章：

这也是特征工程系列最后一篇文章，介绍特征提取、特征选择、特征构建三个工作，通常特征工程被认为分为这三方面的内容，只是我将前面的数据&特征预处理部分都加入到这个系列。

实际上，特征工程其实是非常需要通过实践才能更好掌握这个技能的，单纯看理论，理解不够深入，实际应用到项目或者比赛中的时候，才会有更深入的理解。

定义：从给定的特征集合中选出相关特征子集的过程称为特征选择(feature selection)。

1.对于一个学习任务，给定了属性集，其中某些属性可能对于学习来说很关键，但有些属性意义就不大。

2.特征选择可能会降低模型的预测能力，因为被剔除的特征中可能包含了有效的信息，抛弃这部分信息一定程度上会降低模型的性能。但这也是计算复杂度和模型性能之间的取舍：

3.常见的特征选择分为三类方法：

1.采用特征选择的原因：

维数灾难问题。因为属性或者特征过多造成的问题，如果可以选择重要的特征，使得仅需要一部分特征就可以构建模型，可以大大减轻维数灾难问题，从这个意义上讲，特征选择和降维技术有相似的动机，事实上它们也是处理高维数据的两大主流技术。
去除无关特征可以降低学习任务的难度，也同样让模型变得简单，降低计算复杂度。

2.特征选择最重要的是确保不丢失重要的特征，否则就会因为缺少重要的信息而无法得到一个性能很好的模型。

给定数据集，学习任务不同，相关的特征很可能也不相同，因此特征选择中的不相关特征指的是与当前学习任务无关的特征。
有一类特征称作冗余特征(redundant feature)，它们所包含的信息可以从其他特征中推演出来。
- 冗余特征通常都不起作用，去除它们可以减轻模型训练的负担；
- 但如果冗余特征恰好对应了完成学习任务所需要的某个中间概念，则它是有益的，可以降低学习任务的难度。

3.在没有任何先验知识，即领域知识的前提下，要想从初始特征集合中选择一个包含所有重要信息的特征子集，唯一做法就是遍历所有可能的特征组合。

但这种做法并不实际，也不可行，因为会遭遇组合爆炸，特征数量稍多就无法进行。

一个可选的方案是：

这里有两个问题：如何根据评价结果获取下一个候选特征子集？如何评价候选特征子集的好坏？

1.子集搜索方法步骤如下：

给定特征集合 A={A1,A2,…,Ad} ，首先将每个特征看作一个候选子集（即每个子集中只有一个元素），然后对这 d 个候选子集进行评价。

假设 A2 最优，于是将 A2 作为第一轮的选定子集。
然后在上一轮的选定子集中加入一个特征，构成了包含两个特征的候选子集。

假定 A2,A5 最优，且优于 A2 ，于是将 A2,A5 作为第二轮的选定子集。
…
假定在第 k+1 轮时，本轮的最优的特征子集不如上一轮的最优的特征子集，则停止生成候选子集，并将上一轮选定的特征子集作为特征选择的结果。