【机器学习实录】——决策树（Decision tree）

Flyinggg_love

已于 2024-08-22 11:25:46 修改

阅读量1.3k

点赞数 22

CC 4.0 BY-SA版权

文章标签：机器学习人工智能决策树

于 2024-02-13 10:33:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoyvhuv/article/details/136105534

目录

1.4 决策树生长与最优属性的选择

1.4.1 决策树生长流程

1.4.2 递归停止条件

1.4.3 最优属性选择

1. 信息论知识补充：

（1）信息熵

（2）熵的增益

（3）信息增益存在的问题

（4）增益率

2.其他划分标准

1.5 决策树剪枝（pruning）

1.6 连续值和缺失值的处理

1.基本概念

1.1 定义

决策树:基于树结构进行决策的处理机制，不断根据某属性进行划分的过程，通常会进行一系列的判断或是“子决策”。

是一种常用的有监督的分类算法。

1.2 策略

“分而治之”，递归进行。

1.3 解释

如下图，当我们需要判断一个西瓜是否为好瓜，我们先判断色泽是否为青绿，如果为正，我们继续进行下一个判断。其中：

1. 每个内部结点表示一种属性的测试

2. 每个分支表示一个测试输出

3. 每个叶节点代表一种类别

【根节点Root】:色泽

【内部结点Node】：根蒂，敲声等

【叶节点Leaf】: 比如与色泽青绿对应的是坏瓜这个叶节点

【分支Branch】:对于色泽来说，有两个分支，指的是该属性取值为 [青绿] 和 [非青绿] 的两种可能结果。

显然，我们能够明白每一个决策都是建立在之前决策的基础之上的，决策树的最终目的是将样本越分越”纯“。

1.4 决策树生长与最优属性的选择

1.4.1 决策树生长流程

决策树的决策过程就是从根结点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子结点，将叶子结点的存放的类别作为决策结果。简单说来，决策树的总体流程是自根至叶的递归过程，在每个中间结点寻找一个「划分」（split or test）属性。

从逻辑角度，是if-else语句的组合
从几何角度，是根据某种准则划分特征空间

1.4.2 递归停止条件

对于一个节点，全是同类样本，那不用执行下一步细分判断
对于一个节点，仍然有异类样本，但是没有下一个属性去判断了，也要终止
对于一个属性的其中一个分类，若数据集中的数据完全没有对应分类中的数据，即空集，那也要终止。

1.4.3 最优属性选择

1. 信息论知识补充：

自信息：,本质上就是一个单位，当b=2时单位为bit,当b=e时单位为nat

假设当前数据集D 中共有y类样本，随机变量X的每个取值x都对应一个p(x) ，这里的p(x)就是第x类样本所占的比例。

（1）信息熵

（自信息的期望）：度量随机变量X的不确定性，信息熵越大越不确定。公式如下：</

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。