【机器学习实录】——决策树(Decision tree)

目录

1.基本概念

1.1 定义

1.2 策略

1.3 解释

1.4 决策树生长与最优属性的选择

1.4.1 决策树生长流程

1.4.2 递归停止条件

1.4.3 最优属性选择

1. 信息论知识补充:

(1)信息熵

(2)熵的增益

(3)信息增益存在的问题

(4)增益率

2.其他划分标准

1.5 决策树剪枝(pruning)

1.6 连续值和缺失值的处理


1.基本概念

1.1 定义

决策树:基于结构进行决策的处理机制,不断根据某属性进行划分的过程,通常会进行一系列的判断或是“子决策”。

是一种常用的有监督的分类算法。

1.2 策略

“分而治之”,递归进行。

1.3 解释

如下图,当我们需要判断一个西瓜是否为好瓜,我们先判断色泽是否为青绿,如果为正,我们继续进行下一个判断。其中:

1. 每个内部结点表示一种属性的测试

2. 每个分支表示一个测试输出

3. 每个叶节点代表一种类别

【根节点Root】:色泽

【内部结点Node】:根蒂,敲声 等

【叶节点Leaf】: 比如与色泽青绿对应的是坏瓜这个叶节点

【分支Branch】:对于色泽来说,有两个分支,指的是该属性取值为 [青绿] 和 [非青绿] 的两种可能结果。

显然,我们能够明白每一个决策都是建立在之前决策的基础之上的,决策树的最终目的是将样本越分越”纯“

1.4 决策树生长与最优属性的选择

1.4.1 决策树生长流程

决策树的决策过程就是从根结点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子结点,将叶子结点的存放的类别作为决策结果。简单说来,决策树的总体流程是自根至叶的递归过程,在每个中间结点寻找一个「划分」(split or test)属性

  • 从逻辑角度,是if-else语句的组合

  • 从几何角度,是根据某种准则划分特征空间

1.4.2 递归停止条件

  1. 对于一个节点,全是同类样本,那不用执行下一步细分判断

  2. 对于一个节点,仍然有异类样本,但是没有下一个属性去判断了,也要终止

  3. 对于一个属性的其中一个分类,若数据集中的数据完全没有对应分类中的数据,即空集,那也要终止。

1.4.3 最优属性选择

1. 信息论知识补充:

自信息:,本质上就是一个单位,当b=2时单位为bit,当b=e时单位为nat

假设当前数据集D 中共有y类样本,随机变量X的每个取值x都对应一个p(x) ,这里的p(x)就是 第x类样本所占的比例。

(1)信息熵

(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定。公式如下:</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值