目录
1.基本概念
1.1 定义
决策树:基于树结构进行决策的处理机制,不断根据某属性进行划分的过程,通常会进行一系列的判断或是“子决策”。
是一种常用的有监督的分类算法。
1.2 策略
“分而治之”,递归进行。
1.3 解释
如下图,当我们需要判断一个西瓜是否为好瓜,我们先判断色泽是否为青绿,如果为正,我们继续进行下一个判断。其中:
1. 每个内部结点表示一种属性的测试
2. 每个分支表示一个测试输出
3. 每个叶节点代表一种类别
【根节点Root】:色泽
【内部结点Node】:根蒂,敲声 等
【叶节点Leaf】: 比如与色泽青绿对应的是坏瓜这个叶节点
【分支Branch】:对于色泽来说,有两个分支,指的是该属性取值为 [青绿] 和 [非青绿] 的两种可能结果。
显然,我们能够明白每一个决策都是建立在之前决策的基础之上的,决策树的最终目的是将样本越分越”纯“。
1.4 决策树生长与最优属性的选择
1.4.1 决策树生长流程
决策树的决策过程就是从根结点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子结点,将叶子结点的存放的类别作为决策结果。简单说来,决策树的总体流程是自根至叶的递归过程,在每个中间结点寻找一个「划分」(split or test)属性。
-
从逻辑角度,是if-else语句的组合
-
从几何角度,是根据某种准则划分特征空间
1.4.2 递归停止条件
-
对于一个节点,全是同类样本,那不用执行下一步细分判断
-
对于一个节点,仍然有异类样本,但是没有下一个属性去判断了,也要终止
-
对于一个属性的其中一个分类,若数据集中的数据完全没有对应分类中的数据,即空集,那也要终止。
1.4.3 最优属性选择
1. 信息论知识补充:
自信息:,本质上就是一个单位,当b=2时单位为bit,当b=e时单位为nat
假设当前数据集D 中共有y类样本,随机变量X的每个取值x都对应一个p(x) ,这里的p(x)就是 第x类样本所占的比例。
(1)信息熵
(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定。公式如下:</