在机器学习的世界里,决策树就像一位经验丰富的判官,通过层层追问做出最终裁决。这种模型既可以处理分类问题,也能解决回归任务,因其直观易懂的特点被广泛应用。
决策树的 "长相"
一棵完整的决策树由三部分构成:
根节点:第一个选择点,就像案件审理时的核心争议点
非叶子节点与分支:中间决策过程,类似推理中的各个证据链
叶子节点:最终决策结果,如同判官落下的判决
比如判断 "是否去酒吧",可能先看 "有没有聚会",再看 "作业是否紧急",层层递进得出结论。
核心难题:如何构建最优决策树
决策树的测试很简单 —— 让新数据顺着树走一遍即可。但训练阶段的难点在于:如何选择特征进行节点切分?
关键思路是:让每个节点都能最大程度区分数据。就像判官断案,先抓住最关键的证据。
用 "熵" 衡量不确定性
熵是衡量数据混乱程度的指标:
公式:H (X) = -∑pi・logpi
特点:数据越混乱(类别越杂),熵值越大;当所有数据属于同一类时,熵为 0
例如:
A 集合 [1,1,1,1,1,1,1,1,2,2] 熵值较小(较有序)
B 集合 [1,2,3,4,5,6,7,8,9,1] 熵值更大(更混乱)
信息增益:寻找最佳切分点
信息增益表示用某个特征划分后,数据不确定性减少的程度。增益越大,说明该特征的区分能力越强。
以 14 天打球数据为例:
- 原始熵值 0.940(9 天打球,5 天不打)。
- 用 "天气" 特征划分后,熵值降至 0.693,信息增益 0.247。
- 比较所有特征的信息增益,选最大者作为根节点,以此类推构建整棵树。
为什么选择决策树?
它就像一套可视化的决策指南,每个判断步骤都清晰可见,即使是非专业人士也能理解推理过程。这种 "透明性" 在医疗、金融等需要解释性的领域尤为珍贵,差值越大的为老大先做决策。