
决策树
文章平均质量分 83
和你在一起^_^
see you bet
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树⑤——Python代码实现决策树 Decision_tree-python(ID3,C4.5,CART)
Decision_tree-python决策树分类(ID3,C4.5,CART)三种算法的区别如下:(1) ID3算法以信息增益为准则来进行选择划分属性,选择信息增益最大的;(2) C4.5算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的;(3) CART算法使用“基尼指数”来选择划分属性,选择基尼值最小的属性作为划分属性.本次实验我的数据集如下所示:共分为四个属性特征:年龄段,有工作,有自己的房子,信贷情况;现根据这四种属性特征来决定是否给予贷款为了方便,我对原创 2020-05-09 17:50:17 · 1378 阅读 · 1 评论 -
GBDT常见面试点
1、介绍一下GBDT全称梯度下降树,可以用于分类也可以用于回归,可是筛选特征,通过加法模型(基函数的线性组合)利用损失函数的负梯度,减小残差将数据分类或者回归的算法, GBDT的核心就在于每一棵树都建立在之前所学的所有树的绝对值残差,每一步是拟合上一步的残差。2、gbdt 的算法的流程gbdt通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要...原创 2020-04-01 11:24:30 · 417 阅读 · 0 评论 -
决策树(decision tree)——连续值处理
决策树(decision tree)——连续值处理转自: https://blog.csdn.net/u012328159/article/details/79396893前面两篇博客分别介绍了如何构造决策树(根据信息增益,信息增益率,基尼指数等)和如何对决策树进行剪枝(预剪枝和后剪枝),但是前面两篇博客主要都是基于离散变量的,然而我们现实的机器学习任务中会遇到连续属性,这篇博客主要介绍决策树...原创 2020-03-11 16:39:20 · 2614 阅读 · 1 评论 -
RF,GBDT,XgBoost的区别
Random Forest:(什么是随机森林,简单介绍一下)主要运用到的方法是bagging(Bagging算法 (英语:Bootstrap aggregating,引导聚集算法),又称装袋算法),采用Bootstrap的随机有放回的抽样,抽样出N份数据集,训练出N个决策树。然后根据N个决策树输出的结果决定最终结果(离散型的输出:取最多的类别,连续型的输出:取平均数),是一种集成学习下面引用的...原创 2020-03-10 11:49:57 · 274 阅读 · 0 评论 -
决策树应用实例④——淘宝&京东白条金额(回归&均方差&随机森林)
之前在京东购物,发现了一个新的支付方式,叫打白条,买东西可以先付钱,后面再分期付,这个跟买房按揭还不太一样,前者还必须缴纳30%以上的首付,而白条可以完全不用交钱。淘宝上也有类似的功能,叫花呗分期。当然也不是所有商品都能白条,白条金额也是有一个上限的。电商平台是根据什么决定用户的白条金额呢?太少了,无法达到刺激用户消费的作用,还显得平台小家子气;太多了,又无法承担用户薅羊毛一次就跑的风险。我猜...原创 2020-02-22 11:34:13 · 1090 阅读 · 0 评论 -
决策树③——决策树参数介绍(分类和回归)
前面总结了信息熵,信息增益和基尼信息的定义,以及决策树三大算法的原理及迭代过程,今天介绍下Python中机器学习Sklearn库中决策树的使用参数决策树既可以做分类,也可以做回归,两者参数大体相近,下面会先介绍分类,再对回归不一样的参数做单独说明一、分类参数1、 criterion: 特征选取方法,可以是gini(基尼系数),entropy(信息增益),通常选择gini,即CART算法,如果...原创 2020-02-22 11:20:50 · 5558 阅读 · 0 评论 -
决策树②——决策树算法原理(ID3,C4.5,CART)
文章目录一瞥一、ID3算法1、算法原理2、算法过程二、C4.5算法1、算法原理2、算法过程三、CART算法1、原理2、算法过程四、决策树应用场景决策树是一种运用统计概率分析的机器学习方法。它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果,主要有ID3,C4.5和CART三种基础决策树一、ID3算法1...原创 2020-02-22 11:14:05 · 1062 阅读 · 0 评论 -
决策树①——信息熵&信息增益&基尼系数
本文主要是通过大白话,解释何为 信息,信息熵,信息增益,信息增益率,基尼系数一、信息能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用...原创 2019-08-22 20:38:16 · 2594 阅读 · 0 评论 -
【机器学习】集成算法与随机森林
集成算法与随机森林目的:让机器学习效果更好,一个人决策树效果不够,那就一群树。Bagging训练多个分类器取均值,进行并行训练f(x)=1m∑k=1mfk(x)f(x)= \frac{1}{m}\sum_{k=1}^mf_k(x)f(x)=m1k=1∑mfk(x)全称:Bootstrap aggregation(并行训练一堆分类器(树))最典型代表:随机森林随机:数据采样随机,...原创 2019-08-27 11:25:02 · 531 阅读 · 0 评论