机器学习——集成算法原理

本文介绍了集成学习的三种主要方法:Bagging、Boosting和Stacking。Bagging中的随机森林通过数据和特征的随机抽样构建多样化的决策树集合。随机森林具有处理高维数据、特征重要性评估和并行化的优势。Boosting中的AdaBoost通过迭代调整错误样本权重,逐步提高模型性能。Stacking则结合多个分类器的结果,再通过一个元模型进行学习,以提升整体预测准确率。集成学习在实际应用中能有效提高模型的稳定性和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Ensemble learning

        目的:训练多个模型,让机器学习效果更好 

        Bagging:训练多个分类器取平均

        Boosting:从弱学习器开始加强,通过加权来进行训练

(加入一棵树,要比原来强)

        Stacking:聚合多个分类或回归模型(可以分阶段来做)

 2.Bagging模型

        最典型的代表就是随机森林

        随机:数据采样随机,特征选择随机

        森林:很多个决策树并行放在一起

 

3.随机森林  

构造树模型:

 

由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样

 

之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了 

随机森林优势  

它能够处理很高维度(feature很多)的数据,并且不用做特征选择

在训练完后,它能够给出哪些feature比较重要

容易做成并行化方法,速度比较快

可以进行可视化展示,便于分析

 

4.Boosting模型  

        典型代表:AdaBoost, Xgboost

        Adaboost会根据前一次的分类效果调整数据权重

        解释:如果某一个数据在这次分错了,那么在下一次我就会给它更大的权重

        最终的结果:每个分类器根据自身的准确性来确定各自的权重,再合体

5.Stacking模型 

        堆叠:训练多个分类器,将其得到的结果堆叠起来,最后再训练一个模型对前面堆叠的结果进行训练。可以堆叠各种各样的分类器(KNN,SVM,RF等等)

        分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练

        堆叠在一起确实能使得准确率提升,但是速度是个问题,集成算法是竞赛与论文神器,当我们更关注于结果时不妨来试试!

 

         

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

樱花的浪漫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值