机器学习——集成算法原理

最新推荐文章于 2024-11-03 00:18:13 发布

原创最新推荐文章于 2024-11-03 00:18:13 发布 · 276 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习 #算法 #python

机器学习原理专栏收录该内容

34 篇文章

订阅专栏

本文介绍了集成学习的三种主要方法：Bagging、Boosting和Stacking。Bagging中的随机森林通过数据和特征的随机抽样构建多样化的决策树集合。随机森林具有处理高维数据、特征重要性评估和并行化的优势。Boosting中的AdaBoost通过迭代调整错误样本权重，逐步提高模型性能。Stacking则结合多个分类器的结果，再通过一个元模型进行学习，以提升整体预测准确率。集成学习在实际应用中能有效提高模型的稳定性和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Ensemble learning

目的：训练多个模型，让机器学习效果更好

Bagging：训练多个分类器取平均

Boosting：从弱学习器开始加强，通过加权来进行训练

（加入一棵树，要比原来强）

Stacking：聚合多个分类或回归模型（可以分阶段来做）

2.Bagging模型

最典型的代表就是随机森林

随机：数据采样随机，特征选择随机

森林：很多个决策树并行放在一起

3.随机森林

构造树模型：

由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样

之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了

随机森林优势

它能够处理很高维度（feature很多）的数据，并且不用做特征选择

在训练完后，它能够给出哪些feature比较重要

容易做成并行化方法，速度比较快

可以进行可视化展示，便于分析

4.Boosting模型

典型代表：AdaBoost， Xgboost

Adaboost会根据前一次的分类效果调整数据权重

解释：如果某一个数据在这次分错了，那么在下一次我就会给它更大的权重

最终的结果：每个分类器根据自身的准确性来确定各自的权重，再合体

5.Stacking模型

堆叠：训练多个分类器，将其得到的结果堆叠起来，最后再训练一个模型对前面堆叠的结果进行训练。可以堆叠各种各样的分类器（KNN,SVM,RF等等）

分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练

堆叠在一起确实能使得准确率提升，但是速度是个问题，集成算法是竞赛与论文神器，当我们更关注于结果时不妨来试试！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱花的浪漫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。