重采样---不平衡分类

最新推荐文章于 2025-01-04 17:21:46 发布

原创

最新推荐文章于 2025-01-04 17:21:46 发布 · 3.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#不平衡分类 #重采样 #下采样 #上采样

重采样方法包括上采样和下采样，用于平衡不平衡分类问题，提高稀有类识别率。SMOTE算法是有效的上采样手段，通过连接邻近样本生成新样本。下采样则通过去除部分大类样本，如噪音和冗余样本。集成学习如AdaBoost结合上采样和下采样的子分类器可提升效果，但采样策略和比率选择仍有待优化。不同研究对上采样和下采样效果有争议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

重采样方法是通过增加稀有类训练样本数的*上采样( up sampling) 和减少大类样本数的*下采样( down sampling)使不平衡的样本分布变得比较平衡,从而提高分类器对稀有类的识别率。

最原始的上采样方法是复制稀有类的样本,但是这样做容易导致过学习[,并且对提高稀有类识别率没有太大帮助.

较高级的上采样方法则采用一些启发式技巧,有选择地复制稀有类样本,或者生成新的稀有类样本. Chawla等人提出的SMOTE算法是一种简单有效的上采样方法,该方法首先为每个稀有类样本随机选出几个邻近样本,并且在该样本与这些邻近的样本的连线上随机取点,生成无重复的新的稀有类样本. Lee则通过为训练集中的稀有类样本加上随机噪声的方式获取新的正类样本. Kubat等人将稀有类和大类交叉分布区域内的样本重新标定成稀有类样本,以降低不平衡度.

另一方面,下采样通过舍弃部分大类样本的方法,降低不平衡程度. Kubat和Matwin[采用单边采样方式,去除大类中的噪音样本、边界样本和冗余样本. Chen等人则通过修剪大类的支持向量,达到平衡支持向量个数的目的,从而提高稀有类的识别率.

Raskutti和Kowalczyk**同时考虑上采样和下采样,并且扩展到一类学习,即只采用一类的样本作为训练集,因此不存在不平衡分类问题. Estabrooks和Japkowic同时采用上采样和下采样以及不同的采样率**,获得大量的子分类器,并使用混合专家(mixture of experts)学习框架将这些子分类器集成.他们的结果显示,这种方法比普通的AdaBoost有更好的分类效果,但并不清楚到底是上采样还是下采样更有效,也不清楚哪种采样