重采样方法是通过增加稀有类训练样本数的*上采样( up sampling) 和减少大类样本数的*下采样( down sampling)使不平衡的样本分布变得比较平衡,从而提高分类器对稀有类的识别率。
最原始的上采样方法是复制稀有类的样本,但是这样做容易导致过学习[,并且对提高稀有类识别率没有太大帮助.
较高级的上采样方法则采用一些启发式技巧,有选择地复制稀有类样本,或者生成新的稀有类样本. Chawla等人提出的SMOTE算法是一种简单有效的上采样方法,该方法首先为每个稀有类样本随机选出几个邻近样本,并且在该样本与这些邻近的样本的连线上随机取点,生成无重复的新的稀有类样本. Lee则通过为训练集中的稀有类样本加上随机噪声的方式获取新的正类样本. Kubat等人将稀有类和大类交叉分布区域内的样本重新标定成稀有类样本,以降低不平衡度.
另一方面,下采样通过舍弃部分大类样本的方法,降低不平衡程度. Kubat和Matwin[采用单边采样方式,去除大类中的噪音样本、边界样本和冗余样本. Chen等人则通过修剪大类的支持向量,达到平衡支持向量个数的目的,从而提高稀有类的识别率.
Raskutti和Kowalczyk**同时考虑上采样和下采样,并且扩展到一类学习,即只采用一类的样本作为训练集,因此不存在不平衡分类问题. Estabrooks和Japkowic同时采用上采样和下采样以及不同的采样率**,获得大量的子分类器,并使用混合专家(mixture of experts)学习框架将这些子分类器集成.他们的结果显示,这种方法比普通的AdaBoost有更好的分类效果,但并不清楚到底是上采样还是下采样更有效,也不清楚哪种采样