1、概述
逻辑回归本身是一种分类算法,它并不涉及下采样或过采样操作。然而,在处理不平衡数据集时,这些技术经常被用来改善模型的性能。下采样和过采样是两种常用的处理不平衡数据集的方法。
2、下采样
1、概念
下采样是通过减少数量较多的类别(多数类)的样本数量,使其与数量较少的类别(少数类)的样本数量相匹配或接近。这样可以使模型在训练时不会偏向于多数类。
2、原理
随机选择一些多数类的样本并从数据集中移除,只保留与少数类样本数量相等的样本。可以导致数据集的信息丢失,特别是当多数类样本被大量移除时。
3、案例
从0中找到和1的数目相同的数据
代码
import pandas as pd
import nump