一、ROC曲线讲解
1、ROC概述
ROC曲线(Receiver Operating Characteristic curve)是一种用于评估二分类模型性能的工具。它以假阳性率(False Positive Rate,FPR)为横坐标,真阳性率(True Positive Rate,TPR)为纵坐标,绘制出的曲线。
在二分类问题中,我们通常将一个类别定义为“正例”,另一个类别定义为“负例”。而模型的预测结果可以分为四种情况:真正例(True Positive,TP)、真负例(True Negative,TN)、假正例(False Positive,FP)和假负例(False Negative,FN)。
ROC曲线通过改变分类模型的阈值来绘制,阈值决定了模型将样本划分为正例还是负例的标准。当阈值较低时,模型会更倾向于将样本划分为正例,这可能会增加假正例的数量,同时也会增加真正例的数量。当阈值较高时,模型会更倾向于将样本划分为负例,这可能会减少假正例的数量,但也会减少真正例的数量。
ROC曲线的横坐标是假阳性率(FPR),计算公式为 FPR = FP / (FP + TN),表示被错误地划分为正例的负例样本占所有负例样本的比例。
ROC曲线的纵坐标是真阳性率(TPR),计算公式为 TPR = TP / (TP + FN),表示被正确地划分为正例的正例样本占所有正例样本的比例,也可以理解为召回率(Recall)或灵敏度(Sensitivity)。
ROC曲线上的每个点代表了在不同阈值下模型的性能,曲线越靠近左上角,说明模型的性能越好。而ROC曲线下的面积(Area Under the Curve,AUC)则是一个综合评估模型性能的指标,取值范围在0到1之间,数