常见的损失函数

最新推荐文章于 2025-06-13 15:47:56 发布

_大太阳_

最新推荐文章于 2025-06-13 15:47:56 发布

阅读量994

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

原文链接：https://zhuanlan.zhihu.com/p/77686118

机器学习专栏收录该内容

21 篇文章

订阅专栏

本文深入解析了机器学习中常见的损失函数，包括均方差损失、平均绝对误差损失、Huber损失、交叉熵损失和合页损失等。探讨了它们的基本形式、背后的假设以及在回归和分类问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 损失函数、代价函数、目标函数

损失函数（Loss Function）通常是针对单个训练样本而言，给定一个模型输出 $y^\hat{y}$ 和一个真实 $y$ ，损失函数输出一个实值损失 $L=f(yi,yi^)L=f(y_i,\hat{y_i})$ 。
代价函数（Cost Function）通常是针对整个训练集（或者是mini-batch Gradient Descent时一个mini-batch）的总损失 $J=Σi=1Nf(yi,yi^)J=\Sigma^N_{i=1}f(y_i,\hat{y_i})$ 。
目标函数（Objective Function）表示任意希望被优化的函数，用于机器学习领域和非机器学习领域。
A loss function is a part of a cost function which is a type of an objective function.

2. 损失函数

1）均方差损失（Mean Squared Error Loss）

基本形式与原理
均方差损失是机器学习、深度学习回归任务中最常用的一种损失函数，也成为L2 Loss，其基本形式如下 $JMSE=1N∑i=1N(yi−yi^)2J_{MSE}=\frac1N\sum^N_{i=1}(y_i-\hat{y_i})^2$ 从直觉上理解均方差损失，这个损失函数的最小值为0（当预测值等于真实值时），最大值为无穷大。如下图，对于真实值 $y = 0$ ，不同的预测值 $[- 1.5, 1.5]$ 的均方差损失的变化图。横轴是不同的预测值，纵轴是均方差损失，可以看到随着预测与真实值绝对误差 $∣y−y^∣|y-\hat{y}|$ 的增加，均方差损失呈二次方地增加。
背后的假设
实际上在一定的假设下，我们可以使用最大化似然得到均方差损失的形式。假设模型预测与真实值之间的误差服从标准高斯分布 $(μ=0，σ=1)(μ=0，\sigma=1)$ ，则给定一个 $x_i$ 模型输出真实值 $y_i$ 的概率为 $p(yi∣xi)=12πexp(−(yi−yi^)22)p(y_i|x_i)=\frac1{\sqrt{2π}}exp(-\frac{(y_i-\hat{y_i})^2}{2})$ 进一步我们假设数据集中 N 个样本点之间相互独立，则给定所有 $x$ 输出所有真实值 $y$ 的概率，即似然Likelihood，为所有 $p(y_i|x_i)$ 的累乘 $L(x,y)=∏i=1N12πexp(−(yi−yi^)22)L(x,y)=\prod^N_{i=1}\frac1{\sqrt{2π}}exp(-\frac{(y_i-\hat{y_i})^2}{2})$ 通常为了计算方便，我们通常最大化对数似然Log-Likelihood $LL(x,y)=log⁡(L(x,y))=−N2log⁡2π−12∑i=1N(yi−yi^)2LL(x,y)=\log(L(x,y))=- \frac N2\log{2π}-\frac12\sum^N_{i=1}(y_i-\hat{y_i})^2$ 去掉与 $yi^\hat{y_i}$ 无关的第一项，然后转化为最小化负对数似然 Negative Log-Likelihood $NLL(x,y)=12∑i=1N(yi−yi^)2NLL(x,y)=\frac12\sum^N_{i=1}(y_i-\hat{y_i})^2$ 可以看到这个实际上就是均方差损失的形式。也就是说在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的，因此在这个假设能被满足的场景中（比如回归），均方差损失是一个很好的损失函数选择；当这个假设没能被满足的场景中（比如分类），均方差损失不是一个好的选择。

2）平均绝对误差损失 (Mean Absolute Error Loss)

基本形式与原理
平均绝对误差是另一类常用的损失函数，也称为 L1 Loss。其基本形式如下 $JMAE=1N∑i=1N∣yi−yi^∣J_{MAE}=\frac1N\sum^N_{i=1}|y_i-\hat{y_i}|$ 同样的我们可以对这个损失函数进行可视化如下图，MAE 损失的最小值为 0（当预测等于真实值时），最大值为无穷大。可以看到随着预测与真实值绝对误差 $∣y−y^∣|y-\hat{y}|$ 的增加，MAE 损失呈线性增长。
背后的假设
同样的我们可以在一定的假设下通过最大化似然得到 MAE 损失的形式，假设模型预测与真实值之间的误差服从拉普拉斯分布 Laplace distribution $(μ = 0, b = 1)$ ，则给定一个 $x_i$ 模型输出真实值 $y_i$ 的概率为 $p(yi∣xi)=12exp(−∣yi−yi^∣)p(y_i|x_i)=\frac12exp(-|y_i-\hat{y_i}|)$ 与上面推导 MSE 时类似，我们可以得到的负对数似然实际上就是 MAE 损失的形式 $L(x,y)=∏i=1N12exp(−∣yi−yi^∣)L(x,y)=\prod^N_{i=1}\frac12exp(-|y_i-\hat{y_i}|)$ $LL(x,y)=−N2−∑i=1N∣yi−yi^∣LL(x,y)=-\frac N2-\sum^N_{i=1}|y_i-\hat{y_i}|$ $NLL(x,y)=∑i=1N∣yi−yi^∣NLL(x,y)=\sum^N_{i=1}|y_i-\hat{y_i}|$

3）MAE 与 MSE 区别

MSE 损失相比 MAE 通常可以更快地收敛
当使用梯度下降算法时，MSE 损失的梯度为 $−yi^-\hat{y_i}$ ，，而 MAE 损失的梯度为 $±1\pm1$ ，即 MSE 的梯度的 scale 会随误差大小变化，而 MAE 的梯度的 scale 则一直保持为 1，即便在绝对误差 $∣yi−yi^∣|y_i-\hat{y_i}|$ 很小的时候 MAE 的梯度 scale 也同样为 1，这实际上是非常不利于模型的训练的。当然你可以通过在训练过程中动态调整学习率缓解这个问题，但是总的来说，损失函数梯度之间的差异导致了 MSE 在大部分时候比 MAE 收敛地更快。这个也是 MSE 更为流行的原因。
MAE 损失对于 outlier 更加健壮，即更加不易受到 outlier 影响。
第一个角度是直观地理解，下图是 MAE 和 MSE 损失画到同一张图里面，由于MAE 损失与绝对误差之间是线性关系，MSE 损失与误差是平方关系，当误差非常大的时候，MSE 损失会远远大于 MAE 损失。因此当数据中出现一个误差非常大的 outlier 时，MSE 会产生一个非常大的损失，对模型的训练会产生较大的影响。

第二个角度是从两个损失函数的假设出发，MSE 假设了误差服从高斯分布，MAE 假设了误差服从拉普拉斯分布。拉普拉斯分布本身对于 outlier 更加 robust。参考下图（来源：Machine Learning: A Probabilistic Perspective 2.4.3 The Laplace distribution Figure 2.8），当右图右侧出现了 outliers 时，拉普拉斯分布相比高斯分布受到的影响要小很多。因此以拉普拉斯分布为假设的 MAE 对 outlier 比高斯分布为假设的 MSE 更加 robust。

4）Huber Loss

上文我们分别介绍了 MSE 和 MAE 损失以及各自的优缺点，MSE 损失收敛快但容易受 outlier 影响，MAE 对 outlier 更加健壮但是收敛慢，Huber Loss 则是一种将 MSE 与 MAE 结合起来，取两者优点的损失函数，也被称作 Smooth Mean Absolute Error Loss 。其原理很简单，就是在误差接近 0 时使用 MSE，误差较大时使用 MAE。

5）交叉熵损失（Cross Entropy Loss）

上文介绍的几种损失函数都是适用于回归问题损失函数，对于分类问题，最常用的损失函数是交叉熵损失函数。

二分类
考虑二分类，在二分类中我们通常使用 Sigmoid 函数将模型的输出压缩到 (0, 1) 区间内 $yi^∈(0,1)\hat{y_i}\in(0,1)$ ，用来代表给定输入 $x_i$ ，模型判断为正类的概率。由于只有正负两类，因此同时也得到了负类的概率。 $p(yi=1∣xi)=yi^p(y_i=1|x_i)=\hat{y_i}$ $p(yi=0∣xi)=1−yi^p(y_i=0|x_i)=1-\hat{y_i}$ 将两条式子合并成一条 $p(yi∣xi)=(yi^)yi(1−yi^)1−yip(y_i|x_i)=(\hat{y_i})^{y_i}(1-\hat{y_i})^{1-y_i}$ 假设数据点之间独立同分布，则似然可以表示为 $L(x,y)=∏i=1N(yi^)yi(1−yi^)1−yiL(x,y)=\prod^N_{i=1}(\hat{y_i})^{y_i}(1-\hat{y_i})^{1-y_i}$ 对似然取对数，然后加负号变成最小化负对数似然，即为交叉熵损失函数的形式 $NLL(x,y)=JCE=−∑i=1N(yilog⁡(yi^)+(1−yi)log⁡(1−yi^))NLL(x,y)=J_{CE}=-\sum^N_{i=1}(y_i\log(\hat{y_i})+(1-y_i)\log(1-\hat{y_i}))$ 下图是对二分类的交叉熵损失函数的可视化，蓝线是目标值为 0 时输出不同输出的损失，黄线是目标值为 1 时的损失。可以看到约接近目标值损失越小，随着误差变差，损失呈指数增长。
多分类
在多分类的任务中，交叉熵损失函数的推导思路和二分类是一样的，变化的地方是真实值 $y_i$ 现在是一个 One-hot 向量，同时模型输出的压缩由原来的 Sigmoid 函数换成 Softmax 函数。Softmax 函数将每个维度的输出范围都限定在 $(0, 1)$ 之间，同时所有维度的输出和为 1，用于表示一个概率分布。 $p(yi∣xi)=∏k=1K(yi^k)yikp(y_i|x_i)=\prod^K_{k=1}(\hat{y_i}^k)^{y_i^k}$ 其中 $k∈Kk\in K$ 表示 K 个类别中的一类，同样的假设数据点之间独立同分布，可得到负对数似然为 $NLL(x,y)=JCE=−∑i=1N∑k=1Kyiklog⁡(yi^k)NLL(x,y)=J_{CE}=-\sum^N_{i=1}\sum^K_{k=1}y_i^k\log(\hat{y_i}^k)$ 由于 $y_i$ 是一个 one-hot 向量，除了目标类为 1 之外其他类别上的输出都为 0，因此上式也可以写为 $JCE=−∑i=1Nyicilog⁡(yi^ci)J_{CE}=-\sum^N_{i=1}y_i^{c_i}\log(\hat{y_i}^{c_i})$ 其中 $c_i$ 是样本 $x_i$ 的目标类。通常这个应用于多分类的交叉熵损失函数也被称为 Softmax Loss 或者 Categorical Cross Entropy Loss。

7) log对数损失函数

对数损失函数假设样本服从泊松0–1分布。

特点：
(1) log对数损失函数能非常好的表征概率分布，在很多场景尤其是多分类，如果需要知道结果属于每个类别的置信度，那它非常适合。
(2)健壮性不强，相比于hinge loss对噪声更敏感。
(3)逻辑回归的损失函数就是log对数损失函数。

6）合页损失（Hinge Loss）

合页损失是另外一种二分类损失函数，适用于 maximum-margin 的分类，支持向量机 Support Vector Machine (SVM) 模型的损失函数本质上就是 Hinge Loss + L2 正则化。合页损失的公式如下 $Jhinge=∑i=1Nmax(0,1−sgn(yi)yi^)J_{hinge}=\sum^N_{i=1}max(0,1-sgn(y_i)\hat{y_i})$ 下图是 $y$ 为正类，即 $s g n (y) = 1$ 时，不同输出的合页损失示意图

可以看到当 $y$ 为正类时，模型输出负值会有较大的惩罚，当模型输出为正值且在 $(0, 1)$ 区间时还会有一个较小的惩罚。即合页损失不仅惩罚预测错的，并且对于预测对了但是置信度不高的也会给一个惩罚，只有置信度高的才会有零损失。使用合页损失直觉上理解是要找到一个决策边界，使得所有数据点被这个边界正确地、高置信地被分类。