一、 边界框回归的概念
如图所示,红色的框代表原始的建议框(proposal region),绿色的框代表目标的真实边界框(ground truth)。边界框回归的目标是:寻找一种映射关系,使得原始的建议框(红色)经过映射变为一个与真实边界框(绿色)更接近的边界框(蓝色)。一个矩形框通常可以用x、y、w、h四个参数表示(它们分别表示窗口中心点的坐标以及矩形框的宽高)。
二、公式讲解
边界框回归的这种映射关系可以表示为:
边界框 G^\hat{G}G^ 可以通过下式得到,其中PPP = (PPPx_{x}x, PPPy_{y}y, PPPw_{w}w,PPPh_{h}h),边界框的变换由 dddx_{x}x(PPP)、dddy_{y}y(PPP)、dddw_{w}w(PPP)、dddh_{h}h(PPP)四个函数实现。
公式(1)实现的是平移变换,可以明显看到是在 PPPx_{x}x, PPPy_{y}y 的基础上加一个 △\triangle△x_{x}x, △\triangle△y_{y}y得到,很容易想到肯定在中心坐标上加上相对于宽和高的dddx_{x}x、dddy_{y}y倍;
公式(2)实现的是一个对数空间的尺寸缩放变换,即乘以 eeed^{d}d 倍;
在目标检测算法中,dddx_{x}x、dddy_{y}y、dddw_{w}w、dddh_{h}h是由算法在边界框回归分支中输出得到的,也就是在算法中边界框预测分支的输出并不是真正的框的位置,而是相对于建议框的偏移量(delta)。
我们又知道,在经典的 two-stage 目标检测算法中,根据边界框 bbox的损失值来进行更新,那么必然要求出真实框相对于建议框的偏移量(t∗_{*}∗),其计算公式如下,与上述的公式相对应,其实就是一个求解的逆过程。
三、Mask R-CNN 中边界框回归代码讲解
这块其实就是对上述公式的一个应用。
1. 计算 G^\hat{G}G^ 的过程;
2.计算真实的(t∗_{*}∗)的过程
若转载请注明出处,谢谢大家,欢迎大家一起交流。