基于 Mask R-CNN 中边界框回归知识讲解（重点是代码）

最新推荐文章于 2024-08-02 12:43:10 发布

一名不会算法的在职算法工程师

最新推荐文章于 2024-08-02 12:43:10 发布

阅读量3.7k

点赞数 6

CC 4.0 BY-SA版权

分类专栏： Mask R-CNN deep learning 文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_35874169/article/details/109444478

Mask R-CNN 同时被 2 个专栏收录

5 篇文章

订阅专栏

deep learning

5 篇文章

订阅专栏

博客围绕边界框回归展开，介绍其概念，即寻找映射使原始建议框接近真实边界框。讲解了边界框回归的映射公式，包括平移变换和尺寸缩放变换，还提到算法输出的是相对于建议框的偏移量。最后对Mask R - CNN中边界框回归代码，如计算G^和真实偏移量t∗的过程进行了讲解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、边界框回归的概念

如图所示，红色的框代表原始的建议框（proposal region），绿色的框代表目标的真实边界框（ground truth）。边界框回归的目标是：寻找一种映射关系，使得原始的建议框（红色）经过映射变为一个与真实边界框（绿色）更接近的边界框（蓝色）。一个矩形框通常可以用x、y、w、h四个参数表示（它们分别表示窗口中心点的坐标以及矩形框的宽高）。

二、公式讲解

边界框回归的这种映射关系可以表示为：

边界框 $G^\hat{G}$ 可以通过下式得到，其中 $P$ = ( $P$ $_{x}$ , $P$ $_{y}$ , $P$ $_{w}$ , $P$ $_{h}$ )，边界框的变换由 $d$ $_{x}$ ( $P$ )、 $d$ $_{y}$ ( $P$ )、 $d$ $_{w}$ ( $P$ )、 $d$ $_{h}$ ( $P$ )四个函数实现。
在这里插入图片描述
公式（1）实现的是平移变换，可以明显看到是在 $P$ $_{x}$ , $P$ $_{y}$ 的基础上加一个 $△\triangle$ $_{x}$ ， $△\triangle$ $_{y}$ 得到，很容易想到肯定在中心坐标上加上相对于宽和高的 $d$ $_{x}$ 、 $d$ $_{y}$ 倍；
公式（2）实现的是一个对数空间的尺寸缩放变换，即乘以 $e$ $^{d}$ 倍；
在目标检测算法中， $d$ $_{x}$ 、 $d$ $_{y}$ 、 $d$ $_{w}$ 、 $d$ $_{h}$ 是由算法在边界框回归分支中输出得到的，也就是在算法中边界框预测分支的输出并不是真正的框的位置，而是相对于建议框的偏移量（delta）。