YOLOv5改进 | Neck | 添加双向特征金字塔BiFPN【小白轻松上手 | 论文必备】

原创已于 2024-11-07 21:20:28 修改 · 4.2k 阅读

105 ·

CC 4.0 BY-SA版权

文章标签：

#目标跟踪 #人工智能 #计算机视觉 #YOLO #目标检测 #深度学习 #python

于 2024-05-16 12:42:57 首次发布

YOLOv5入门 + 改进涨点专栏收录该内容

96 篇文章

订阅专栏

本文章已经生成可运行项目，

🚀🚀🚀本专栏所有的改进均可成功执行🚀🚀🚀

专栏目录： 《YOLOv5入门 + 改进涨点》专栏介绍 & 专栏目录 |目前已有40+篇内容，内含各种Head检测头、损失函数Loss、Backbone、Neck、NMS等创新点改进

尽管Ultralytics 推出了最新版本的 YOLOv8 模型。但YOLOv5作为一个anchor base的目标检测的算法，YOLOv5可能比YOLOv8的效果更好。但是针对不同的数据集仍然有提升改进的空间，本文给大家带来的教程是修改BiFPN到Neck中。文章在简单介绍原理后，将手把手教学如何进行模块的代码添加和修改，并将修改后的完整代码放在文章的最后，方便大家一键运行，小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

专栏地址：YOLOv5改进+入门——持续更新各种有效涨点方法

1.原理

论文地址：EfficientDet: Scalable and Efficient Object Detection点击即可跳转

官方代码：官方代码仓库点击即可跳转

BiFPN，即Bilateral Feature Pyramid Network，是一种用于目标检测任务的神经网络结构。它是对FPN（Feature Pyramid Network）的改进，旨在提高特征金字塔网络的性能，特别是在处理高分辨率图像时。

BiFPN最初是在EfficientDet模型中提出的，EfficientDet是一种高效的目标检测模型，结合了BiFPN、EfficientNet和其他一些技巧。BiFPN的主要目标是处理FPN中存在的信息损失和模糊性的问题。

BiFPN引入了两个关键的概念来改善FPN：

1. 双向连接（Bilateral Connections）：BiFPN不仅在不同层级之间进行自上而下的特征传递，还引入了自下而上的特征传递，这样可以更好地利用不同层级的特征信息。

2. 双线性汇聚（Bilinear Pooling）：BiFPN使用双线性汇聚来融合不同分辨率的特征图，从而提高了特征的表征能力。

通过这些改进，BiFPN在目标检测任务中取得了很好的效果，尤其是在处理大分辨率图像和小目标时，相比于传统的FPN结构，BiFPN能够提供更加准确和稳定的特征表征，从而提高了目标检测的性能。

2.BiFPN代码

2.1 添加BiFPN代码

关键步骤一：在\yolov5-6.1\models\common.py中添加下面代码

# 结合BiFPN 设置可学习参数 学习不同分支的权重
# 两个分支concat操作
class BiFPN_Concat2(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat2, self).__init__()
        self.d = dimension
        self.w = nn.Parameter(torch.ones(2, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001

    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1]]
        return torch.cat(x, self.d)


# 三个分支concat操作
class BiFPN_Concat3(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat3, self).__init__()
        self.d = dimension
        # 设置可学习参数 nn.Parameter的作用是：将一个不可训练的类型Tensor转换成可以训练的类型parameter
        # 并且会向宿主模型注册该参数 成为其一部分 即model.parameters()会包含这个parameter
        # 从而在参数优化的时候可以自动一起优化
        self.w = nn.Parameter(torch.ones(3, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001

    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1], weight[2] * x[2]]
        return torch.cat(x, self.d)

BiFPN的主要流程可以分为以下几个步骤：

1. 特征提取：首先，输入图像经过卷积神经网络（如EfficientNet等）进行特征提取，得到一系列特征图，这些特征图包含了不同层级的语义信息。

2. 自下而上特征传递：BiFPN从底层开始，利用双线性池化将低分辨率特征图上采样到高分辨率，然后使用双向连接，将上一层的特征图与下一层的上采样特征图进行融合。这种自下而上的特征传递可以帮助从更低层级获取更丰富的信息。

3. 自上而下特征传递：接着，BiFPN沿着特征金字塔网络的自上而下路径进行特征传递。在这个过程中，BiFPN利用双向连接，将上一层的特征图与下一层的上采样特征图进行融合，以获得更加丰富和准确的特征表征。

4. 多尺度特征融合：BiFPN在每个层级上都进行多尺度特征融合，将不同分辨率的特征图通过双线性池化进行融合，从而提高特征的表征能力和鲁棒性。

5. 最终特征输出：最后，BiFPN输出的特征图经过一系列后续处理，如分类器和回归器等，用于目标检测任务中的目标分类和边界框回归等。

通过这样的流程，BiFPN能够充分利用不同层级的特征信息，并通过双向连接和双线性池化等技巧，提高了特征的表征能力和目标检测的性能。

2.2 新增yaml文件

关键步骤二：在 /yolov5/models/ 下新建文件 yolov5_bifpn.yaml并将下面代码复制进去

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 2  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 10
  ]

# YOLOv5 v6.0 BiFPN head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, BiFPN_Concat2, [1]],  # cat backbone P4 <--- BiFPN change
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, BiFPN_Concat2, [1]],  # cat backbone P3 <--- BiFPN change
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14, 6], 1, BiFPN_Concat3, [1]],  # cat P4 <--- BiFPN change
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, BiFPN_Concat2, [1]],  # cat head P5 <--- BiFPN change
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

温馨提示：因为本文只是对yolov5n基础上添加swin模块，如果要对yolov5n/l/m/x进行添加则只需要修改对应的depth_multiple 和 width_multiple。

yolov5n/l/m/x对应的depth_multiple 和 width_multiple如下：

# YOLOv5n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
 
# YOLOv5s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
 
# YOLOv5l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
 
# YOLOv5m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
 
# YOLOv5x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple

2.3 注册模块

关键步骤三：在yolov5/models/yolo.py中注册,大概在270行左右添加下面内容

# 添加bifpn_concat结构
elif m is BiFPN_Concat2:
    c2 = sum(ch[x] for x in f)
# 添加bifpn_concat结构
elif m is BiFPN_Concat3:
    c2 = sum(ch[x] for x in f)

关键步骤四：在yolov5/train.py中注册,大概在160行左右添加下面内容

需要先导入对对应的包

# BiFPN_Concat
elif isinstance(v, BiFPN_Concat2) and hasattr(v, 'w') and isinstance(v.w, nn.Parameter):
    g1.append(v.w)
elif isinstance(v, BiFPN_Concat3) and hasattr(v, 'w') and isinstance(v.w, nn.Parameter):
    g1.append(v.w)

2.4 执行程序

在train.py中，将cfg的参数路径设置为yolov5_bifpn.yaml的路径，如下图所示

建议大家写绝对路径，确保一定能找到

🚀运行程序，如果出现下面的内容则说明添加成功🚀

我修改后的代码： 链接: https://pan.baidu.com/s/1mrKhsvgZxq0vgH55eieVVw?pwd=h1kw 提取码: h1kw

3.总结

BiFPN是一种用于目标检测任务的改进型特征金字塔网络，旨在解决传统FPN在处理高分辨率图像和小目标时存在的信息损失和模糊性问题。其主要流程包括特征提取、自下而上特征传递、自上而下特征传递、多尺度特征融合和最终特征输出。BiFPN通过引入双向连接和双线性池化等关键技术，有效地提高了特征的表征能力和目标检测的性能，特别是在处理大分辨率图像和小目标时具有显著优势。

本文章已经生成可运行项目