YOLOv5改进 | Neck | 添加双向特征金字塔BiFPN【小白轻松上手 | 论文必备】

本文章已经生成可运行项目,

🚀🚀🚀本专栏所有的改进均可成功执行🚀🚀🚀


专栏目录: 《YOLOv5入门 + 改进涨点》专栏介绍 & 专栏目录 |目前已有40+篇内容,内含各种Head检测头、损失函数Loss、Backbone、Neck、NMS等创新点改进


尽管Ultralytics 推出了最新版本的 YOLOv8 模型。但YOLOv5作为一个anchor base的目标检测的算法,YOLOv5可能比YOLOv8的效果更好。但是针对不同的数据集仍然有提升改进的空间,本文给大家带来的教程是修改BiFPN到Neck中。文章在简单介绍原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。


专栏地址YOLOv5改进+入门——持续更新各种有效涨点方法 

目录

1.原理

2.BiFPN代码

2.1 添加BiFPN代码

2.2 新增yaml文件

2.3 注册模块

2.4 执行程序

3.总结


 1.原理

论文地址:EfficientDet: Scalable and Efficient Object Detection点击即可跳转 

官方代码:官方代码仓库点击即可跳转

BiFPN,即Bilateral Feature Pyramid Network,是一种用于目标检测任务的神经网络结构。它是对FPN(Feature Pyramid Network)的改进,旨在提高特征金字塔网络的性能,特别是在处理高分辨率图像时。

BiFPN最初是在EfficientDet模型中提出的,EfficientDet是一种高效的目标检测模型,结合了BiFPN、EfficientNet和其他一些技巧。BiFPN的主要目标是处理FPN中存在的信息损失和模糊性的问题。

BiFPN引入了两个关键的概念来改善FPN:

1. 双向连接(Bilateral Connections):BiFPN不仅在不同层级之间进行自上而下的特征传递,还引入了自下而上的特征传递,这样可以更好地利用不同层级的特征信息。

2. 双线性汇聚(Bilinear Pooling):BiFPN使用双线性汇聚来融合不同分辨率的特征图,从而提高了特征的表征能力。

通过这些改进,BiFPN在目标检测任务中取得了很好的效果,尤其是在处理大分辨率图像和小目标时,相比于传统的FPN结构,BiFPN能够提供更加准确和稳定的特征表征,从而提高了目标检测的性能。

2.BiFPN代码

2.1 添加BiFPN代码

关键步骤一:在\yolov5-6.1\models\common.py中添加下面代码

# 结合BiFPN 设置可学习参数 学习不同分支的权重
# 两个分支concat操作
class BiFPN_Concat2(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat2, self).__init__()
        self.d = dimension
        self.w = nn.Parameter(torch.ones(2, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001

    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1]]
        return torch.cat(x, self.d)


# 三个分支concat操作
class BiFPN_Concat3(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat3, self).__init__()
        self.d = dimension
        # 设置可学习参数 nn.Parameter的作用是:将一个不可训练的类型Tensor转换成可以训练的类型parameter
        # 并且会向宿主模型注册该参数 成为其一部分 即model.parameters()会包含这个parameter
        # 从而在参数优化的时候可以自动一起优化
        self.w = nn.Parameter(torch.ones(3, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001

    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1], weight[2] * x[2]]
        return torch.cat(x, self.d)

BiFPN的主要流程可以分为以下几个步骤:

1. 特征提取:首先,输入图像经过卷积神经网络(如EfficientNet等)进行特征提取,得到一系列特征图,这些特征图包含了不同层级的语义信息。

2. 自下而上特征传递:BiFPN从底层开始,利用双线性池化将低分辨率特征图上采样到高分辨率,然后使用双向连接,将上一层的特征图与下一层的上采样特征图进行融合。这种自下而上的特征传递可以帮助从更低层级获取更丰富的信息。

3. 自上而下特征传递:接着,BiFPN沿着特征金字塔网络的自上而下路径进行特征传递。在这个过程中,BiFPN利用双向连接,将上一层的特征图与下一层的上采样特征图进行融合,以获得更加丰富和准确的特征表征。

4. 多尺度特征融合:BiFPN在每个层级上都进行多尺度特征融合,将不同分辨率的特征图通过双线性池化进行融合,从而提高特征的表征能力和鲁棒性。

5. 最终特征输出:最后,BiFPN输出的特征图经过一系列后续处理,如分类器和回归器等,用于目标检测任务中的目标分类和边界框回归等。

通过这样的流程,BiFPN能够充分利用不同层级的特征信息,并通过双向连接和双线性池化等技巧,提高了特征的表征能力和目标检测的性能。

2.2 新增yaml文件

关键步骤二:在 /yolov5/models/ 下新建文件 yolov5_bifpn.yaml并将下面代码复制进去

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 2  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 10
  ]

# YOLOv5 v6.0 BiFPN head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, BiFPN_Concat2, [1]],  # cat backbone P4 <--- BiFPN change
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, BiFPN_Concat2, [1]],  # cat backbone P3 <--- BiFPN change
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14, 6], 1, BiFPN_Concat3, [1]],  # cat P4 <--- BiFPN change
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, BiFPN_Concat2, [1]],  # cat head P5 <--- BiFPN change
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

温馨提示:因为本文只是对yolov5n基础上添加swin模块,如果要对yolov5n/l/m/x进行添加则只需要修改对应的depth_multiple 和 width_multiple。


yolov5n/l/m/x对应的depth_multiple 和 width_multiple如下:

# YOLOv5n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
 
# YOLOv5s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
 
# YOLOv5l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
 
# YOLOv5m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
 
# YOLOv5x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple
2.3 注册模块

关键步骤三:在yolov5/models/yolo.py中注册,大概在270行左右添加下面内容

# 添加bifpn_concat结构
elif m is BiFPN_Concat2:
    c2 = sum(ch[x] for x in f)
# 添加bifpn_concat结构
elif m is BiFPN_Concat3:
    c2 = sum(ch[x] for x in f)

关键步骤四:在yolov5/train.py中注册,大概在160行左右添加下面内容 

需要先导入对对应的包 

# BiFPN_Concat
elif isinstance(v, BiFPN_Concat2) and hasattr(v, 'w') and isinstance(v.w, nn.Parameter):
    g1.append(v.w)
elif isinstance(v, BiFPN_Concat3) and hasattr(v, 'w') and isinstance(v.w, nn.Parameter):
    g1.append(v.w)
2.4 执行程序

在train.py中,将cfg的参数路径设置为yolov5_bifpn.yaml的路径,如下图所示

建议大家写绝对路径,确保一定能找到

 🚀运行程序,如果出现下面的内容则说明添加成功🚀

我修改后的代码: 链接: https://pan.baidu.com/s/1mrKhsvgZxq0vgH55eieVVw?pwd=h1kw 提取码: h1kw

3.总结

BiFPN是一种用于目标检测任务的改进型特征金字塔网络,旨在解决传统FPN在处理高分辨率图像和小目标时存在的信息损失和模糊性问题。其主要流程包括特征提取、自下而上特征传递、自上而下特征传递、多尺度特征融合和最终特征输出。BiFPN通过引入双向连接和双线性池化等关键技术,有效地提高了特征的表征能力和目标检测的性能,特别是在处理大分辨率图像和小目标时具有显著优势。 

本文章已经生成可运行项目
### YOLOv11 中 BiFPN改进方案 #### 什么是 BiFPNBiFPN(Bidirectional Feature Pyramid Network)是一种高效的多尺度特征融合网络,其设计旨在通过增强不同层次特征之间的信息交互能力来提升模型性能。相比传统的 FPN 结构,BiFPN 不仅支持自顶向下(Top-Down)的信息流,还增加了自底向上(Bottom-Up)的信息传递路径[^2]。 #### 在 YOLOv11 中的应用 YOLOv11 引入了 BiFPN 来替代原有的 Neck 部分结构,从而实现更强大的特征提取和融合功能。具体来说: 1. **多层级特征金字塔** BiFPN 构建了一个多层次的特征金字塔,能够有效地捕捉到高分辨率的小物体以及低分辨率的大物体特征。这种多尺度的设计使得模型能够在不同的空间维度上更好地理解输入图像的内容[^1]。 2. **双向信息传递** - 自顶向下的路径允许高层级特征(通常具有更强的语义信息)被逐步注入到底层特征中。 - 自底向上的路径则让底层特征(富含细节信息)得以反哺给更高层级的特征表示。这样的双向流动有助于减少梯度消失问题并促进全局上下文的学习。 3. **权重调整机制** BiFPN 还引入了一种动态加权策略用于控制各分支间的重要性程度。这意味着,在每次跨级别连接操作之前都会先计算相应边界的贡献比例因子,进而确保最终输出更加合理平衡[^3]。 4. **重复堆叠模块** 实验表明多次迭代执行上述过程可以获得更好的效果;因此实际部署时常会将整个 BiFPN 单元连续叠加若干次形成更深的整体架构。 以下是基于 PyTorch 编写的简化版 BiFPN 层定义代码片段作为参考: ```python import torch.nn as nn class BIFPNLayer(nn.Module): def __init__(self, channels=256): super(BIFPNLayer, self).__init__() # 定义卷积核和其他必要组件... def forward(self, inputs): """ Args: inputs (list[Tensor]): 输入张量列表 Returns: list[Tensor]: 融合后的输出张量列表 """ p3_in, p4_in, p5_in = inputs # Top-down Pathway & Bottom-up Pathway ... return [p_out_3, p_out_4, p_out_5] ``` --- ### 总结 通过对原始 Neck 组件替换为先进的 BiFPN 设计,YOLOv11 成功实现了更高的检测精度同时保持较快推理速度的优势组合。
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kay_545

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值