[YOLOv3]初学者笔记

#留档学习YOLO目标检测

此篇记录Yolov3改进点,多尺度改进和特征融合,残差连接,网络构架,先验框设计和Logistic(Sigmoid)激活函数相关知识

如有内容错误等问题 欢迎各位大佬指正补充!


YOLOv3

改进点总结

网络结构改进→更适合小目标检测

融入多持续特征图信息

先验框丰富3(scale)*3(A Box) 9种

Softmax改进 预测多标签任务


多scale(多尺度)改进和特征融合

多scale

为检测不同大小的物体,设计三个scale(感受野不同,适合检测的物体不同)

Scale变换

不同特征图融合后进行预测

为了充分利用不同尺度特征图的优势,YOLOv3 使用了特征金字塔网络(FPN)类似的结构进行特征融合。以 26×26 和 13×13 的特征图融合为例,先对 13×13 的特征图进行上采样(通常是双线性插值上采样),使其尺寸变为 26×26,然后与原本 26×26 的特征图进行拼接(通道维度拼接),这样融合后的特征图就包含了来自不同尺度的信息,既具有深层特征图的语义信息,又有浅层特征图的细节信息,提升了对不同尺度目标的检测性能。

残差连接

YOLOv3 的残差链接是其特征提取网络(Darknet-53)的 “骨架”,通过 “主路径变换 + shortcut 直接传递”的设计,实现了 3 个核心价值:

  1. 解决深层网络的梯度消失问题,让 Darknet-53(53 层)能稳定训练;
  2. 复用浅层特征,提升小目标检测精度;
  3. 简化学习任务,降低网络训练难度。

整体网络模型架构Darknet-53

特点:

  1. 没有池化和全连接层,全部卷积
  2. 下采样通过stride为2实现`
  3. 3种scale 更多先验框
  4. 融合当时经典做法,如Resnet

--下采样Downsampling) :指通过特定方法降低信号 / 图像的分辨率(尺寸) 的操作,核心目的是在减少数据量(像素数、计算量)的同时,保留关键信息(如物体轮廓、特征规律),并通常能提升对尺度变化的鲁棒性(如检测不同大小的物体)。

先验框设计

Softmax层替代

在 YOLOv3 中,分类分支默认使用Logistic(Sigmoid)激活函数而非 Softmax 层,这是为了支持多标签分类。

  1. 目标置信度预测:每个锚框预测 “是否包含目标” 的置信度,用 Sigmoid 输出 0~1 的概率(越接近 1 表示越可能是目标)。
  2. 分类分支预测:针对每个类别,用 Sigmoid 输出该类别的置信度(支持多标签分类,如一个目标可同时属于 “人” 和 “戴帽子”)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值