#留档学习YOLO目标检测
此篇记录Yolov3改进点,多尺度改进和特征融合,残差连接,网络构架,先验框设计和Logistic(Sigmoid)激活函数相关知识
如有内容错误等问题 欢迎各位大佬指正补充!
YOLOv3
改进点总结
网络结构改进→更适合小目标检测
融入多持续特征图信息
先验框丰富3(scale)*3(A Box) 9种
Softmax改进 预测多标签任务
多scale(多尺度)改进和特征融合
多scale
为检测不同大小的物体,设计三个scale(感受野不同,适合检测的物体不同)
Scale变换
不同特征图融合后进行预测
为了充分利用不同尺度特征图的优势,YOLOv3 使用了特征金字塔网络(FPN)类似的结构进行特征融合。以 26×26 和 13×13 的特征图融合为例,先对 13×13 的特征图进行上采样(通常是双线性插值上采样),使其尺寸变为 26×26,然后与原本 26×26 的特征图进行拼接(通道维度拼接),这样融合后的特征图就包含了来自不同尺度的信息,既具有深层特征图的语义信息,又有浅层特征图的细节信息,提升了对不同尺度目标的检测性能。
残差连接
YOLOv3 的残差链接是其特征提取网络(Darknet-53)的 “骨架”,通过 “主路径变换 + shortcut 直接传递”的设计,实现了 3 个核心价值:
- 解决深层网络的梯度消失问题,让 Darknet-53(53 层)能稳定训练;
- 复用浅层特征,提升小目标检测精度;
- 简化学习任务,降低网络训练难度。
整体网络模型架构Darknet-53
特点:
- 没有池化和全连接层,全部卷积
- 下采样通过stride为2实现`
- 3种scale 更多先验框
- 融合当时经典做法,如Resnet
--下采样Downsampling) :指通过特定方法降低信号 / 图像的分辨率(尺寸) 的操作,核心目的是在减少数据量(像素数、计算量)的同时,保留关键信息(如物体轮廓、特征规律),并通常能提升对尺度变化的鲁棒性(如检测不同大小的物体)。
先验框设计
Softmax层替代
在 YOLOv3 中,分类分支默认使用Logistic(Sigmoid)激活函数而非 Softmax 层,这是为了支持多标签分类。
- 目标置信度预测:每个锚框预测 “是否包含目标” 的置信度,用 Sigmoid 输出 0~1 的概率(越接近 1 表示越可能是目标)。
- 分类分支预测:针对每个类别,用 Sigmoid 输出该类别的置信度(支持多标签分类,如一个目标可同时属于 “人” 和 “戴帽子”)。