[YOLOv3]初学者笔记

原创已于 2025-08-16 12:18:38 修改 · 403 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#YOLO #笔记 #人工智能 #深度学习

于 2025-08-16 12:15:06 首次发布

#留档学习YOLO目标检测

此篇记录Yolov3改进点，多尺度改进和特征融合，残差连接，网络构架，先验框设计和Logistic（Sigmoid）激活函数相关知识

如有内容错误等问题欢迎各位大佬指正补充！

YOLOv3

改进点总结

网络结构改进→更适合小目标检测

融入多持续特征图信息

先验框丰富3(scale)*3(A Box) 9种

Softmax改进预测多标签任务

多scale(多尺度)改进和特征融合

多scale

为检测不同大小的物体，设计三个scale（感受野不同，适合检测的物体不同）

Scale变换

不同特征图融合后进行预测

为了充分利用不同尺度特征图的优势，YOLOv3 使用了特征金字塔网络（FPN）类似的结构进行特征融合。以 26×26 和 13×13 的特征图融合为例，先对 13×13 的特征图进行上采样（通常是双线性插值上采样），使其尺寸变为 26×26，然后与原本 26×26 的特征图进行拼接（通道维度拼接），这样融合后的特征图就包含了来自不同尺度的信息，既具有深层特征图的语义信息，又有浅层特征图的细节信息，提升了对不同尺度目标的检测性能。

残差连接

YOLOv3 的残差链接是其特征提取网络（Darknet-53）的 “骨架”，通过 “主路径变换 + shortcut 直接传递”的设计，实现了 3 个核心价值：

解决深层网络的梯度消失问题，让 Darknet-53（53 层）能稳定训练；
复用浅层特征，提升小目标检测精度；
简化学习任务，降低网络训练难度。

整体网络模型架构Darknet-53

特点：

没有池化和全连接层，全部卷积
下采样通过stride为2实现`
3种scale 更多先验框
融合当时经典做法，如Resnet

--下采样Downsampling）：指通过特定方法降低信号 / 图像的分辨率（尺寸）的操作，核心目的是在减少数据量（像素数、计算量）的同时，保留关键信息（如物体轮廓、特征规律），并通常能提升对尺度变化的鲁棒性（如检测不同大小的物体）。

先验框设计

Softmax层替代

在 YOLOv3 中，分类分支默认使用Logistic（Sigmoid）激活函数而非 Softmax 层，这是为了支持多标签分类。

目标置信度预测：每个锚框预测 “是否包含目标” 的置信度，用 Sigmoid 输出 0~1 的概率（越接近 1 表示越可能是目标）。
分类分支预测：针对每个类别，用 Sigmoid 输出该类别的置信度（支持多标签分类，如一个目标可同时属于 “人” 和 “戴帽子”）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。