PVANet轻量级实时目标检测-CSDN博客

本文链接：https://blog.csdn.net/qq_36999834/article/details/103106843

PVANet是一种轻量级深度神经网络，专为实时目标检测设计，通过多层少通道、C.ReLU、Inception结构和多尺度特征融合等策略减少计算成本，实现在VOC2007和VOC2012数据集上取得良好结果，计算量远低于ResNet-101。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：PVANet: Lightweight Deep Neural Networks for Real-time Object Detection
要求：
A. 先讲清楚论文的网络架构流程的核心思想(建议以图的形式展示);
B. 再讲框架每一部分的细节;
C. 最后讲实验的组织和结论。

摘要

目标：降低计算成本
内容：提出了一个比现有网络轻一个数量级的新型网络架构
基本原则：多层少通道（more layers with less channels）
措施：通过C.ReLu和Inception结构减少冗余
效果：在VOC2007和VOC2012数据集上获得可靠的结果，且计算量不到最新ResNet-101的10%。

介绍

缺口及问题：繁重的计算成本影响了检测速度；尽管在网络的压缩和量化阶段取得了不错的成效，还要在网络设计阶段减少计算成本。网络压缩和分解卷积核的成功表明网络架构高度冗余。
解决方向：减少冗余
解决方法（PVANet）：PVANet：用于目标检测的轻量级网络架构，在实时检测中取得了最先进的检测精确度。网络的前面采用了C.ReLu，后面采用了Inception结构，此外还采用了多尺度特征融合（Multi-scale feature concatenation）。
训练模型：通过批量归一化（batch normalization）、残差连接（Residual connections） 和基于平稳检测（plateau detection）的学习率调度算法可以有效地训练模型。
文章结构：PVANet特征提取网络（2.1）、检测网络（2.2）、实验结果（3）

C.ReLU：CReLU(x) = [ReLU(x),ReLU(-x)]
多尺度特征级联：
批量归一化（batch normalization）：将激活值规整为均值为 0，方差为 1 的正态分布。
残差连接（Residual connections）：残差网络ResNets，跳跃连接（skip connection），残差块（Residual block ）
谷歌Inception网络：基本思想是Inception网络不需要人为决定使用哪个过滤器或者是否需要池化,而是由网络自行确定这些参数,你可以给网络添加这些参数的所有可能值,然后把这些输出连接起来,让网络自己学习它需要什么样的参数,采用哪些过滤器组合。

PVANet

特征提取网络

改进的C.ReLU

参考资料：CReLU激活函数
- C.ReLU的设计动机：在CNN早期阶段，输出节点倾向于“成对”出现，使得一个节点的激活是另一个节点的取反。根据这一观察结果，CReLU将输出通道的数量减少了一半，并通过简单地将输出与其取反串联起来使通道加倍，这可以在网络的早期阶段加速2倍而不会失去准确性。
- C.ReLU： $\text{CReLU(x)= Concat[ ReLU(x), ReLU(−x) ]}$
  输出维度会自动加倍：
  $\rightarrow \begin{matrix} [[0&1], \\ [3&0]] \\ \end{matrix}$
- 改进：为负相关的输出层设置独立的偏置（原CReLU使用共享偏置）
- mCReLU基本原理:
Inception结构
- Inception是用于捕获输入图像中的小对象和大对象的最具成本效益的构建块之一。
- Inception基本原理：
  - Inception中的1x1卷积可以构建瓶颈块，有效减少冗余
    (28x28x32)x(5x5x192)=1.2亿
    (28x28x16)x(1x1x192)+(28x28x32)x(5x5x16)=1204万
  - PVANet中使用的Inception结构
深层网络训练
- 问题：随着网络的加深，训练网络变得更加困难。
- 解决方法：残差连接、批量归一化、基于平稳检测的学习率调度算法。
- 残差连接：
  残差连接可以从某一层网络获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。
- 批量归一化：将激活值规整为均值为 0，方差为 1 的正态分布。可以加快训练过程、提高性能、解决梯度消失的问题、规范权重、优化网络梯度流等等。
- 基于平稳检测的学习率调度算法：
  在测量损失的移动平均值之后，如果最小损失在一定的迭代次数内没有更新，则称其为平稳状态。每当检测到平稳状态时，学习率都会降低一个常数。在实验中，该学习率策略显着提高了准确性。
整体设计

特征提取网络：PVANet特征提取网络结构图.pdf

目标检测网络
在Faster-R-CNN的基础上引入一些特别适用于目标检测的改进。
PVANet检测网络结构

超特征融合
多尺度表示及其融合被证明在许多最近的深度学习任务中是有效的。将细粒度细节与特征提取层中的高度抽象信息相结合，有助于后面的 RPN(region proposal network) 和分类网络检测不同尺度的对象。
最后一层conv5_4(规模为x)结合conv4_4(规模为2x)、conv3_4(规模为4x)，选择中间大小的conv4_4(规模为2x)作为参考规模，对conv3_4(规模为4x)进行下采样，对conv5_4(规模为x)进行线性插值上采样，最后经过1x1x512卷积生成分类器特征图。
建立更有效的检测网络
区域提议网络RPN：通过实验作者发现，RPN不需要全部的输入特征，于是再不损失准确性的情况下，只将特征图的前128个通道输入RPN，由此计算成本减少了1.4GMAC。~~该RPN由一个3x3x384的卷积层和两个用于打分和边界框回归的预测层组成，与Faster R-CNN不同的是，该RPN用了42个锚~~
分类网络使用了全部512个通道。ROI(兴趣区域池化：直接指定输出形状)生成6x6x512的输出。之后通过有"4096-4096-(21+84)"个输出节点的全连接层输出结果。

实验结果

ImageNet预训练
在计算成本很低的情况下取得很高的准确度
结果1
VOC2007
PVANET在联合的数据集（MS COCO trainval，VOC2007 trainval 和 VOC2012 trainval）训练。
表4展示了该模型在不同配置下的召回率和准确率。结果表示超过200个提议区域没有对检测的准确率起到显著的帮助，所以我们在剩下的实验中把提议区域的数量固定在200个。
加入边界框voting之后，性能增加0.5%mAP（均值平均精度）
当把“4096-4096”的全连接层压缩到"512-4096-512-4096"并微调之后，模型可以在只损失了0.5%的准确率情况下用31.3FPS（检测速率：1秒内识别的图像数（帧数））
结果2
VOC2012
同样在联合数据集上训练。
表5总结了PVANET+和一些先进的网络在PASCAL VOC2012排行榜上的比较。PVANet+排第四名，考虑到其计算成本，PAVNet具有84.2%mAP的高准确率，比“Faster R-CNN + ResNet-101”高了0.4%mAP。
其他表现更好的网络是基于“ResNet-101”或者“VGG-16”,他们比PVANet大得多，此外他们还采用了一些耗时技术。因此，作者认为，那些表现更好的网络比PVANet+慢了一个数量级，甚至更多。
在所有准确率高于80%mAP的网络中，PVANet+是唯一运行时间小于50ms的网络。综合考虑准确度和计算成本，PVANet+是效率最高的网络。
结果3