
CV计算机视觉
文章平均质量分 77
目标检测前言论文
MatpyMaster
有问题夹魏,评论及私聊不回!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python图像处理——基于Retinex算法的低光照图像增强系统
然后,为了增强图像对比度,对每个通道的像素值范围进行缩放处理:通过统计小于0和大于0像素值的分布情况,确定每个通道的下限和上限——其中下限为像素值小于0且出现次数不超过0值像素数十分之一的最大值,上限为像素值大于0且出现次数不超过0值像素数十分之一的最小值。在此基础上,为增强图像颜色,先在通道层面对原始图像进行求和,作为归一化因子,用以生成归一化的权重矩阵,并转换至对数域以获得图像颜色增益,再将MSR结果与该颜色增益矩阵进行连乘组合,实现颜色恢复。增加一个颜色恢复模块,提升图像色彩一致性,抑制颜色失真。原创 2025-04-25 22:16:16 · 1394 阅读 · 0 评论 -
Python图像处理——基于YOLOv12-Paddleocr的车牌实时检测系统(Pyqt5界面)
使用的数据集是CPDD2020。训练集5769张,验证集1001张,测试集5006张。类别一类LicensePlate。数据集格式为yolo格式的txt文件。appdesigner,gui设计、simulink仿真......希望能帮到你!图形界面,实现图片、视频及摄像头检测功能,并提供检测结果的实时反馈。:支持上传视频文件,对视频逐帧进行检测,并可视化结果。上传本地图片,进行检测,并展示检测前后的对比结果。衡量检测的实时性能,FPS 越高,处理速度越快。可实时调用摄像头进行检测。原创 2025-03-26 16:58:03 · 730 阅读 · 0 评论 -
Python图像处理——基于YOLOv8的道路裂缝分割检测系统(Pyqt5界面)
训练集3717张,验证集200张,测试集112张。图形界面,实现图片、视频及摄像头检测功能,并提供检测结果的实时反馈。视频检测:支持上传视频文件,对视频逐帧进行裂缝检测,并可视化分割结果。图片检测:上传本地图片,自动进行裂缝分割,并展示分割前后的对比结果。FPS(每秒帧率):衡量检测的实时性能,FPS 越高,处理速度越快。总类别数:统计检测到的裂缝类别数,例如横向裂缝、纵向裂缝等。摄像头检测:可实时调用摄像头进行裂缝检测。总目标数:统计画面中检测到的裂缝总数。的道路裂缝分割检测系统,结合。原创 2025-03-26 16:56:57 · 659 阅读 · 0 评论 -
Python图像处理——基于CSRNet的人群密度检测系统(Pytorch框架)
使用的数据集是shanghaiTech数据集,该数据包含part_A_final和part_B_final两部分。A部分训练集300张图片,测试集182张图片;B部分训练集400张图片,测试集316张图片。A,B两部分测试集和训练集打开都包含images和ground_truth两部分。A部分从互联网上随机抓取的图像,B部分取自上海大都市繁华街道的图像。这两个子集之间的人群密度差异很大,使得人群的准确估计比大多数现有数据集更具挑战性。原创 2025-03-26 16:55:15 · 328 阅读 · 0 评论 -
AI实践项目——图片视频自动上色系统,让旧照片焕然一新
一种用于用户引导图像着色的深度学习方法。该网络不是使用手动定义的规则,而是通过融合从大规模数据中学习到的低级线索和高级语义信息来传播用户编辑。一种前向encoder+ 反向decoder+ab概率分布预测的网络结构,首先预测出ab通道的概率分布,之后转成ab色道具体值。在图片处理的世界中,AI不仅用于识别和分析,还可以赋予灰度照片色彩,为其注入新的生命。今天,我们将探讨一种通过深度学习模型为灰度图片上色的技术。基于gradio设计的交互界面,可以实现图片/视频导入、不同模型测试对比。原创 2024-11-29 21:57:18 · 533 阅读 · 0 评论 -
Python图像处理——基于ResNet152的人脸识别签到系统(Pytorch框架)
将数据按照8:2分成训练集和验证集,保证模型在训练阶段和验证阶段都能得到合理的评估。选用了ResNet152模型,并根据数据集的类别数量替换了最后的分类层,以确保模型可以识别多个人脸类别。如果人脸被识别,系统将在界面右侧显示签到人的信息和签到时间。本次使用明星做为数据集,首先编写爬虫函数,根据关键字爬取对应的明星,爬取结果保存至data文件夹,并以标签名作为文件名。训练结束后,界面将显示最佳准确度,并会自动保存最佳模型权重。主界面如图所示,具体包括模型训练、摄像头开关、图片导入、签到、清空。原创 2024-10-26 08:27:23 · 742 阅读 · 0 评论 -
加速网络收敛——BN、LN、WN与selu
最理想的结果就是让每一层输出的激活值为零均值、单位方差,从而能够使得张量在传播的过程当中,不会出现covariant shift,保证回传梯度的稳定性,不会有梯度爆炸或弥散的问题。通过对weight进行normalization,可以保证在梯度回传的时候,如果梯度越noisy(梯度越大),v的norm就越大,那么g/||v||就越小,从而就会抑制梯度。BN对某一层激活值做batch维度的归一化,也就是对于每个batch,该层相应的output位置归一化所使用的mean和variance都是一样的。原创 2024-07-31 21:32:20 · 506 阅读 · 0 评论 -
图像卷积、步长、填充、特征图、多通道卷积、权重共享、感受野、池化
用一个相同的卷积核对整幅图像进行进行卷积操作,相当于对图像做一次全图滤波,符合卷积核特征的部分得到的结果比较大,不符合卷积核特征的部分得到的结果比较小,因此卷积操作后的结果可以较好地表征该区域符合卷积核所描述的特征的程度。上图中,Conv2中的像素点为5,是由Conv1的2×2的区域得来的,而该2×2区域是由原始图像的5×5区域计算而来,因此该像素的感受野是5×5。上图展示的是单个图像的卷积,而一个卷积神经网络,其每一层都是由多个图组成的,将其成为特征图或者特征平面,如下图所示。原创 2024-06-30 20:49:31 · 1311 阅读 · 0 评论 -
YOLOv10代码详细介绍(附录训练教程和权重)
YOLOv10 是清华大学研究人员在 UltralyticsPython 清华大学的研究人员在 YOLOv10软件包的基础上,引入了一种新的实时目标检测方法,解决了YOLO 以前版本在后处理和模型架构方面的不足。通过消除非最大抑制(NMS)和优化各种模型组件,YOLOv10 在显著降低计算开销的同时实现了最先进的性能。并用大量实验证明,YOLOv10 在多个模型尺度上实现了卓越的精度-延迟权衡。YOLOv10与v8结构相比,从结构上看添加了PSA和在C2f结构中添加了CBI结构,去掉了NMS。原创 2024-05-28 16:40:01 · 8116 阅读 · 1 评论 -
理解分组卷积
即在外围加了一圈 0。如果group是2,那么对应要将输入的32个通道分成2个16的通道,将输出的48个通道分成2个24的通道。对输出的2个24的通道,第一个24通道与输入的第一个16通道进行全卷积,第二个24通道与输入的第二个16通道进行全卷积。当 groups 为 2的时候,相当于将输入分为两组,并排放置两层,每层看到一半的输入通道并产生一半的输出通道,并且两者都是串联在一起的。极端情况下,输入输出通道数相同,比如为24,group大小也为24,那么每个输出卷积核,只与输入的对应的通道进行卷积。原创 2024-05-18 17:48:50 · 1020 阅读 · 0 评论 -
YOLOv9代码详细介绍(附源码和权重)
本文将介绍YOLOv9的项目获取、项目目录以及单独文件分析。YOLOv9 的进步深深扎根于解决深度神经网络中信息丢失所带来的挑战。信息瓶颈原理和可逆函数的创新使用是其设计的核心,可确保 YOLOv9 保持高效率和高精度。原创 2024-05-02 07:42:56 · 1708 阅读 · 0 评论 -
YOLOv9初探秘,含源码及详解~
它采用了新的骨干网络、检测头和损失函数,使得模型在保持较高准确率的同时,提高了推理速度。YOLOv9注重轻量级模型的设计和优化,使得模型在保持较高性能的同时,具有更小的体积和更快的推理速度。这意味着在相同的参数量下,YOLOv9能够提取更多的特征信息,从而提高了目标检测的准确率。YOLOv9在YOLOv8的基础上进行了进一步的改进和优化,使得模型在性能上有了显著的提升。这使得模型能够适应不同的应用场景和需求。通过引入新的骨干网络和检测头,YOLOv8能够提取更丰富的特征信息,从而提高了目标检测的准确率。原创 2024-03-05 16:52:44 · 2108 阅读 · 0 评论 -
YOLOv9来了,YOLOv5和YOLOv8还香不香?
总的来说,截止到写作本文的时间,与以前的YOLO变种相比,YOLOv5和YOLOv8都在速度和准确性方面表现出色。PAN-FPN:双流的FPN,必须香,也必须快,但是量化还是有些需要图优化才可以达到最优的性能,比如cat前后的scale优化等等,这里除了上采样、CBS卷积模块,最为主要的还有C3模块;Backbone:使用的依旧是CSP的思想,不过YOLOv5中的C3模块被替换成了C2f模块,实现了进一步的轻量化,同时YOLOv8依旧使用了YOLOv5等架构中使用的SPPF模块;原创 2024-03-05 16:50:59 · 4445 阅读 · 0 评论 -
[DIOR | DIOR-R]旋转目标检测数据集——基于YOLOv8obb,map50已达81.8%
这20个对象类是飞机、机场、棒球场、篮球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、地面田径场、天桥、船舶、体育场、储罐、网球场、火车站、车辆和风磨。解压后,标签内的Horizontal Bounding Boxes为水平框,Oriented Bounding Boxes为旋转框,如下所示为旋转框示例,可以看到相关的信息,如坐标、角度、标签等信息。数据集是在DIOR数据集的基础上,对目标实例重新标注边框,采用旋转框标注,这样避免了水平框的重叠问题。原创 2024-01-26 15:20:58 · 6996 阅读 · 29 评论 -
UCAS-AOD遥感旋转目标检测数据集——基于YOLOv8obb,map50已达96.7%
正例图像以P+数字序号命名,反例图像以N+数字序号命名,所有图像为PNG格式,尺寸为1280x659和1372x941。UCAS-AOD采用HBB(horizontal bounding box)的标注方法,图像的groundtruth采用txt格式保存,以图像的同名文档方式存储。遥感图像的分类依据是根据成像的介质不同来进行分类的。UCAS-AOD (Zhu et al.,2015)用于飞机和汽车的检测,包含飞机与汽车2类样本以及一定数量的反例样本(背景),总共包含2420幅图像和14596个实例。原创 2024-01-24 18:03:41 · 4744 阅读 · 27 评论 -
全网首发!Yolov8_obb旋转框训练、测试、推理手把手教学(DOTA1.0数据集map50已达80%)
其中,images/train和images/val放置原始图片文件,labels/train_original和labels/val_original分别放置原始的标签文件,labels/train和labels/val为空,然后运行步骤(3)的代码,运行结束转换后的标签会保存在labels/train和labels/val中,格式如下。(4)新建yolov8-obb.yaml,修改nc和scales,我使用的是yolov8n.(2)构建数据集,安装下面目录格式,其他test可为空,一定要对应。原创 2024-01-11 23:10:34 · 24002 阅读 · 106 评论 -
遥感图像介绍
2、检测头:特征精细化模块用于特征对齐;遥感图像的分类依据是根据成像的介质不同来进行分类的。船这类瘦长的目标,当角度发生较小的变化时,包围框的变化会非常剧烈。2、特征提取阶段:根据对象的形状信息和特征分布动态选择样本。3、颈部:累积特征金字塔,用来增强在各个尺度的语义信息。1、特征提取阶段:对于提取到的特征分配不同的重加权模块。3、设计新的损失函数,属于反向传播优化参数阶段。1、检测头:中心点提取,通过关键点来定位舰船中心。2、检测头:基于感受野的标签分配策略。1、特征提取阶段:学习凸包特征方法。原创 2024-01-04 19:11:29 · 1005 阅读 · 0 评论 -
小目标检测研究
信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真…希望能帮到你!原创 2024-01-02 21:09:46 · 768 阅读 · 0 评论 -
无人机视角下的目标检测研究进展
信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真…希望能帮到你!原创 2023-12-29 17:08:17 · 1656 阅读 · 0 评论 -
DOTA数据集切割处理——旋转框和水平框
这些图像分为15类,即飞机、船只、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁、小型车辆、大型车辆、直升机、环岛、足球场和游泳池。包含images15749张,水平labelTxt-shuiping15749个,旋转标签labelTxt-xuanzhuan15749个。包含images5279张,水平标签labelTxt-shuiping5279个,旋转标签labelTxt-xuanzhuan5279个。包含images10494张,标签labels10494个。、通信仿真、算法设计、原创 2023-12-13 19:28:42 · 4585 阅读 · 9 评论 -
YOLOv8更换BiFPN并融合P2小目标检测层
FPN是一种用于处理多尺度信息的网络结构,通常与骨干网络(如ResNet或EfficientNet)结合使用,以生成不同分辨率的特征金字塔,从而提高对象检测和分割的性能。总的来说,BiFPN是一种改进的特征金字塔网络结构,通过双向连接、自适应特征调整和模块化设计,提高了对象检测和语义分割任务的性能,使得神经网络能够更好地理解和解释多尺度信息,从而在计算机视觉任务中发挥更大的作用。:BiFPN的引入通常能够显著提高对象检测和分割任务的性能,特别是对于小目标或复杂场景,其性能改进尤为显著。原创 2023-12-13 19:33:36 · 4956 阅读 · 3 评论 -
CV小目标识别——AITOD航空图像数据集(已处理)
标签有8类,分别是 ['airplane', 'bridge', 'storage-tank', 'ship', 'swimming-pool', 'vehicle', 'person', 'wind-mill']与现有的航拍图像目标检测数据集相比,AI-TOD中目标的平均尺寸约为12.8像素,远小于其他目标。需要下载以下两部分(第 1 部分:xView 训练集,第 2 部分:AI-TOD 的一部分)。2804张,共计28036张,都有标签,原始标签为json格式,处理后有。原创 2023-11-25 22:42:19 · 6592 阅读 · 0 评论 -
全局上下文网络(附代码)
注意到GCNet中使用的上下文特征计算和融合方法是从NLNet继承而来的,所提出的GCNet也可以被视为连接两种具有代表性的长距离依赖建模方法NLNet和SENet的产物,但很好地利用了它们各自的优势(GCNet在更好的上下文建模和信息融合方面与NLNet相同,同时与SENet一样轻量级)。对于每个查询位置,非局部网络首先计算查询位置与所有其他位置之间的成对关系以形成注意力图,然后通过与注意力图定义的权重的加权和来聚合所有位置的特征。这种简化的块比原始的非局部块需要显著更少的计算,但在几个重要的。原创 2023-11-08 18:59:34 · 442 阅读 · 0 评论 -
空间上下文金字塔
多尺度特征传播旨在从不同的主干阶段聚合视觉特征,该阶段给定一个输入特征金字塔 C = {Cl1, Cl2, ...},其中 Ci 表示阶段 i 的特征图,目标是在不同级别之间传播特征以产生增强的特征金字塔P = {Pl1 , Pl2 , ...},其中特征对下游任务信息量更大。核心思想是,如果像素的特征足够丰富,则不需要从其他空间位置聚合特征。在聚合不同层次的特征图后,特征金字塔仍然包含空间局部信息,因此引入了空间上下文金字塔(SCP),通过学习每个级别内的全局空间上下文来进一步增强特征。原创 2023-11-08 18:56:58 · 679 阅读 · 0 评论 -
特征融合和双路径注意模块
MRF由四个分支组成,分别使用1×1 Conv、3×3 Conv、5×5 Conv、7×7 Conv和平均池化来拓宽感受野。在通道注意力分支中,使用全局平均池化来聚合每个通道中的特征图。此外,设计了一个多层感知(MLP),它由两个全连接层和一个 ReLU 层组成,以计算每个通道特征的重要性权重。然后,使用 1 × 1 卷积层压缩特征图的通道。由于特征图将通过几个卷积层连续压缩,小物体的信息在深层会较少,背景噪声也会覆盖它。首先,在空间注意力分支中,使用 1 × 1 卷积来压缩通道,从而减少维度和计算。原创 2023-11-08 18:55:29 · 1398 阅读 · 0 评论 -
上采样和下采样特征金字塔与跨层注意力模块
事实上,对对象的局部特征和非局部特征之间的关系进行建模相当于获得更丰富的对象细节信息,这显然有助于检测。然后,考虑到在特征图的每一层都获得的信息是不平衡的,整合并平衡所有层的所有特征图,以获得更平衡和更强的特征。因此,对于尺寸小于中间尺寸的特征图(Al),fresize表示上采样,对于尺寸大于中间尺寸的特征图,fresize表示下采样。为了获得更平衡和更强的特征,对每一层的特征进行跨层集成和平衡。然后,将具有纹理信息的合并浅层特征图下采样并再次与深度特征图合并,以获得具有丰富特征的多尺度特征图。原创 2023-11-08 18:54:11 · 639 阅读 · 0 评论 -
空间金字塔池化改进
RFB模块是在《ECCV2018:Receptive Field Block Net for Accurate and Fast Object Detection》一文中提出的,出发点是模拟人类视觉的感受野从而加强网络的特征提取能力,在结构上RFB借鉴了Inception的思想,主要是在Inception的基础上加入了空洞卷积,从而有效增大了感受野。相比原来的正常卷积操作,扩张卷积多了一个参数:dilation rate,指的是卷积核的点的间隔数量,比如常规的卷积操作dilatation rate为1。原创 2023-11-08 18:52:54 · 557 阅读 · 0 评论 -
通道注意力(SENet)和卷积注意力模块(CBAM)
作者称之为feature recalibration。✅ Squeeze由于卷积只是在一个局部空间内进行操作,U很难获得足够的信息来提取channel之间的关系,对于网络中前面的层这更严重,因为感受野比较小。Squeeze操作将一个channel上整个空间特征编码为一个。原创 2023-11-08 18:44:48 · 765 阅读 · 0 评论 -
跨尺度特征融合
首先,需要通过使用 1 × 1 卷积将 FA2、FA3、FA4、FA5 和 F′A6 的通道维度(即特征图的厚度)从 256 减少到 64,得到 FB2、FB3、FB4、FB5 和 FB6 的五个中间特征。这样,在后续预测的处理中,不仅使用了当前层的特征信息,还考虑了其他四层的上下文特征,使获得的新特征更加强大。然而,当将SE块完全嵌入到backbone中时,推理时间会在一定程度上增加,所以只是将SE块放在具有更多语义信息的深层,然后通过CSFF模块逐步将增强的全局特征传输到所有其他较浅的层。原创 2023-11-08 18:43:06 · 1947 阅读 · 0 评论 -
多尺度变形注意力模块和多级特征聚合模块
3️⃣C15 -C25 沿通道轴连接以获得具有多尺度变形感受野的新特征图,注意力图 A 是通过在这个新连接的特征图上应用 3 × 3 卷积层和 sigmoid 激活函数生成的。通过这种方式,MSDAM从具有大的多尺度可变形感受野的特征图中生成注意力图,从而可以更好地拟合各种形状和大小的遥感对象,并为遥感图像生成更精确的注意力图。(2)遥感图像中的物体实例具有变形和大尺度变化的特征,而具有固定形状和单尺度感受野的特征图C5很难很好地拟合这些物体并预测出精确的遥感图像注意力图。相应生成的特征图表示为于C05。原创 2023-11-08 18:41:15 · 1538 阅读 · 0 评论 -
目标检测扩张卷积
通过反卷积对层23的输出特征图进行上采样。上采样的特征图被route layer带到层25。同时,route layer将层16的输出特征图带到层25。然后是集成的特征图后面时两个层的卷积核大小为3 × 3和1 × 1。除最后一层外的所有卷积层依次进行批处理归一化(BN)层和ReLU层。将扩张卷积的步长设置为2。因此,输出特征图的大小是层6的大小的一半。然后,输出的特征图被route layer带到层25。为了在不损失小物体检测性能的情况下提高大物体检测性能,需要在引入精细特征的同时扩大感受野(第6层)。原创 2023-11-08 18:40:18 · 104 阅读 · 0 评论 -
改进的yolov5
为证明BottleNeckCSP 的局限性,通过修改信息路径,引入了一种新的称为 N-CSP 的功能块,减少主干中N-CSP块的数量,调整网络参数,提高计算速度。该模块结合局部和全局特征来最大化特征图的表达能力,扩展了骨干网络的感受野,并将最重要的上下文特征分离为大小目标检测。,导致特征信息丢失。因此,该模块提高了网络准确定位目标的学习能力,特别是小对象,同时以最小的计算成本增加保持快速检测速度。,一个在FPN的自顶向下路径中,另一个在PANet的自底向上路径中,用于集成不相邻和多层次特征。原创 2023-11-06 13:51:13 · 1841 阅读 · 0 评论 -
卷积和反卷积的计算公式
实现2倍上采样,需要: stride=2, kernel_size=2*padding+2。d=1时表示普通的卷积操作。因此,卷积核通常为奇数,比较常用的组合有:kenrel_size=1, padding=1, stride=1和kernel_size=5, padding=2, stride=1。dilated conv可以在不增加卷积核大小的情况下增大感受野,同时不增加额外开销,在多个扩张卷积逐次堆叠的情况下尤其有效。常用组合为:stride=2, kernel=3, padding=1。原创 2023-11-06 13:48:52 · 273 阅读 · 0 评论 -
CV中的多尺度问题
TridentNet 结构主要包括3个完全一样的分支,唯一不同的只是膨胀卷积的膨胀率。如上图,从上到下膨胀率分别为1,2,3,分别检测小,中,大的目标,且三个分支共享权值。采用了单一图像作为输入,且使用级联多分支学习输入图像的不同尺度的目标的特征(单输入+级联多分支);采用了单一图像作为输入,且使用并行多分支学习输入图像的不同尺度的目标的特征(单输入+并行多分支);采用了图像金字塔构造多尺度特征,然后用单分支网络学习更深层特征(多输入+单分支);为了解决目标检测中的多尺度问题,不同的方法采用的思想不同。原创 2023-11-06 13:48:00 · 140 阅读 · 0 评论 -
DetectoRS:使用递归特征金字塔和可切换的空洞卷积检测目标
注:论文原文出自DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution本文仅用于学术分享,如有侵权,请联系后台作删文处理。:设Bi表示自底向上的backbone的第i个阶段,Fi表示自顶向下的第i个FPN操作。, S},其中S为阶段数。上图显示了 SAC 的整体架构,它具有三个主要组件:在 SAC 组件之前和之后附加的两个全局上下文模块。原创 2023-11-06 13:46:32 · 355 阅读 · 0 评论 -
注意力机制和自注意力机制的区别
而自注意力机制的查询和键则都是来自于同一组的元素,例如,在Encoder-Decoder模型中,查询和键都是Encoder中的元素,即查询和键都是中文特征,相互之间做注意力汇聚。其中Query指的是自主提示,即主观意识的特征向量,Key指的是非自主提示,即物体的突出特征信息向量,Value则是代表物体本身的特征向量。由于人每一时刻接受的信息都是庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤,这种处理方式被称为注意力机制。原创 2023-11-06 13:45:30 · 999 阅读 · 0 评论 -
特征融合(五):BiFPN-双向特征金字塔网络
在融合过程中,之前的一些模型方法没有考虑到各级特征对融合后特征的共享度问题,即之前模型认为各级特征的贡献度相同,而本文作者认为它们的分辨率不同,其对融合后特征的贡献度不同,因此在特征融合阶段引入了weight。图2(a) 是传统FPN,图2(b)是PANet,图2(c)是利用网络自动搜索的方式生成的不规则特征融合模块,且这个模块可以重复叠加使用【即堆叠同样的模块,不停地使用相同的结构融合多层特征】。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:44:01 · 9669 阅读 · 2 评论 -
特征融合(四):ASFF-自适应空间特征融合
对于需要upsample的层,比如想得到ASFF3,需要将level1调整至和level3尺寸一致,采用的方式是先通过1×1卷积调整到与level3通道数一致,再用插值的方式resize到相同大小;而对于需要downsample的层,比如想得到ASFF1,此时对于level2到level1只需要用一个3×3,stride=2的卷积就可以了,如果是level3到level1则需要在3×3卷积的基础上再加一个stride=2的maxpooling,这样就能调整level3和level1尺寸一致。原创 2023-11-06 13:42:53 · 4629 阅读 · 0 评论 -
特征融合(三):MLFPN-M2det多级特征金字塔网络
每个TUM的输出共同构成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature。✅其次,堆叠多个TUM和FFMv2,每个TUM可以产生多个不同scale的feature map,每个FFMv2融合base feature和上一个TUM的输出,并给到下一个TUM作为输入(更高level)。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:41:51 · 838 阅读 · 0 评论 -
特征融合(二):PANet-路径聚合网络
Bottom-up Path Augemtation的详细结构如下图所示,经过一个尺寸为,步长为的卷积之后,特征图尺寸减小为原来的一半然后和这个特征图做add操作,得到的结果再经过一个卷积核尺寸为,的卷积层得到。RPN网络获得的每个ROI都要分别和特征层做ROI Align操作,这样个ROI就提取到4个不同的特征图,然后将4个不同的特征图融合在一起就得到最终的特征,后续的分类和回归都是基于此最终的特征进行。:浅层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。原创 2023-11-06 13:39:48 · 950 阅读 · 0 评论