自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 【AAAI2025】计算机视觉|即插即用|ASID:参数量暴减90%,性能依然炸裂?!ASID模块,轻量级Transformer超分新王者!

基于的超分辨率(SR)方法由于能够捕获长距离依赖性,已经展现出优于基于卷积神经网络(CNN)的SR方法的性能。然而,其高计算复杂性需要开发轻量级方法以供实际使用。为了应对这一挑战,本研究提出了注意力共享信息蒸馏(ASID)网络,这是一个轻量级的SR网络,它集成了注意力共享和专为基于Transformer的SR方法设计的信息蒸馏结构。本研究修改了最初为高效CNN操作设计的信息蒸馏方案,以减少堆叠自注意力层的计算负载,有效地解决了效率瓶颈。此外,本研究引入了跨块的注意力共享。

2025-08-03 09:00:00 352

原创 【CVPR2025】计算机视觉|即插即用|GCNet:炸裂!实时语义分割新星GCNet,性能速度双突破!

最近的实时语义分割模型,无论是单分支还是多分支,都实现了良好的性能和速度。然而,它们的速度受到多路径块的限制,并且一些模型依赖于高性能的教师模型进行训练。为了克服这些问题,本研究提出了金箍棒网络(GCNet)。具体来说,GCNet在训练过程中使用垂直多卷积和水平多路径,在推理过程中将其重新参数化为单个卷积,从而优化性能和速度。这种设计使GCNet能够在训练过程中自我扩大,在推理过程中自我收缩,有效地成为一个“教师模型”,而无需外部模型。实验结果表明,在。

2025-08-02 09:00:00 563

原创 【CVPR2025】计算机视觉|即插即用|DiC:炸裂!纯卷积DiC吊打Transformer,推理速度狂飙!

扩散模型在视觉生成任务中展现出卓越的性能。最近,这些模型已经从传统的U型CNN-注意力混合结构转向完全基于Transformer的各向同性架构。虽然这些Transformer表现出强大的可扩展性和性能,但它们对复杂自注意力操作的依赖导致推理速度缓慢。与这些工作相反,本研究重新思考了深度学习中最简单但最快的模块之一——3x3卷积,以构建一个可扩展的纯卷积扩散模型。本研究首先发现编码器-解码器沙漏设计在Conv3x3的性能上优于可扩展的各向同性架构,但仍低于预期。为了进一步改进架构,本研究引入了稀疏跳跃连接。

2025-08-01 09:00:00 545

原创 【CVPR2025】计算机视觉|DAC:炸裂!图像匹配新SOTA

本研究提出了一种通过整合密集匹配和几何约束来提取精确仿射对应的新流程。具体来说,借助密集匹配和一种新颖的关键点尺度和方向估计器,本研究引入了一个新的提取框架。为此,本研究提出了基于几何约束的损失函数,它可以通过监督神经网络学习特征几何来有效地提高精度。实验表明,本研究方法的精度和鲁棒性在图像匹配任务中优于现有方法。为了进一步证明所提出方法的有效性,本研究将其应用于相对姿态估计。在本研究方法提取的仿射对应关系比一系列真实世界数据集上的基线方法得到了更准确的姿态。

2025-07-31 09:00:00 578

原创 【CVPR2024】计算机视觉|DoesFS:快速实现人脸夸张变形!

本研究解决了单样本人脸风格化中的复杂问题,重点关注外观和结构的同时考虑,而先前的方法在这方面有所不足。本研究探索了变形感知的人脸风格化,它不同于传统的单图像风格参考,而是选择使用真实的风格图像对。本方法的基石是利用自监督视觉Transformer,特别是 DINO-ViT,在真实和风格域之间建立稳健且一致的面部结构表示。本研究的风格化过程首先通过集成空间变换器 (STN)使 StyleGAN 生成器变形感知。然后,本研究在 DINO 语义的指导下引入了两个创新的生成器微调约束:i)

2025-07-29 09:00:00 873

原创 【CVPR2025】计算机视觉|TrainProVe:你的模型用了我的数据?!

高质量的开源文生图模型大大降低了获取逼真图像的门槛,但也面临着潜在的滥用风险。具体来说,当缺乏真实数据资源时,嫌疑人可能会在未经许可的情况下使用这些生成模型生成的合成数据来训练特定任务的模型。保护这些生成模型对其所有者的福祉至关重要。本研究提出了第一个解决这一重要但尚未解决的问题的方法,称为训练数据来源验证(TrainProVe)。TrainProVe 的基本原理基于泛化误差界的原理,该原理表明,对于具有相同任务的两个模型,如果它们的训练数据分布之间的距离越小,它们的泛化能力就越接近。

2025-07-28 09:00:00 506

原创 【CVPR2025】计算机视觉|ORTrack:让无人机跟踪无惧遮挡!

本研究针对使用视觉Transformer(ViT)骨干网络的单流架构在实时无人机(UAV)跟踪中表现出的巨大潜力,但同时也存在因建筑物和树木等障碍物造成的频繁遮挡而暴露出的主要缺点:这些模型通常缺乏有效处理遮挡的策略。需要新的方法来增强单流ViT模型在空中跟踪中的遮挡鲁棒性。本研究提出基于ViT学习用于UAV跟踪的遮挡鲁棒表示(ORR),方法是强制目标的特征表示相对于由空间Cox过程建模的随机掩蔽操作保持不变。

2025-07-27 09:00:00 1020

原创 【CVPR2025】计算机视觉|DefMamba:炸裂性能!可变形视觉状态空间模型新SOTA

最近,状态空间模型(SSM),特别是Mamba,因其能够有效平衡计算效率和性能而受到了学者们的广泛关注。然而,大多数现有的视觉Mamba方法使用预定义的扫描顺序将图像展平为一维序列,这导致模型在特征提取过程中难以利用图像的空间结构信息。为了解决这个问题,本研究提出了一种名为DefMamba的新型视觉基础模型。该模型包括一个多尺度骨干结构和可变形Mamba(DM)块,它可以动态调整扫描路径以优先考虑重要信息,从而增强对相关输入特征的捕获和处理。通过结合可变形扫描(DS)策略,该模型显著提高了其。

2025-07-26 09:00:00 512

原创 【CVPR2025】计算机视觉|MobileMamba:比CNN/ViT快21倍的多尺度Mamba网络!

以往的轻量级模型研究主要集中在 CNN 和基于 Transformer 的设计上。CNN 由于其局部感受野,难以捕捉长距离依赖关系,而 Transformer 尽管具有全局建模能力,但在高分辨率场景下却受到二次计算复杂度的限制。最近,状态空间模型因其线性计算复杂度而在视觉领域获得了普及。尽管 FLOPs 低,但当前基于 Mamba 的轻量级模型的吞吐量却不是最优的。本研究提出了框架,它在效率和性能之间取得了平衡。本研究设计了一个三阶段网络来显著提高推理速度。在细粒度级别上,本研究引入了。

2025-07-25 09:00:00 1189

原创 【CVPR2025】MaIR:让图像复原“脱胎换骨”!

最近Mamba模型在图像复原领域展现出极具潜力的结果。这些方法通常将二维图像沿着行和列展开成多个不同的序列,使用选择性扫描操作独立地处理每个一维序列,然后将它们重新组合以形成输出。然而,这种范式忽略了两个重要方面:i)自然图像中固有的局部关系和空间连续性,以及 ii)以完全不同的方式展开的序列之间的差异。为了克服这些缺点,本研究探讨了基于Mamba的复原方法中的两个问题:i)如何设计一种扫描策略,在便于复原的同时保持局部性和连续性,以及 ii)如何聚合以完全不同方式展开的不同序列。

2025-07-24 09:00:00 713

原创 【CVPR2025】计算机视觉|SegMAN:全局&局部特征融合新SOTA!

全局上下文建模局部细节编码和多尺度特征提取。然而,最近的方法难以同时具备所有这些能力。因此,本研究旨在使分割网络能够同时对不同的输入分辨率执行高效的全局上下文建模、高质量的局部细节编码和丰富的多尺度特征表示。本研究介绍了SegMAN,一个新颖的线性时间模型,它包含一个称为SegMAN编码器的混合特征编码器和一个基于状态空间模型的解码器。具体来说,SegMAN编码器将滑动局部注意力与动态状态空间模型协同集成,从而在保留细粒度局部细节的同时实现高效的全局上下文建模。同时,解码器中的MMSCopE模块。

2025-07-23 09:00:00 1527

原创 【CVPR2025】计算机视觉|SPMTrack:视觉跟踪新SOTA,参数高效,性能炸裂!

大多数先进的跟踪器采用单流范式,使用单个视觉Transformer进行模板和搜索区域图像的联合特征提取和关系建模。然而,不同图像块之间的关系建模表现出显著的变化。例如,以目标无关信息为主的背景区域需要减少注意力分配,而前景,尤其是边界区域,需要被强调。单一模型可能无法有效地同时处理所有类型的关系建模。本研究提出了一种名为SPMTrack的新型跟踪器,它基于为视觉跟踪任务量身定制的专家混合模型(TMoE),结合了多个专家的能力来更灵活地处理不同的关系建模。受益于TMoE,本研究将。

2025-07-22 09:00:00 444

原创 【CVPR2025】计算机视觉|SGLATrack:让ViT速度起飞!

本研究发现轻量级ViT跟踪器中的许多层倾向于学习相对冗余和重复的目标表示。基于此观察,本研究提出了一种相似性引导的层自适应方法来优化ViT的结构。本研究的方法动态地禁用大量表示相似的层,并在其中选择性地保留单个最佳层,旨在实现更好的精度-速度权衡。通过将此方法结合到现有的ViT中,本研究将以前完整的ViT架构定制成一个高效的相似性引导的层自适应框架,名为SGLATrack,用于实时无人机跟踪。在六个跟踪基准上的大量实验验证了所提出方法的有效性,并表明本研究的SGLATrack在保持竞争性跟踪精度。

2025-07-21 09:00:00 702

原创 【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂!告别模糊,精准分割,视觉新高度!

密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为了实现这一点,现代分层模型通常利用特征融合,直接将来自深层的粗略特征和来自较低层的、分辨率较高的特征相加。本研究观察到融合特征值在对象内部快速变化,由于高频特征的干扰导致类别内部不一致。此外,融合特征中模糊的边界缺乏准确的高频信息,导致边界位移。基于这些观察,本研究提出了频率感知特征融合(FreqFusion),它集成了自适应低通滤波器(ALPF)生成器偏移生成器和自适应高通滤波器(AHPF)生成器。

2025-07-20 09:00:00 880

原创 【CVPR2025】计算机视觉|RORem:让物体移除“脱胎换骨”!

尽管取得了显著的进展,现有的物体移除方法仍然难以应对移除不完整、内容合成错误和合成区域模糊等问题,导致成功率较低。这些问题的主要原因是缺乏高质量的配对训练数据,以及这些方法采用的自监督训练范式,迫使模型对遮罩区域进行修复,导致合成遮罩物体和恢复背景之间的歧义。为了解决这些问题,本研究提出了一种半监督学习策略,利用人工参与创建高质量的配对训练数据,旨在训练一个鲁棒的物体移除器(RORem。

2025-07-19 09:00:00 281

原创 【CVPR2025】计算机视觉|FiRe:任意修复模型轻松打造SOTA级图像复原

本研究提出了基于修复不动点(FiRe)先验的新框架,以扩展即插即用(PnP)算法中先验的概念,使其涵盖除传统去噪模型之外的通用修复模型。FiRe背后的关键见解是,平滑图像作为退化算子和相应修复模型组成的合成算子的不动点出现。这使得本研究能够通过量化图像在这种复合操作下的不变性来推导出本研究的隐式先验的显式公式。采用这种不动点视角,本研究展示了各种修复网络如何有效地充当解决逆问题的先验。FiRe框架进一步支持多个修复模型的类集成组合以及获取信息的修复网络,所有这些都在一个统一的优化方法中进行。

2025-07-18 09:00:00 707

原创 【CVPR2025】计算机视觉|P2R Loss:即插即用!大幅提升人群计数精度!

基于点检测的方法通过点到点 (P2P) 监督方案训练计数器,用于定位拥挤场景中的行人。尽管其具有出色的定位和计数性能,但训练基于点的计数器仍然面临着标注工作量大的挑战:标注一个包含密集人群的样本需要数百到数千个点。本研究将基于点的方法集成到基于伪标签的半监督计数框架中,仅使用少量标注样本和大量伪标签数据即可训练计数器。然而,在实现过程中,由于伪标签的置信度无法通过 P2P 传播到背景像素,因此训练遇到了问题。

2025-07-17 09:00:00 606

原创 【CVPR2025】计算机视觉|GIVEPose:RGB位姿估计新SOTA!吊打LaPose!

基于RGB的类别级物体姿态估计方法的最新进展受限于对精确深度信息的依赖,限制了其更广泛的适用性。因此,基于RGB的方法得到了发展。在这些方法中,源于实例级任务的几何引导姿态回归表现出了强大的性能。然而,本研究认为NOCS图对于几何引导姿态回归方法来说是一个不充分的中间表示,因为它与类别级姿态的多对一对应关系引入了冗余的特定于实例的信息,导致结果欠佳。本研究指出了仅基于NOCS图的姿态回归中固有的类内差异问题,并提出了类内无差异共识(IVFC)图,这是一种从类别级共识模型生成的新型坐标表示。

2025-07-16 09:00:00 1329

原创 【CVPR2025】计算机视觉|DiGIT:多尺度门控编码器解码器,时间动作检测新王者!

本研究探讨了基于查询的时间动作检测 (TAD) 检测器中的一个关键限制,该限制源于它们对最初为对象检测设计的架构的直接采用。尽管现有模型有效,但它们仍难以完全解决 TAD 的独特挑战,例如多尺度特征的冗余以及捕获足够时间上下文的能力有限。为了解决这些问题,本研究提出了一种用于时间动作检测 Transformer (DiGIT) 的多扩张门控编码器和中心邻近区域集成解码器。本研究的方法用提出的多扩张门控编码器取代了现有的由多尺度可变形注意力和前馈网络组成的编码器。本研究所提出的编码器。

2025-07-15 09:00:00 760

原创 【ECCV2024】计算机视觉|AttnZero:即插即用!让ViT模型高效涨点!

本研究提出了AttnZero,这是一个为视觉Transformer(ViT)自动发现高效注意力模块的框架。ViT中传统的自注意力机制存在二次计算复杂度的问题,而线性注意力提供了一种更高效的替代方案,其逼近具有线性复杂度。然而,现有手工设计的线性注意力存在性能下降的问题。为了解决这些问题,本研究的AttnZero构建了搜索空间,并采用进化算法来发现潜在的线性注意力公式。具体而言,本研究的搜索空间由六种计算图和高级激活、归一化和二元运算符组成。为了增强通用性,本研究将候选注意力应用于多个高级ViT的结果。

2025-07-14 09:00:00 551

原创 【ICCV2025】计算机视觉|TinyViM:即插即用!让你的视觉模型高效涨点!

Mamba因其在建模全局上下文时相对于输入长度呈线性复杂度的特性,在计算机视觉领域展现出巨大潜力。然而,现有的基于 Mamba 的轻量级骨干网络无法展现出与基于卷积或 Transformer 的方法相匹配的性能。本研究观察到,简单地在图像域中修改扫描路径不利于充分发挥视觉 Mamba 的潜力。本研究首先进行了全面的频谱和定量分析,并验证了在卷积-Mamba 混合架构下,Mamba 模块主要对低频信息进行建模。基于这些分析,本研究引入了一种新颖的拉普拉斯混合器,用于在频域中解耦特征,并且仅将低频分量。

2025-07-13 09:00:00 1556

原创 【CVPR2025】计算机视觉|SIREN: 元学习赋能!突破INR高分辨率图像分类难题

本研究提出了一种端到端的策略,用于初始化SIREN,并结合学习到的学习率方案,以产生能够提高分类准确率的表征。本研究表明,一个简单的、直接的Transformer模型应用于元学习的SIREN,无需引入显式的对称等变性,也能优于当前最先进的方法。在CIFAR-10 SIREN分类任务中,本研究在不使用数据增强的情况下,将最先进的性能从38.8%提高到59.6%,在使用数据增强的情况下,从63.4%提高到64.7%。本研究证明了在高分辨率Imagenette数据集上的可扩展性,实现了。

2025-07-12 09:00:00 360

原创 【CVPR2024】计算机视觉|InceptionNeXt:速度与精度齐飞的CNN架构

受ViT的远程建模能力启发,近来,人们对大核卷积进行了广泛的研究和应用,以扩大感受野并提高模型性能,例如采用7×7深度卷积的出色工作ConvNeXt。虽然这种深度算子只消耗少量的FLOPs,但由于高内存访问成本,它在强大的计算设备上大大损害了模型效率。例如,ConvNeXt-T与ResNet-50具有相似的FLOPs,但在A100 GPU上以全精度训练时,吞吐量仅达到约60%。如何在保持基于大核的CNN模型性能的同时,提高其速度。为了解决这个问题,受Inception的启发,本研究提出将。

2025-07-11 09:00:00 1196

原创 【CVPR2025】计算机视觉|即插即用|SeCap:AGPReID迎来新突破!SeCap模块,跨视角ReID性能暴涨!

在讨论空中-地面行人重识别 (AGPReID) 任务时,本研究面临的主要挑战是由不同视角引起的显著外观变化,这使得身份匹配变得困难。为了解决这个问题,以往的方法试图通过关键属性和解耦视角来减少视角之间的差异。(1) 难以处理视角多样性;(2) 忽略了局部特征的贡献。为了有效应对这些挑战,本研究设计并实现了用于 AGPReID 任务的自校准和自适应提示 (SeCap) 方法。该框架的核心依赖于提示再校准模块 (PRM),该模块基于输入自适应地重新校准提示。结合局部特征细化模块 (LFRM)

2025-07-10 09:00:00 501

原创 【CVPR2024】计算机视觉|SpeaQ:Transformer视觉关系检测“更上一层楼”!

视觉关系检测(VRD)近年来在基于Transformer的架构上取得了显著进展。然而,本研究发现,在训练基于Transformer的VRD模型时,传统标签分配存在两个关键限制,标签分配是将ground-truth(GT)映射到预测的过程。在传统的分配方式下,由于一个查询需要检测所有关系,因此训练出的查询是“非专业化”的,这使得查询难以专注于特定的关系。此外,由于一个GT只分配给一个预测,因此查询训练也不充分,接近正确甚至正确的预测因为被分配了“无关系(∅)”作为GT而被抑制。

2025-07-09 09:00:00 531

原创 【 CVPR2024】计算机视觉|RepViT:让CNN在iPhone上“起飞”

最近,轻量级 Vision Transformers (ViTs)在资源受限的移动设备上,与轻量级卷积神经网络 (CNN)相比,展现出卓越的性能和更低的延迟。研究人员已经发现了轻量级 ViT 和轻量级 CNN 之间的许多结构性联系。然而,它们在块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从 ViT 的角度重新审视了轻量级 CNN 的高效设计,并强调了它们在移动设备上的广阔前景。具体来说,本研究通过。

2025-07-08 09:00:00 603

原创 【CVPR2024】计算机视觉|MambaVision:MambaVision: 视觉backbone迎来新突破,速度精度双飙升!

本研究提出了一种新颖的混合 Mamba-Transformer 主干网络 MambaVision,专门为视觉应用量身定制。本研究的核心贡献包括重新设计 Mamba 公式,以增强其对视觉特征进行高效建模的能力。通过全面的消融研究,本研究证明了将Vision Transformers (ViT) 与 Mamba 集成的可行性。结果表明,在 Mamba 架构的最后一层配备自注意力模块,可以极大地提高其捕获长程空间依赖性的能力。基于这些发现,本研究引入了一系列具有分层架构的MambaVision 模型。

2025-07-07 09:00:00 647

原创 【CVPR2024】计算机视觉|CLIP:ID-like Prompt:OOD检测性能竟如此炸裂?

本研究提出了一种新颖的OOD检测框架,该框架利用CLIP从ID样本的邻近空间中发现ID-like的异常值,从而有助于识别这些最具挑战性的OOD样本。然后,本研究提出了一个提示学习框架,该框架利用已识别的ID-like异常值,进一步利用CLIP进行OOD检测。受益于强大的CLIP,本研究只需要少量的ID样本来学习模型的提示,而无需暴露其他辅助异常值数据集。通过关注最具挑战性的ID-like OOD样本,并巧妙地利用CLIP的能力,本研究的方法在各种真实世界的图像数据集上实现了卓越的小样本学习性能。

2025-07-06 09:00:00 523

原创 【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!

本研究提出了一种新颖的特征学习框架,名为**Dual-SAM,用于高性能的海洋动物分割(MAS)。为了增强海洋图像的特征学习,本研究首先引入了一个具有SAM范式的双重结构。然后,本研究提出了一种多层耦合提示(MCP)策略,以指导全面的水下先验信息,并利用适配器增强SAM编码器的多层特征。随后,本研究设计了一个扩张融合注意力模块(DFAM),以逐步整合来自SAM编码器的多层特征。最后,本研究没有直接预测海洋动物的掩码,而是提出了一种纵横连接预测(C3P)范式,以捕捉离散像素之间的互连性。

2025-07-05 09:00:00 939

原创 【CVPR2025】计算机视觉|AeroGen:遥感图像目标检测的“点石成金”之术!

遥感图像目标检测(RSIOD)旨在识别和定位卫星或航空图像中的特定目标。然而,当前RSIOD数据集中标记数据稀缺,这严重限制了当前检测算法的性能。虽然现有的技术,如数据增强和半监督学习,可以在一定程度上缓解这个问题,但它们严重依赖于高质量的标记数据,并且在稀有目标类别中表现较差。为了解决这个问题,本研究提出了一种专为RSIOD量身定制的布局可控扩散生成模型(即AeroGen)。据本研究所知,AeroGen是第一个同时支持水平和旋转边界框条件生成的模型,从而能够生成满足特定布局和对象类别要求的高质量合成图像。

2025-07-04 09:00:00 681

原创 【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!

本研究旨在解决类DETR方法中存在的计算负担重和对稳定查询选择依赖性高的问题。这些问题源于次优的两阶段选择策略,导致尺度偏差和冗余。为了解决这些问题,本研究提出了一种分层显著性过滤细化方法,该方法仅对过滤后的判别性查询执行Transformer编码,从而在计算效率和精度之间取得更好的平衡。通过一种新颖的尺度独立显著性监督,过滤过程克服了尺度偏差。为了补偿查询之间的语义错位,本研究引入了精细的查询细化模块,以实现稳定的两阶段初始化。基于上述改进,所提出的。

2025-07-03 09:00:00 874

原创 【CVPR2024】计算机视觉|EAOA : 深度学习新突破!有效降低标注成本!

在主动学习(AL)中,从大量的未标记候选样本中迭代查询最具信息量的样本以进行模型训练,在存在开放集类别时面临着巨大的挑战。现有方法要么优先查询可能属于已知类别的样本,表明认知不确定性(EU)较低,要么侧重于查询那些预测高度不确定的样本,反映了偶然不确定性(AU)较高。然而,它们都会产生次优的性能,因为低EU对应于有限的有用信息,并且未知类别样本的闭集AU指标意义不大。本研究提出了一个基于能量的主动开放集标注(EAOA)框架,该框架有效地整合了EU和AU,以实现卓越的性能。

2025-07-02 09:00:00 657

原创 【CVPR2024】计算机视觉|EGTR : Transformer中挖掘关系图,场景图生成SOTA!

本研究旨在解决场景图生成(SGG)这一具有挑战性的任务,即检测对象并预测对象之间的关系。在DETR开发之后,基于单阶段对象检测器的单阶段SGG模型得到了积极的研究。然而,现有方法使用复杂的建模来预测对象之间的关系,而忽略了对象检测器的多头自注意力中学习到的对象查询之间的内在关系。本研究提出了一种轻量级的单阶段SGG模型,该模型从DETR解码器的多头自注意力层中学习到的各种关系中提取关系图。通过充分利用自注意力副产品,可以使用浅层关系提取头有效地提取关系图。

2025-07-01 08:59:34 559

原创 【AAAI2025】计算机视觉|FBRT-YOLO:更快更好的实时航拍检测模型!

*本研究针对航拍图像检测中检测精度和效率之间的不平衡问题,提出了一种名为 FBRT-YOLO 的新型实时检测器系列。特征互补映射模块 (FCM)和多核感知单元 (MKP),旨在增强航拍图像中小目标的物体感知能力。FCM专注于缓解深度网络中小目标信息丢失引起的信息不平衡问题。它旨在将目标的空间位置信息更深入地融入网络,使其更好地与更深层的语义信息对齐,从而提高小目标的定位精度。本研究引入了MKP,它利用不同大小的卷积核来增强各种尺度目标之间的关系,并提高对不同尺度目标的感知能力。在。

2025-06-30 09:00:00 674

原创 【arXiv2025】计算机视觉|即插即用|LBMamba:革新视觉模型效率,性能炸裂

Mamba是一种状态空间模型 (SSM),它通过将递归重铸为并行选择性扫描来加速训练,最近已成为一种线性缩放、高效的自注意力替代方案。由于其单向性,Mamba 中的每个状态都只包含其先前状态的信息,而对之后的状态视而不见。当前,基于 Mamba 的计算机视觉方法通常通过在 Mamba 的全局前向扫描基础上增加全局后向扫描来克服这一限制,形成双向扫描以恢复全部感受野。然而,此操作会使计算负荷加倍,从而削弱 Mamba 原本的效率优势。为了消除这些额外的扫描,本研究引入了。

2025-06-29 07:26:58 1256

原创 【CVPR2025】GDD: 扩散模型助力!大幅提升泛化检测性能!

本研究旨在提升目标检测器在未见场景中的性能,即面向目标检测的领域泛化(DG)。由于现实世界应用中存在的复杂变化,这项任务仍然具有挑战性。最近,扩散模型在各种场景生成中展示了卓越的能力,这启发本研究探索其在改进DG任务中的潜力。本研究没有生成图像,而是提取扩散过程中的多步中间特征,以获得领域不变的特征用于泛化检测。此外,本研究提出了一个高效的知识转移框架,使检测器能够通过特征和目标级别的对齐来继承扩散模型的泛化能力,而不会增加推理时间。本研究在六个具有挑战性的DG基准上进行了广泛的实验。

2025-06-28 09:00:00 479

原创 【CVPR2024】计算机视觉|ACM:彻底解决有向目标检测边界不连续问题!

在过去几年中,定向目标检测发展迅速,其中旋转不变性对于检测器预测旋转框至关重要。期望预测能够在物体旋转时保持相应的旋转,但有时在物体在边界角度附近旋转时,会观察到角度预测的剧烈变化,这就是众所周知的边界不连续问题。长期以来,人们认为这个问题是由角度边界处损失的急剧增加引起的,并且广泛使用的联合优化IoU类方法通过损失平滑来处理这个问题。然而,本研究通过实验发现,即使是最先进的IoU类方法实际上也未能解决这个问题。通过进一步的分析,本研究发现解决方案的关键在于平滑函数的编码模式,而不是联合或独立优化。

2025-06-27 09:00:00 1215

原创 【CVPR2025】UCR : 解锁旋转目标检测的“角度“奥秘!

本研究旨在解决旋转目标检测中角度边界不连续的问题,特别是在合成孔径雷达(SAR)领域中。由于缺乏大规模数据集,SAR 领域在这方面的进展滞后。为了解决这个问题,本研究重新评估了现有的角度解析器,从维度映射的统一视角揭示了它们忽略了编码中固有的单位周期约束,容易导致预测偏差。针对此问题,本研究提出了一种单位周期解析器(UCR),它结合了单位圆约束损失,以提高角度预测的准确性。本研究的方法能够有效地提高现有最先进的弱监督方法的性能,甚至在现有的光学基准(即 DOTA-v1.0 数据集)上超越了完全监督模型。

2025-06-26 09:00:00 608

原创 【CVPR2025】SPMTrack:TMoE赋能,视觉跟踪性能爆炸式提升!

目前大多数先进的跟踪器采用单流范式,使用单个对模板图像和搜索区域图像进行联合特征提取和关系建模。然而,不同图像块之间的关系建模表现出显著的变化。例如,以与目标无关的信息为主的背景区域需要减少注意力分配,而前景,特别是边界区域,需要被强调。单个模型可能无法有效地同时处理所有类型的关系建模。在本研究中,本研究提出了一种名为SPMTrack的新型跟踪器,它基于专为视觉跟踪任务定制的混合专家模型 (TMoE),结合了多个专家的能力,可以更灵活地处理各种关系建模。受益于 TMoE,本研究将关系建模从图像对扩展到。

2025-06-25 09:00:00 790

原创 【CVPR2024】WiKG:图像分析的“关系”革命!

本研究提出了一种新的动态图表示算法,该算法将WSI概念化为知识图结构。具体来说,本研究基于实例之间的头尾关系动态构建邻居和有向边嵌入。然后,本研究设计了一种知识感知注意力机制,可以通过学习每个邻居和边的联合注意力得分来更新头节点特征。最后,本研究通过更新后的头的全局池化过程获得图级嵌入,作为WSI分类的隐式表示。本研究的端到端图表示学习方法在三个TCGA基准数据集和内部测试集上优于最先进的WSI分析方法。

2025-06-24 09:00:00 565

Deformable-DETR模型代码

Deformable-DETR模型代码

2024-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除