自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(229)
  • 收藏
  • 关注

原创 SET: Spectral Enhancement for Tiny Object Detection(CVPR2025)

本文提出了一种针对 Tiny Object Detection(TOD)任务的新型方法——Spectral Enhancement for Tiny object detection(SET)。通过对特征编码后的小物体进行频域分析,发现高频信息对小物体识别造成了干扰,因而设计了通过抑制背景中的高频信息来增强小物体检测性能的方法。具体地,SET 包含两个模块:层次化的背景平滑(HBS)模块和对抗扰动注入(API)模块。

2025-07-23 16:16:32 907

原创 RGBA图片格式转换为RGB格式(解决convert转换的失真问题)

OpenCV 的 cv2.cvtColor(…, cv2.COLOR_BGRA2GRAY) 会直接忽略 Alpha 通道的含义,将它当作第四个颜色通道来处理。也就是说,即使 Alpha 为 0(完全透明),它也会参与这个公式,导致原本透明区域的像素值被错误地计算成一个“伪灰度值”。

2025-07-17 17:33:31 300

原创 Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

摘要 本文提出了Point Transformer V2(PTv2),一种改进的三维点云Transformer架构。针对PTv1存在的参数效率低、位置编码不足和池化效率低等问题,作者提出了三项创新设计:(1) 分组向量注意力机制(GVA),通过共享权重编码降低参数量,同时继承多头注意力和向量注意力的优势;(2) 增强的位置编码方案,通过位置编码乘数强化几何信息;(3) 基于分区的池化策略,使用均匀网格划分实现高效的空间对齐聚合。实验表明,PTv2在ScanNet v2、S3DIS等基准测试中达到了新的最先进

2025-07-09 16:37:07 673

原创 Point Transformer

本文提出了一种基于自注意力机制的"点Transformer"网络,用于3D点云处理。点云作为无序且不规则的3D数据,传统卷积方法难以直接处理。作者设计了具有置换不变性的点Transformer层,采用局部向量自注意力机制,结合位置编码,有效捕捉点云几何特征。基于该层构建的网络在多个任务中取得突破性成果:在S3DIS数据集上mIoU首次突破70%(70.4%),ModelNet40分类准确率达93.7%,ShapeNetPart部件分割mIoU达86.6%。相比基于投影、体素或图的方法,点

2025-07-07 11:23:57 842

原创 Point Transformer V3: Simpler, Faster, Stronger

摘要 本文提出Point Transformer V3(PTv3),一种高效可扩展的点云Transformer架构。针对现有点云Transformer在精度与效率间的权衡问题,PTv3通过简化设计实现规模扩展,主要贡献包括:1)采用序列化邻域映射替代KNN搜索,提升计算效率;2)简化注意力交互机制,降低内存消耗;3)去除相对位置编码,改用稀疏卷积层。实验表明,PTv3将感受野从16点扩展到1024点,推理速度提升3.3倍,内存效率提高10.2倍。在20多个室内外场景任务中达到SOTA性能,多数据集联合训练进

2025-07-03 10:48:05 1155

原创 EdgeNAT: Transformer for Efficient Edge Detection

EdgeNAT: 基于Transformer的高效边缘检测方法 EdgeNAT是一种创新的单阶段边缘检测器,采用Dilated Neighborhood Attention Transformer (DiNAT)作为编码器,结合新型SCAF-MLA解码器,实现了高效的边缘检测。该方法通过DiNAT同时捕捉全局上下文和局部细节,解决了传统CNN方法在全局特征提取上的不足。SCAF-MLA解码器创新性地整合了空间和通道注意力机制,增强了特征表示能力。实验表明,EdgeNAT在BSDS500数据集上达到86.0%

2025-06-27 15:07:05 804

原创 CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings

本文提出了一种针对大规模建筑CAD图纸的泛视符号识别方法——CADSpotting,解决了现有方法在处理符号多样性、尺度变化和重叠元素时的局限。该方法通过密集点采样将CAD原语转换为3D点云表示,利用坐标和颜色等属性构建鲁棒特征,并使用滑动窗口聚合(SWA)技术结合加权投票与NMS实现高效分割。此外,作者发布了LS-CAD数据集,包含50个覆盖面积超1000平方米的精细标注平面图,显著超越现有基准。实验表明,CADSpotting在FloorPlanCAD和LS-CAD上表现优越,并验证了其在自动化

2025-06-25 09:03:12 674

原创 SymPoint Revolutionized: Boosting Panoptic Symbol Spotting with Layer Feature Enhancement

SymPoint[12]是利用点集表示法解决CAD制图中全光符号定位任务的初步尝试。尽管它取得了相当大的成功,但它忽略了图形层信息,并且训练收敛速度非常慢。为了解决这个问题,我们引入了SymPoint-V2,这是一个强大而高效的解决方案,具有新颖的流线型设计,克服了这些限制。特别是,我们首先提出了一种层特征增强模块(Layer feature - enhanced module, LFE),将图形层信息编码为原始特征,显著提高了性能。

2025-06-13 14:26:19 759

原创 Feature Information Driven Position Gaussian Distribution Estimation for Tiny Object Detection(pr25)

摘要 本文针对微小目标检测中因像素信息有限导致的弱表征问题,提出了一种基于特征信息驱动的增强方法。通过最小化信息熵损失,我们无监督地生成信息图(σ)以突出高信息量的关键区域。进一步引入位置高斯分布图(Mpd),利用高斯混合模型显式建模目标位置与尺度分布,在信息图先验指导下通过多尺度特征预测模块增强微小目标区域的关注度。实验表明,该方法在三个公开微小目标数据集上优于现有技术,能有效提升检测器对微小目标的识别能力。主要贡献包括:1) 首创从像素信息量角度增强微小目标表征;2) 结合信息熵与高斯分布建模的协同优化

2025-06-11 14:54:41 800

原创 一行代码解决detectron2安装失败

定位到报错位置,添加。

2025-06-09 13:59:58 231

原创 Symbol as Points: Panoptic Symbol Spotting via Point-based Representation

本文提出SymPoint方法,用于CAD图纸的全光学符号识别任务。不同于传统的光栅化或图神经网络方法,该方法将图形原语视为局部连接的2D点集,采用点云分割技术进行处理。具体创新包括:1)利用点转换器提取特征并附加类似Mask2Former的点阵头进行预测;2)提出连接模块关注(ACM)和对比连接学习(CCL)机制,增强原语连接信息的利用;3)设计KNN插值策略处理掩模下采样,解决原始掩模稀疏性问题。实验表明,SymPoint在FloorPlanCAD数据集上PQ和RQ指标分别绝对提升9.6%和10.4%,显

2025-06-05 17:49:22 777

原创 SCUNet++

肺栓塞(Pulmonary embolism, PE)是一种常见的肺部疾病,严重者可导致右心室肥厚和衰竭,其严重程度仅次于心肌梗死和猝死。肺动脉CT血管造影(CTPA)是一种广泛应用的PE诊断方法。然而,由于成像技术的限制,PE检测在临床实践中提出了挑战。CTPA会产生与PE类似的噪声,这使得确认其存在非常耗时,并且容易被过度诊断。然而,传统的PE分割方法不能充分考虑PE CT图像的特征层次结构、局部和全局空间特征。在本文中,

2025-05-27 14:34:27 1033

原创 TransPose: Keypoint Localization via Transformer(ICCV2021)

虽然基于cnn的模型在人体姿势估计方面取得了显著进展,但它们捕获的空间依赖关系来定位关键点仍不清楚。在这项工作中,我们提出了一个名为转置的模型,该模型引入了用于人体姿态估计的Transformer。Transformer中内置的注意层使我们的模型能够有效地捕获远程关系,并且还可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图,最后一个注意层作为聚合器,收集图像线索的贡献,形成关键点的最大位置。这种通过Transformer基于热图的定位方法符合激活最大化[20]的原则。

2025-05-09 14:42:21 824

原创 VIT(ICLR2021)

虽然Transformer架构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络一起应用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。对cnn的这种依赖是不必要的,直接应用于图像块序列的纯transformer可以在图像分类任务上表现很好。

2025-04-29 18:49:06 1026

原创 常见的梯度报错 one of the variables needed for gradient computation has been modified by an inplace operati

因为 PyTorch 的反向传播依赖Autograd 版本管理系统。当链式调用叠加、同时中间存在 in-place 或复杂操作时,很容易造成“旧版本被新版本覆盖”,反向传播时就爆炸。拆分操作 → 保证每一步显式可追踪。+= 以及其余连续操作全拆开即可。

2025-04-15 10:14:13 160

原创 VPN(2020)Cross-view Semantic Segmentation for Sensing Surroundings

感知环境在人类空间感知中起着至关重要的作用,它从观察中提取物体的空间形态以及自由空间。为了使机器人具有这种周围感知能力,我们引入了一种新的视觉任务,称为跨视图语义分割,以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,训练智能体将第一视图的观察结果解析成一个自上而下的语义图,该图在像素级上指示所有对象的空间位置。这项任务的主要问题是我们缺乏对自顶向下视图数据的真实注释。为了解决这个问题,我们在3D图形环境中训练VPN,并利用域适应技术将其传输到处理现实世界的数据。

2025-04-06 09:25:23 1152

原创 Pseduo LiDAR(CVPR2019)

三维目标检测是自动驾驶中的一项重要任务。如果3D输入数据是从精确但昂贵的激光雷达技术获得的,那么最新的技术具有高精度的检测率。到目前为止,基于更便宜的单眼或立体图像数据的方法导致精度大大降低——这一差距通常归因于基于图像的深度估计不佳。然而,在本文中,我们认为这不是数据的质量,而是它的表示,占大部分的差异。考虑到卷积神经网络的内部工作原理,我们建议将基于图像的深度图转换为伪激光雷达表示-本质上模仿激光雷达信号。利用这种表示,我们可以应用不同的现有的基于激光雷达的检测算法。

2025-04-05 21:05:06 864

原创 OFP--2018

事实证明,从单眼图像中检测3D物体是一项极具挑战性的任务,目前领先的系统的性能甚至还达不到基于激光雷达的同类系统的10%。对这种性能差距的一种解释是,现有的系统完全受基于透视图像的表示的支配,其中物体的外观和规模随着深度和有意义的距离而急剧变化,很难推断。在这项工作中,我们认为对3D世界进行推理的能力是3D物体检测任务的基本要素。为此**,我们引入了正交特征变换,它使我们能够通过将基于图像的特征映射到正交三维空间来逃避图像域**。

2025-04-05 20:39:36 797

原创 BEVHeight(CVPR2023):A Robust Framework for Vision-based Roadside 3D Object Detection

虽然最近的自动驾驶系统专注于开发基于自我车辆传感器的感知方法,但人们往往忽略了利用智能路边摄像头将感知能力扩展到视觉范围之外的另一种方法。我们发现最先进的以视觉为中心的鸟瞰图检测方法在路边摄像头上的性能较差。这是因为这些方法主要集中在相机中心的深度恢复上,随着距离的增加,车与地面的深度差会迅速缩小。在本文中,我们提出了一种简单而有效的方法,称为BEVHeight,来解决这个问题。从本质上讲,我们不是预测像素深度,而是将高度回归到地面,以实现距离不可知的公式,以简化仅相机感知方法的优化过程。

2025-04-05 15:55:42 990

原创 BEVFormer v2(CVPR2023)

作者提出了一种具有视角监督的新型鸟瞰(BEV)检测器,该检测器收敛速度更快,更适合现代图像主干。现有的最先进的BEV检测器通常与VoVNet等深度预训练的主干相关联,阻碍了蓬勃发展的图像主干与BEV检测器之间的协同作用。为了解决这一限制,我们优先考虑通过引入透视视图监督来简化BEV检测器的优化。为此,我们提出了一种两阶段的BEV探测器,其中来自视角头部的建议被馈送到鸟瞰头部以进行最终预测。为了评估我们的模型的有效性,我们进行了广泛的消融研究,重点是监督的形式和提议的检测器的一般性。

2025-04-05 13:56:30 1127

原创 Social GAN(CVPR2018)

理解人类的运动行为对于自主移动平台(如自动驾驶汽车和社交机器人)来说是至关重要的,如果它们要在以人为中心的环境中导航的话。这是具有挑战性的,因为人类的运动本质上是多模态的:考虑到人类运动路径的历史,有许多社会上合理的方式,人们可以在未来移动。我们通过结合序列预测和生成对抗网络的工具来解决这个问题:一个循环的序列到序列模型-服务于运动历史并预测未来行为,使用新的池化机制来聚合人们之间的信息。我们预测社会合理的未来,通过训练和普遍反对一个循环的鉴别器,并鼓励多样化的预测与一个新的多样性损失。

2025-04-05 10:34:14 905

原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace

一般都是使用了+=、-=、/=类的操作比如a+=b,改为 a = a+b即可可使用 torch.autograd.set_detect_anomaly(True) 来帮助定位具体哪个操作导致了问题

2025-03-13 09:25:20 220

原创 服务器按照python包出现证书不匹配错误

【代码】服务器按照python包出现证书不匹配错误。

2025-03-10 14:37:39 189

原创 Decoupled Contrastive Learning for Long-Tailed Recognition

有监督对比损失(SCL)在视觉表征学习中非常流行。给定一个锚点图像,SCL将两种类型的正样本(即其增强图像和来自同一类的其他图像)拉到一起,同时将负图像分开,以优化学习嵌入。在长尾识别的场景中,每一类样本的数量是不平衡的,平等地对待两类正样本会导致对类别内距离的偏置优化。此外,负样本间的相似关系虽然被SCL忽略,但也提供了有意义的语义线索。为了提高长尾识别的性能,本文通过解耦训练目标来解决长尾识别中的这两个问题。

2024-11-20 18:46:24 909

原创 ImportError: cannot import name ‘print_log‘ from ‘logging‘

mmcv升级到2.+后。

2024-09-08 12:08:21 747

原创 ModuleNotFoundError: No module named ‘mmcv.transforms‘

升级后自然又面临一系列不兼容问题!mmcv升级到2.0.0即可解决。

2024-09-08 11:56:24 957 1

原创 DNTR——F

由于图像数据中微小物体所占像素比例很小,因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域,高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。特征金字塔网络中的特征融合对于多尺度目标的检测至关重要。但是,由于不同尺度的特征之间没有正则化,在融合过程中可能会产生噪声特征。因此,作者提出了一个新的框架DNTR,它由DeNoising FPN模块和Trans R-CNN检测器组成。

2024-08-08 11:13:47 1365

原创 SimD_F

由于微小目标的大小和信息的缺乏,微小目标检测已成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。虽然有一些针对微小物体的有效的标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加阳性样本的数量,并且需要设置一些固定的超参数。然而,更多的阳性样本并不一定意味着更好的检测结果,事实上,过多的阳性样本可能会导致更多的假阳性。在本文中,作者引入了一种简单而有效的策略——相似距离(SimD)来评估边界框之间的相似度。

2024-08-06 15:21:34 1239

原创 SRTOD——F

微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强,这种方法受到虚假纹理和伪影的严重影响,难以使微小物体的特征清晰可见,便于检测。作者提出了一种自重构微小目标检测(SR-TOD)框架,有效缓解了信息丢失问题。作者首次在检测模型中引入了自重构机制,并发现了自重构机制与微小目标之间的强相关性。

2024-08-06 15:21:04 1391 2

原创 DotD_F

随着基于锚点和无锚点检测器的发展,目标检测取得了很大的进步。然而,由于缺乏外观信息,微小物体的检测仍然具有挑战性。在本文中,作者观察到在目标检测中最广泛使用的度量IoU (Intersection over Union)在检测微小目标时对预测边界框与地面真值之间的轻微偏差很敏感。虽然提出了一些新的指标,如GIoU、DIoU和CIoU,但它们在微小目标检测上的性能仍然远远低于预期水平。

2024-08-06 15:20:38 1115

原创 ADAS-GPM

微小目标检测最近的一个趋势是引入更细粒度的标签分配策略,为分类和回归提供有希望的监督信息。然而,以往大多数基于IoU (intersection - overunion)的方法存在两个主要缺陷,包括:(1)IoU对微小目标边界盒偏差的容忍度较低;(2)样本间和样本内失衡导致的优化指导不足。基于高斯概率分布的模糊相似度度量(GPM)和自适应动态锚点挖掘策略(ADAS)。GPM旨在解决小边界框与预设锚点之间不准确的相似度测量问题,为标签分配提供更准确的基础。

2024-08-06 15:18:47 1313

原创 DetectorRS

本文介绍了一种新的对象检测器——DetectoRS,通过在骨干网络设计中引入递归特征金字塔和可切换的空洞卷积机制,实现了出色的性能提升。在宏观层面,递归特征金字塔将额外的反馈连接添加到底部向上传播的骨干层中;在微观层面,可切换的空洞卷积通过不同的空洞率对特征进行卷积,并使用开关函数收集结果。实验结果显示,在COCO测试集中,DetectoRS取得了最先进的55.7%的边界框AP、48.5%的实例分割AP和50.0%的全景分割PQ。

2024-07-26 14:34:47 503

原创 SimD~

本文介绍了一种名为相似性距离(SimD)的简单而有效的标签分配策略,用于解决小目标检测中的挑战问题。传统的IoU和NMS方法存在一些固定超参数需要设置的问题,而且过多的正样本并不一定能提高检测结果的准确性。因此,本文提出的SimD策略不仅考虑了位置和形状相似度,还能够自适应地学习超参数,适用于不同数据集和各种对象大小的情况。实验结果表明,在四个主流的小目标检测数据集上,该方法的表现优于现有的最佳竞争对手,并且在AI-TOD数据集上的表现特别突出,达到了1.8 AP点和4.1 AP点的提升。

2024-07-26 14:21:04 1094

原创 DNTRo

本文旨在解决计算机视觉领域中微小物体检测的问题。由于图像数据中微小物体所占像素比例很小,因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域,高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。为此,作者提出了一个新的框架DNTR,它由DeNoising FPN模块和Trans R-CNN检测器组成。DN-FPN模块利用对比学习抑制FPN上每个级别的特征中的噪声,并在Top-down路径中融合不同尺度的特征。

2024-07-26 14:10:59 896

原创 SRTOD

本文主要探讨了在目标检测领域中,如何解决微小物体检测的问题。传统的通用检测器在处理微小物体时性能下降严重,主要是因为难以提取有效的特征。为了解决这个问题,作者提出了一个自我重建的微小物体检测框架(SR-TOD),并在检测模型中引入了一个自我重建机制。通过构建输入图像和重建图像之间的差异图,可以提高微小物体的可见性和清晰度,并增强弱表示以改善检测器的性能。此外,作者还开发了一种基于差异图引导的特征增强模块(DGFE)来进一步提升微小特征的清晰度。

2024-07-26 13:56:35 812

原创 Robust Tiny Object Detection in Aerial Images amidst Label Noise

精确检测遥感图像中的小目标非常困难,因为这类目标视觉信息有限且在场景中频繁出现。此外,手动标注这些小目标不仅费时费力,还容易出错,即产生标签噪声。当使用带有噪声标签的训练集训练检测器时,网络往往倾向于过度拟合错误标签,导致性能不佳。为了解决这一问题,作者提出了DeNoising Tiny Object Detector(DN-TOD)。该方法包含两个关键组成部分:Class-aware Label Correction(CLC)和Trend-guided Learning Strategy(TLS)。

2024-06-10 09:30:38 1053

原创 Inner-IoU

作者指出IoU损失在理论上有能力精确描述边界框回归状态,但在实践中,它不能自适应地匹配不同的检测器和检测任务,导致泛化能力较弱。为了解决这个问题,作者首先分析了BBR模型,发现区分不同回归样本并通过不同规模的辅助边界框来计算损失可以有效地加速回归过程。对于高IoU的样本,使用较小的辅助边界框来计算损失可以加快收敛,而低IoU的样本则更适合使用较大尺寸的辅助边界框。基于此Inner-IoU应运而生,它通过辅助边界框来计算IoU损失。

2024-06-07 12:04:25 684

原创 服务器进不去conda环境问题

立即重新加载和应用 .bashrc 配置文件中的设置。当你对 .bashrc 文件进行了修改,比如添加或修改了环境变量、别名(alias)、函数等功能后,通常需要执行这个命令来让这些更改在当前终端会话中生效,而无需关闭并重新打开终端。

2024-06-02 14:54:56 436

原创 mmcv-full安装失败更换whl安装

不知道服务器什么鬼,莫名其妙安装mmcv-full一直报错,这下就真的是一时卸载一直爽。然后path是你的路径。不得已只能去下载轮子。

2024-05-06 11:17:31 889 1

原创 查看自己的环境配置脚本文件

【代码】查看自己的环境配置脚本文件。

2024-05-06 11:17:04 193

yolo系列论文解读11

YOLOv1(2016.5) YOLOv2(2016.12) YOLOv3(2018.4) YOLOv4(2020.4) PP-YOLO(2020.8) PP-YOLOv2(2021.4) YOLOR(2021.5) YOLOX(2021.8) YOLOv7(2022.7) YOLOv6(2022.9) PP-YOLOE(2022.12)

2023-11-29

Perseus 软件体系结构顶会,fast2023最佳两篇论文之一

A Fail-Slow Detection Framework for Cloud Storage Systems

2023-11-05

CVPR2023FasterNet讲解

CVPR2023FasterNet讲解

2023-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除