- 博客(26)
- 收藏
- 关注
原创 论文学习23:Multi-Scale and Detail-Enhanced Segment Anything Model forSalient Object Detection
本文针对 SOD 任务提出了一个新颖的特征学习框架 MDSAM。该框架保留了 SAM 的预训练权重,同时融合了多尺度和细粒度信息。具体而言,通过在 SAM 的编码器中引入 LMSA,研究人员将 SAM 应用于 SOD,使模型能够学习多尺度信息。此外,研究人员还提出了 MLFM,以有效地融合 SAM 编码器不同层的输出特征。为了提升SOD的性能,提出了DEM来解决SAM中缺乏细粒度细节的问题。实验结果验证了该方法的有效性和强大的泛化能力。
2025-08-13 16:27:25
180
原创 论文学习22:UNETR: Transformers for 3D Medical Image Segmentation
本文提出了一种基于Transformer的新型架构,称为UNETR,用于对体积医学图像进行语义分割,并将该任务重新表述为一维序列到序列的预测问题。研究人员提出使用Transformer编码器来增强模型学习长距离依赖关系的能力,并有效地捕捉多尺度的全局上下文表征。研究人员验证了UNETR在CT和MRI模式下不同体积分割任务中的有效性。UNETR在BTCV排行榜的标准赛和自由赛中均取得了多器官分割领域的新最高水平,并在MSD数据集上优于脑肿瘤和脾脏分割的竞争方法。
2025-08-11 20:05:43
265
原创 论文学习21:Pyramid Scene Parsing Network
本文提出了一个有效的金字塔场景解析网络,用于复杂场景理解。全局金字塔池化功能提供了额外的上下文信息。研究人员还为基于 ResNet 的 FCN 网络提供了一种深度监督优化策略,并希望公开的实现细节能够帮助采用这些有用的策略进行场景解析和语义分割,并推进相关技术的发展。
2025-08-09 15:02:54
379
原创 论文学习20:SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers
本文提出了一种简单、干净且功能强大的语义分割方法 SegFormer,它包含一个无位置编码的分层 Transformer 编码器和一个轻量级的 AllMLP 解码器。它避免了以往方法中常见的复杂设计,从而实现了高效率和高性能。SegFormer 不仅在常见数据集上取得了新的 SOTA 成果,还展现出强大的零样本鲁棒性。研究人员希望这个方法能够为语义分割奠定坚实的基础,并激发进一步的研究。
2025-08-08 23:03:51
328
原创 论文学习19:Multi-view Aggregation Network for Dichotomous Image Segmentation
本文将高精度 DIS 建模为多视图物体感知问题,并提出了一个简洁、精简的多视图聚合网络,旨在在模型设计、精度和推理速度之间取得更好的平衡。为了解决多视图的目标对齐问题,本文提出了多视图互补定位模块来联合计算目标的共同注意区域。此外,本文提出的多视图互补细化模块嵌入到每个解码器块中,以充分整合互补的局部信息并弥补单视图块的语义缺陷,最终仅用一个卷积层即可完成视图重排。大量实验表明,提出的模型在 DIS 数据集上表现良好。
2025-08-06 23:37:22
348
原创 论文学习18:Bilateral Reference for High-Resolution Dichotomous Image Segmentation
本文提出了一个配备双边参考的 BiRefNet 框架,该框架可在同一框架内执行二分图像分割、高分辨率显著目标检测和隐藏目标检测。通过全面的实验,研究者发现未缩放的源图像和对信息丰富区域的关注对于生成 HR 图像中精细且细节丰富的区域至关重要。为此,研究者提出了双边参考来填充精细部分中缺失的信息(内向参考),并引导模型更加关注细节更丰富的区域(外向参考)。这显著提升了模型捕捉微小像素特征的能力。为了降低 HR 数据训练的高昂训练成本,本文还提供了各种实用技巧,以实现更高质量的预测和更快的收敛速度。
2025-08-05 23:58:18
327
原创 论文学习17:CLIP-TNseg: A Multi-Modal Hybrid Framework for Thyroid Nodule Segmentation in Ultrasound Imag
本论文提出了一种名为 CLIP-TNseg 的新方法,用于甲状腺结节分割,该方法将多模态大模型与神经网络架构相结合。通过融合文本和视觉监督,CLIP-TNseg 提高了分割的准确性、鲁棒性和泛化能力。该方法在临床应用中展现出巨大潜力,并可扩展至其他医学图像分割任务,突显了多模态学习在推动医学诊断发展方面的价值。
2025-04-02 17:27:10
345
原创 论文学习16:Learning Transferable Visual Models From Natural Language Supervision
本文研究了在自然语言处理(NLP)领域取得成功的、与具体任务无关的大规模网络预训练方法,是否可以迁移到另一个领域。研究表明,采用这一方法后,在计算机视觉领域会出现类似的行为,我们也探讨了这一研究方向的社会影响。为了优化训练目标,CLIP 模型在预训练过程中学习执行多种不同的任务。这种任务学习可以通过自然语言提示(prompting)加以利用,从而实现对许多现有数据集的零样本(zero-shot)迁移。在足够大的规模下,这种方法的性能可以与特定任务的监督学习模型相竞争,尽管仍有很大的改进空间。t=P1C7。
2025-04-02 00:24:02
805
原创 论文学习15:FINet: Frequency Injection Network for Lightweight Camouflaged Object Detection
文中提出了一种高效的频率注入网络(FINet),用于轻量级伪装目标检测(COD)。FIM 通过分别向 RGB 特征中注入细节级和目标级的频率线索,以增强轻量级主干特征。大量实验表明,FINet 在较低的模型复杂度和更快的推理速度下,仍能与大多数最新的 SOTA 方法竞争,表现出色。
2025-03-22 18:14:37
418
原创 论文学习14:EMGANet: Edge-Aware Multi-Scale Group-Mix Attention Network for Breast Cancer Ultrasound Imag
为了提高乳腺超声图像分割的准确性,文中提出了 EMGANet,该网络利用超声图像中的深层语义特征和边缘特征。我们引入了高效的 MGM 块,以提取深层多尺度语义特征。所提出的 EMGANet 具有强大的表征能力,能够精确分割癌症病灶。此外,EFE 块从 MGM 网络的多尺度输出中提取关键的边缘特征。最终,SKF 通过调整权重,有效融合浅层边缘特征与丰富的深层语义信息。EMGANet 在乳腺癌数据集上表现出卓越的分割性能,消融实验验证了所提出组件的有效性。此外,该方法在三个数据集上的表现优于多种最新的先进方法。
2025-03-22 16:57:27
509
原创 论文学习13:MSDUNet:A Model based on Feature Multi-Scale and Dual-input Dynamic Enhancement for Skin Le
本文介绍了一种名为MSDUNet的医学图像分割模型,该模型采用混合架构,集成了MSD Block和D2M模块。该模型利用深度学习算法从医学图像中学习和提取复杂特征,为医生提供更全面、更准确的信息。具体而言,所提出的MSD Block和D2M模块显著提升了皮肤癌分割任务的性能。在公开数据集上进行的实验表明,该模型取得了具有竞争力的结果,有力地支持了皮肤癌医学图像分割的进步。这些创新方法对提高诊断准确性、指导治疗决策以及推动该领域进一步研究产生了积极影响。尽管如此,本研究仍存在一些问题。
2025-03-19 18:25:59
440
原创 论文学习12:LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation
本文提出了一种手术场景分割网络LSKANet,该网络结合了DLKA以充分利用区域和条带状手术特征并减少局部特征相似性导致的错误识别,MAFF以在亲和矩阵的指导下融合多尺度特征图并抑制术中伪影的干扰,以及BGH的混合损失函数,以实现更准确的边界分割。在不同场景的三个数据集(EndoVis2018,CaDIS和论文中的MILS)上进行的大量实验验证了所提方法的有效性。文中的方法在这三个数据集上都取得了新的SOTA结果,并有相当大的改进。此外,LSKANet与不同的骨干网络兼容,可以显着提高它们的性能。
2025-03-19 00:01:46
1080
原创 论文学习10:SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
在本文中,我们分析了以往成功的分割模型,并总结了它们所具备的优秀特性。基于这些发现,我们提出了一种定制卷积注意力模块(MSCA)和一个CNN 结构的分割网络(SegNeXt)。实验结果表明,SegNeXt 在性能上远超当前最先进的基于 Transformer 的方法。近年来,Transformer 结构的模型在各种分割任务排行榜上占据主导地位。然而,本研究表明,当 CNN 经过合理设计后,仍然能够比 Transformer 方法表现更好。
2025-03-17 23:38:33
860
原创 论文学习11:Boundary-Guided Camouflaged Object Detection
BGNet是一个由EAM(边缘注意模块)、EFM(边缘特征融合模块)和 CAM(通道注意模块)组成的统一整体,其中各个组件串行互相依赖,并相互补充。前两个模块(EAM 和 EFM)主要用于提取边界线索并引导特征学习,而 CAM 进一步增强关键特征表示。论文中的实验结果指出,CAM 和 EAM(边界线索相关模块)对性能提升的贡献比 EFM 更大。
2025-03-17 00:09:38
643
原创 论文学习9:Stepwise Feature Fusion: Local Guides Global
在本研究中,我们提出了一种新型深度学习模型 SSFormer,该模型具备强大的泛化能力和学习能力,这对于息肉分割任务至关重要。在额外的实验中,我们发现 SSFormer 在 ISIC-2018 和 2018 Data Science Bowl 基准测试中同样展现出卓越的学习能力,这表明 SSFormer 具有广阔的应用潜力,能够提升深度学习在其他医学图像分割任务中的表现。
2025-03-14 23:13:42
275
原创 论文学习8:Shallow Attention Network for Polyp Segmentation
由于数据集规模有限,息肉分割模型容易因过拟合而退化。本文尝试从两个方面缓解这一问题。针对错误的颜色因果关系,我们提出通过颜色交换来解耦图像的颜色与内容。针对小息肉难以分割的问题,我们设计了浅层注意力机制,以降低数据噪声。这些方法都有助于减少无关因素对模型的干扰。未来,我们将结合更多的先验知识,设计更具鲁棒性的特征,以消除独立因素的干扰。
2025-03-13 21:34:27
354
原创 论文学习7:Adaptive Context Selection for Polyp Segmentation
在本文中,我们认为高效地感知局部与全局上下文对于提高息肉区域定位与分割的性能至关重要。基于此,我们提出了一种基于自适应上下文选择的编码器-解码器框架,其中包含用于基于困难区域挖掘的局部上下文提取的 LCA 模块、用于每个解码器块中的全局特征表示和增强的 GCM 模块以及用于上下文信息聚合和选择的 ASM 组件。
2025-03-12 22:53:58
719
原创 论文学习6:EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
在本文中,我们介绍了一种新型高效的多尺度卷积注意力解码器 EMCAD,专为医学图像分割中的多阶段特征聚合和细化而设计。EMCAD 采用多尺度深度卷积块,这对于捕获特征图中的不同尺度信息至关重要,而特征图是医学图像分割精度的关键因素。这种设计选择使用深度卷积而不是标准的 3×3 卷积块,使 EMCAD 非常高效。EMCAD 与较小的编码器兼容,使其非常适合即时诊断应用,同时保持高性能。
2025-03-12 21:59:31
1219
原创 论文学习5:metaformer
在本研究中,我们将 Transformer 中的注意力机制抽象为一种 token mixer,并将整体 Transformer 归纳为一种通用架构,称为MetaFormer,其中 token mixer 的具体形式并未限定。我们并未专注于特定的 token mixer,而是指出MetaFormer 本身才是保证模型取得合理性能的关键。为了验证这一观点,我们特意将 MetaFormer 的 token mixer 设定为极其简单的池化操作,并发现由此得到的PoolFormer。
2025-03-11 23:09:07
1020
原创 论文学习4: H2Former: An Efficient Hierarchical Hybrid Transformer for Medical Image Segmentation
在本研究中,为了充分利用 CNN、Transformer 的多尺度通道和 token 特征的优势,我们提出了一种用于医学图像分割的分层混合视觉 Transformer,称为 H2Former,它集成了 CNN 的归纳偏差、多尺度通道注意 token 特征和 Transformer,将它们的优点组合成一个统一的块。作为 CNN 的替代框架,H2Former 可以提高模型对多尺度长距离依赖关系和局部空间信息进行建模的能力。
2025-03-10 23:26:30
654
原创 论文学习3:MISSFormer: An Effective Medical Image Segmentation Transformer
在本文中,提出了 MISSFormer,一种位置无关的分层 U 形医学图像分割变换器,探索了全局依赖性和局部上下文捕获。所提出的增强混合块可以有效克服由前馈神经网络中卷积直接嵌入引起的特征判别限制问题,并做出判别性特征表示。基于这些核心设计,我们进一步研究了由所提出的分层变换器编码器生成的多尺度特征的集成,这对于精确分割至关重要。我们在两种不同形式的数据集上评估了所提出的方法,结果证明了 MISS Former 的有效性和鲁棒性。
2025-03-10 22:01:28
862
原创 模块学习2
本文提出了提出了一种高效的基于transformer的语义分割模型,EDAFormer。它利用了所提出的无嵌入注意力 模块。无嵌入注意力结构可以重新思考自注意力 全局背景建模方面的机制。
2025-03-06 20:46:03
154
原创 多尺度模块特征融合模块学习1
CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation学习
2025-02-20 22:31:26
486
原创 Deeplabv3学习补充
Atrous Spatial Pyramid Pooling,可以理解为空洞空间卷积池化金字塔或者多孔空间金字塔池化。这其中,包括两个概念:SPP和Atrous。SPP(Spatial Pyramid Pooling): 是一种神经网络模块,旨在通过在多个尺度上提取特征来捕获多尺度上下文信息。SPP最初在图像分类任务中被提出,后来被广泛应用于目标检测、语义分割等计算机视觉任务。Atrous:空洞卷积,在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。
2024-12-11 16:30:53
1606
原创 论文学习1:SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation
图像分割在视觉理解中起着重要作用。近年来,新兴的视觉基础模型在各种任务中持续取得了优异的表现。基于这一成功的经验,在本文,我们可以证明Segment Anything Model 2(SAM2)可以成为应用于U形分割模型的一个功能强大的编码器。我们提出了一个简单但有效的框架,称其为SAM2-UNet,用于实现多功能图像分割。具体来说,此框架采用基于SAM2预训练的Hiera骨干网络作为编码器,而解码器则使用经典的U形设计。此外,我们在编码器中插入适配器,以实现高效的参数微调。
2024-11-28 17:34:15
2293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人