论文学习1:SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

Abstract

图像分割在视觉理解中起着重要作用。近年来,新兴的视觉基础模型在各种任务中持续取得了优异的表现。基于这一成功的经验,在本文,我们可以证明Segment Anything Model 2(SAM2)可以成为应用于U形分割模型的一个功能强大的编码器。我们提出了一个简单但有效的框架,称其为SAM2-UNet,用于实现多功能图像分割。具体来说,此框架采用基于SAM2预训练的Hiera骨干网络作为编码器,而解码器则使用经典的U形设计。此外,我们在编码器中插入适配器,以实现高效的参数微调。通过在各种任务上的初步实验,如伪装目标检测、显著目标检测、海洋动物分割、镜像检测和息肉分割,证明我们提出的SAM2-UNet能够轻松超越现有的专门化最先进方法,而无需复杂的改进。项目详细请见:https://github.com/WZH0120/SAM2-UNet。

Introduction

图片地址:https://github.com/WZH0120/SAM2-UNet/blob/main/sam2unet.jpg
Hiera 可能会有多种变体,为了简化流程,展示了最简单的版本。

Explanation

Encoder:SAM2-UNet 采用了由 SAM2 预训练的 Hiera [38] 骨干网络。与 SAM1 [18] 中使用的普通 ViT [5] 编码器相比,Hiera 使用了一个分层结构,能够捕捉多尺度特征,这使得它更适合用于设计 U 形网络。
RFBs:模拟人类视觉的感受野从而加强网络的特征提取能力,在Inception的基础上加入了空洞卷积,从而有效增大了感受野。图中,可见利用4个RFBs,通道数减少至64,增强了轻量特征。
Adapters:为了在有限内存设备上进行训练,采用了适配器的设计,通过插入适配器模块进行参数高效的微调。每个适配器由一个用于下采样的线性层、一个GeLU激活函数、另一个用于上采样的线性层以及最终的GeLU激活函数组成。
Decoder:与 SAM2 使用的双向 Transformer 解码器不同,解码器遵循经典的 U-Net 设计,由三个解码器块组成。每个解码器块包含两个“Conv-BN-ReLU”组合,其中“Conv”表示 3×3 卷积层,“BN”表示批量归一化(Batch Normalization)。
Loss Function:每个分割输出会与真实分割掩码进行对比,计算损失(如IoU损失和BCE损失),并进行深度监督。

Datasets

1.COD

目标是检测环境中隐藏良好的物体。参考的论文中提出了用于伪装物体检测(COD)的特征分解与边缘重建(FEDER)模型。FEDER 模型通过使用可学习的小波将特征分解为不同的频率带,从而解决了前景和背景之间的内在相似性问题。

2.SALOD

模仿人类认知机制来识别显著物体,用五个数据集进行测试。

3.MAS

采用两个数据集进行基准测试,包括MAS3K [21]和RMAS [10]

4.MD

为了实现准确且高效的镜像检测,HetNet 采用了一种有效的架构,通过不同阶段获取特定的信息来检测镜像,还进一步提出了一个基于多方向强度对比的模块(MIC)和一个反射语义逻辑模块(RSL),在MAE、IoU 和 F-measure等指标上性能有明显提升。

5.PS

息肉分割保证准确性具有一定的难度,究其原因在于相同的息肉在纹理、大小和形态上存在多样性,以及息肉和周围粘膜界限不明显。基于此,论文提出了并行反向注意力网络(PraNet),极为有效的提高了分割精度,在泛化能力和实时分割效率方面有较为明显的优势。

Results

1.COD

在这里插入图片描述
其中 COD10K 和 NC4K 数据集比 CHAMELEON 和 CAMO 更具挑战性,它们包含了更多的图像,分割任务更为复杂。通过比对S-measure 的结果,发现SAM2-UNet效果更优。

2.SALOD

在这里插入图片描述
SAM2-UNet 在 DUTS-TE、DUT-OMRON、HKU-IS、PASCAL-S 和 ECSSD 数据集上均展现了更好的性能。

3.MAS

在这里插入图片描述
SAM2-UNet 在所有指标上都超越了其他所有比较方法。

4.MD

在这里插入图片描述
SAM2-UNet 在所有指标上都超越了其他所有比较方法。

5.PS

在这里插入图片描述
在 ClinicDB 和 CVC-300 数据集上的表现相对较弱,但整体平均表现仍然优于 CFA-Net。

Ablation Study

在这里插入图片描述
通常情况下,较大的骨干网络通常能带来更好的性能。即使使用较小的 Hiera-Base+ 骨干网络,SAM2-UNet 的性能仍然优于 FEDER 。

Conclusion

本文提出了 SAM2-UNet,一种简单且有效的 U 形框架,实现自然和医学领域的多功能分割。

### Mamba-UNet 架构及其在医学图像分割中的应用 Mamba-UNet 是一种基于纯视觉模型的架构设计,专为医学图像分割任务而优化。它继承了 U-Net 的经典编码器-解码器结构,并通过引入创新性的模块来提升性能和效率。 #### 1. Mamba-UNet 的核心架构特点 Mamba-UNet 结合了 Vision Transformer 和卷积神经网络的优势,在保持高效计算的同时增强了特征提取能力。其主要特性如下: - **双流特征融合机制** Mamba-UNet 利用了多尺度特征图之间的交互作用,通过跨层连接实现更深层次的信息传递[^1]。这种设计显著提升了模型对复杂边界区域的理解能力。 - **轻量化注意力模块** 在传统 U-Net 基础上,Mamba-UNet 集成了高效的自注意力机制,用于捕捉全局上下文信息。这使得模型能够更好地处理具有较大形变的目标对象。 - **渐进式下采样策略** 不同于标准 U-Net 中固定的池化操作,Mamba-UNet 使用了一种动态调整步幅的方法来进行逐级降维。这种方法可以减少不必要的细节损失并保留更多语义信息。 #### 2. 应用场景与优势分析 Mamba-UNet 主要应用于医疗领域内的高精度图像分割任务,例如肿瘤检测、器官轮廓描绘以及细胞分类等。以下是该方法的一些具体应用场景及对应优点: - **脑部 MRI 图像分割** 对于大脑组织切片数据集而言,由于不同灰质白质区域之间存在模糊过渡带,因此需要极高分辨率才能区分细微差异。Mamba-UNet 凭借强大的局部感知能力和长距离依赖建模功能成功解决了这一难题。 - **肺结节 CT 扫描识别** 肺部影像通常伴有大量噪声干扰项,这对任何算法都构成了严峻挑战。然而借助精心设计的空间金字塔池化单元,再加上残差学习路径的支持,最终实现了稳健可靠的预测效果。 ```python import torch from torchvision import models class MambaUNet(torch.nn.Module): def __init__(self, num_classes=1): super(MambaUNet, self).__init__() # Encoder layers with progressive downsampling strategy self.encoder = [ torch.nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1), ... ] # Decoder layers incorporating lightweight attention modules self.decoder = [ torch.nn.ConvTranspose2d(128, 64, kernel_size=2, stride=2), ... ] self.final_conv = torch.nn.Conv2d(64, num_classes, kernel_size=1) def forward(self, x): skip_connections = [] for layer in self.encoder: x = layer(x) skip_connections.append(x) for i, layer in enumerate(self.decoder): x = layer(x) x += skip_connections[-i-1] output = self.final_conv(x) return output ``` 上述代码片段展示了如何构建一个简化版的 Mamba-UNet 模型框架。实际部署过程中可能还需要进一步调优参数配置以适应特定需求环境下的表现指标要求。 #### 总结 综上所述,Mamba-UNet 提供了一个灵活且有效的解决方案来应对现代医学成像技术所带来的各种新问题。凭借独特的体系结构改进措施,不仅提高了整体运行速度还兼顾到了准确性方面的要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值