多尺度模块特征融合模块学习1

模块来源

[2405.10530] CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

模块名称

CM-UNet

模块作用

提取多尺度特征信息

模块结构

模块代码

class ChannelAttentionModule(nn.Module):
    def __init__(self, in_channels, reduction=4):
        super(ChannelAttentionModule, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        self.fc = nn.Sequential(
            nn.Conv2d(in_channels, in_channels // reduction, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels // reduction, in_channels, 1, bias=False)
        )
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.fc(self.avg_pool(x))
        max_out = self.fc(self.max_pool(x))
        out = avg_out + max_out
        return self.sigmoid(out)

class SpatialAttentionModule(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttentionModule, self).__init__()
        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=kernel_size//2, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        x = torch.cat([avg_out, max_out], dim=1)
        x = self.conv1(x)
        return self.sigmoid(x)



class FusionConv(nn.Module):
    def __init__(self, in_channels, out_channels, factor=4.0):
        super(FusionConv, self).__init__()
        dim = int(out_channels // factor)
        self.down = nn.Conv2d(in_channels, dim, kernel_size=1, stride=1)
        self.conv_3x3 = nn.Conv2d(dim, dim, kernel_size=3, stride=1, padding=1)
        self.conv_5x5 = nn.Conv2d(dim, dim, kernel_size=5, stride=1, padding=2)
        self.conv_7x7 = nn.Conv2d(dim, dim, kernel_size=7, stride=1, padding=3)
        self.spatial_attention = SpatialAttentionModule()
        self.channel_attention = ChannelAttentionModule(dim)
        self.up = nn.Conv2d(dim, out_channels, kernel_size=1, stride=1)
        self.down_2 = nn.Conv2d(in_channels, dim, kernel_size=1, stride=1)

    def forward(self, x1, x2, x4):
        
        x_fused = torch.cat([x1, x2, x4], dim=1)
        x_fused = self.down(x_fused)
        x_fused_c = x_fused * self.channel_attention(x_fused)
        x_3x3 = self.conv_3x3(x_fused)
        x_5x5 = self.conv_5x5(x_fused)
        x_7x7 = self.conv_7x7(x_fused)
        x_fused_s = x_3x3 + x_5x5 + x_7x7
        x_fused_s = x_fused_s * self.spatial_attention(x_fused_s)

        x_out = self.up(x_fused_s + x_fused_c)

        return x_out

class DownFusion(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(DownFusion, self).__init__()
        self.fusion_conv = FusionConv(in_channels, out_channels)
        self.CAM = ChannelAttentionModule(out_channels)

    def forward(self, x1, x2):
        x_fused = torch.cat([x1, x2], dim=1)
        x_fused = self.fusion_conv(x_fused)

        x_fused =  + x_fused
        return x_fused

class MSAA(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(MSAA, self).__init__()
        self.fusion_conv = FusionConv(in_channels, out_channels)

    def forward(self, x1, x2, x4, last=False):
        # # x2 是从低到高,x4是从高到低的设计,x2传递语义信息,x4传递边缘问题特征补充
        # x_1_2_fusion = self.fusion_1x2(x1, x2)
        # x_1_4_fusion = self.fusion_1x4(x1, x4)
        # x_fused = x_1_2_fusion + x_1_4_fusion
        x_fused = self.fusion_conv(x1, x2, x4)
        return x_fused

总结

CM-UNet,这是一种利用最新的 Mamba 架构进行 RS 语义分割的高效框架。这个设计通过采用新颖的 UNet 形结构来解决大规模 RS 图像中显著的目标变化问题。编码器利用 ResNet 提取文本信息,而解码器则使用 CSMamba 块来有效捕获全局长距离依赖关系。此外,CM-UNet还集成了多尺度注意力聚合 (MSAA) 模块和多输出增强功能,以进一步支持多尺度特征学习。CM-UNet 已在三个 RS 语义分割数据集中得到验证,实验结果证明了此方法的优越性。

### CM-UNet 训练自定义数据集的方法 CM-UNet 是一种改进版的 U-Net 架构,广泛应用于医学图像分割和其他计算机视觉任务中。以下是关于如何使用 CM-UNet 框架训练自定义数据集的具体说明。 #### 1. 数据准备 在开始训练之前,需要准备好适合 CM-UNet 的输入数据格式。通常情况下,这些数据会被分为训练集、验证集和测试集,并存储为标准的文件格式(如 `.png` 或 `.npy`)。 对于地理空间数据或其他特殊领域数据,可以参考 TorchGeo 提供的功能来加载和预处理数据[^1]。如果数据未经过预处理,则可能需要执行以下操作: - **平滑处理**:通过 Origin 软件中的信号处理功能对原始数据进行平滑化处理[^3]。 - **基线校正**:同样利用 Origin 中的工具去除噪声并调整基线偏差。 最终得到的数据应满足 CM-UNet 输入的要求,即像素值范围标准化到 `[0, 1]` 或 `[-1, 1]` 并保存为张量形式。 #### 2. 环境配置与依赖安装 确保已正确设置 PyTorch 开发环境,并确认支持 CUDA 加速以便充分利用 GPU 性能。可以通过如下代码检测当前设备是否可用 GPU: ```python import torch device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') print(device) ``` 上述脚本会打印出所使用的计算资源类型(CPU 或者 GPU),从而帮助判断硬件条件是否符合高效训练的需求[^2]。 #### 3. 定义模型结构 构建 CM-UNet 需要继承 PyTorch 的 `nn.Module` 类型对象,并实现前向传播逻辑。下面给出一个简化版本的例子作为起点: ```python import torch.nn as nn class CM_UNet(nn.Module): def __init__(self, input_channels=3, output_channels=1): super(CM_UNet, self).__init__() # Encoder layers (downsampling path) self.encoder_conv_1 = nn.Conv2d(input_channels, 64, kernel_size=3, padding='same') ... def forward(self, x): # Implement the full architecture here. pass ``` #### 4. 设定损失函数与优化算法 针对语义分割问题,常用的损失函数有交叉熵损失 (`CrossEntropyLoss`) 和 Dice Loss 等。这里推荐采用 FCN-8s 所使用的 VGG 基础架构及其对应的多尺度融合策略。与此同时,Adam Optimizer 往往能够带来更快收敛速度以及更稳定的表现。 #### 5. 编写训练循环 最后一步就是编写完整的训练流程代码片段,其中包括批次迭代读取样本、预测输出、反向传播更新参数等核心环节。注意定期评估指标变化趋势以监控学习过程有效性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值