1. 研究背景与动机
边缘检测是计算机视觉的基础任务,用于保留关键语义信息并抑制纹理噪声,广泛应用于图像检索、显著目标检测和语义分割等下游任务。传统方法(如Canny)依赖局部线索,难以捕获高级语义信息。深度学习模型(如CNN)通过卷积和池化块扩展感受野,但有效感受野小于理论值,限制了上下文建模能力。Transformer模型通过自注意力机制改善了全局依赖性建模,但计算成本高昂,尤其对实时应用和边缘设备不友好。此外,多粒度边缘生成(即不同粗细程度的边缘)现有方法(如UAED和MuGE)依赖多标签数据(多个标注者),限制了其在单标签数据集的应用。
EDMB的提出动机是:
- 效率问题:Transformer的计算开销大,而Vision Mamba能高效建模长距离依赖(通过状态空间模型),计算成本更低。
- 多粒度需求:不同任务需要不同粒度的边缘(如粗粒度用于分割,细粒度用于检索),但现有方法无法在单标签数据集生成多粒度边缘。
- 细粒度线索缺失:普通Mamba忽略局部细节,而边缘检测需兼顾全局语义和局部精度。
文档强调EDMB是首个基于Mamba的边缘检测器,解决了上述问题。
2. 方法框架:EDMB的整体架构
EDMB采用全局-局部编码器架构,结合可学习高斯分布解码器,高效生成多粒度边缘。整体框架如图1所示: