Pascal VOC mIoU大涨29%,PnP-OVSS即插即用的开放词汇语义分割的VLMs

Abstract

从图像-文本对中,大规模视觉-语言模型(VLMs)学习将图像区域与词语隐式关联,这在视觉问答等任务中表现出色。然而,利用这种学习关联进行开放词汇语义分割仍然是一个挑战。本文提出了一种简单但极其有效的无需训练的技术,即即插即用的开放词汇语义分割(PnP-OVSS)。PnP-OVSS利用VLM进行直接的文本到图像交叉注意和图像-文本匹配损失。为了在过度分割和欠分割之间取得平衡,我们引入了显著性丢弃,通过迭代地丢弃模型最关注的图像块,我们能够更好地解决分割掩码的整体范围。PnP-OVSS不需要任何神经网络训练,也无需任何分割注释进行超参数调整,包括验证集。PnP-OVSS在多个基准测试中表现出了显著的改进(在Pascal VOC上+29.4%的mIoU,Pascal Context上+13.2%的mIoU,MS COCO上+14.0%的mIoU,COCO Stuff上+2.4%的mIoU),甚至超过了大多数在预训练VLM基础上进行额外网络训练的基线。
代码地址:
https://github.com/letitiabanana/PnP-OVSS

图片

 

图片

Introduction

大规模视觉-语言模型(VLMs)在图像-文本对上的预训练,在多模态任务中取得了前所未有的性能,例如描述任意图像和回答关于它们的自由形式、开放性问题(无论是否进行微调)。这些任务显然涉及某种对象定位能力。例如,要回答“桌子上有什么物体?”这个问题,模型首先必须定位图像中的桌子并识别其上的物体。因此,可以合理地推测,VLM网络从图像-文本预训练中学会了开放词汇定位能力。然而,从VLM中提取这种定位能力仍然是一个开放的问题。

大多数现有的从VLM进行开放词汇语义分割(OVSS)的方法通常分别获取视觉和文本输入的单个向量编码。然而,将每个标记池化为单个向量可能会丢失关于对象和词语详细位置的信息。我们研究了预训练的交叉注意层在OVSS中的使用,这些层保留了文本和图像块之间更细粒度的对应关系。

图片

Method

PnP-OVSS 包

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值