这篇文章介绍了一种名为 Falcon 的视觉-语言基础模型(Vision-Language Foundation Model, VLM),专门针对遥感图像理解和分析任务进行了设计和优化。以下是文章的主要研究内容总结:
1. 研究背景与动机
-
挑战:现有的视觉语言模型(VLMs)在自然图像领域取得了显著进展,但在遥感图像领域仍面临挑战。遥感图像与自然图像存在显著差异,包括数据规模、任务多样性、注释质量和模型推理能力等方面。
-
目标:开发一个能够处理多种遥感任务(如图像分类、目标检测、分割、变化检测等)的统一视觉语言模型,同时提供强大的空间和语义理解能力。
2. Falcon 模型架构
-
统一架构:Falcon 采用了一个统一的多任务学习架构,能够同时处理图像级、区域级和像素级的任务。这是首个能够支持 14 种不同任务的遥感视觉语言模型。
-
关键组件:
-
图像编码器:用于提取遥感图像的视觉特征。
-
多模态编码器-解码器:整合视觉和语言信息,生成针对不同任务的输出。
-
动态提示训练策略:通过多样化的指令提示,增强模型对自然语言的理解能力。
-
3. Falcon SFT 数据集
-
数据规模与多样性:Falcon SFT 是一个大规模、多任务的指令调整数据集,包含约 7800 万高质量数据样本,涵盖 560 万张多空间分辨率和多视角的遥感图像。
-
数据处理:
-
统一注释格式:将不同数据集的注释标准化,便于模型训练。
-
任务扩展:通过重新利用现有数据结构,生成更多任务的注释,支持 14 种任务。
-
数据验证:通过人工抽样验证,确保数据质量和可靠性。
-
4. 实验与评估
-
性能评估:
-
图像级任务:包括图像分类、视觉问答(VQA)、目标计数和图像描述等。Falcon 在多个数据集上取得了显著优于现有模型的性能。
-
区域级任务:如目标检测(水平和定向边界框)、视觉定位和区域描述。Falcon 在这些任务上也表现出色,尤其是在定位和推理能力方面。
-
像素级任务:包括像素分类、语义分割和变化检测。Falcon 是首个在像素级任务上表现出色的 VLM。
-
-
零样本性能:Falcon 在未见过的数据集上也展现了强大的泛化能力,优于其他通用和遥感专用的 VLM。
-
消融实验:验证了数据规模、任务粒度和模型大小对性能的影响,表明更大的数据集和更复杂的任务设置可以显著提升模型性能。
5. 结论
-
贡献:
-
提出了 Falcon,首个能够同时处理 14 种遥感任务的视觉语言模型。
-
创建了 Falcon SFT,目前遥感领域最大规模和最全面的数据集。
-
通过广泛的实验验证了 Falcon 的优越性能,并开源了完整的数据集、代码和模型权重,以促进该领域的进一步研究。
-
6. 研究意义
-
实际应用:Falcon 的多任务能力和强大的空间与语义理解能力使其在遥感图像分析中具有广泛的应用前景,例如环境监测、城市规划、灾害响应等。
-
技术推动:通过开源 Falcon 和 Falcon SFT,文章为遥感领域的研究者提供了强大的工具和数据资源,有助于推动该领域的发展。
这篇文章不仅提出了一个创新的遥感视觉语言模型,还通过大规模数据集和详细的实验验证了其有效性,为遥感图像理解领域带来了新的突破。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
摘要
本文介绍了一种针对遥感领域的综合性视觉-语言基础模型,名为 Falcon。Falcon 提供了一种统一的基于提示的范式,能够高效地执行复杂多样的遥感任务。Falcon 在图像、区域和像素级别展现出强大的理解和推理能力。具体而言,仅通过简单的自然语言指令和遥感图像,Falcon 就能在 14 种不同的任务中以文本形式输出令人印象深刻的结果,包括图像分类、目标检测、分割、图像描述等。为了促进 Falcon 的训练并增强其编码丰富空间和语义信息的表示能力,我们开发了 Falcon SFT,这是一个大规模、多任务、指令调整的遥感领域数据集。Falcon SFT 数据集包含大约 7800 万高质量数据样本,涵盖 560 万具有多种空间分辨率和多视角的遥感图像,以及多样化的指令。它具有分层注释,并经过人工抽样验证以确保数据质量和可靠性。广泛的对比实验表明,尽管 Falcon 仅有 0.7B 参数,但它在 67 个数据集和 14 项任务中表现出色。
1. 引言
大型视觉语言模型(LVLMs)在自然图像的各种视觉-语言任务中取得了显著的成功 [1, 12, 38, 55, 101]。然而,由于自然图像和遥感图像之间存在显著的领域和嵌入知识差距,开发针对遥感的视觉语言基础模型仍然是一个重大挑战。为此,以往的研究 [21, 27, 37, 51, 96] 通常专注于学习在特定遥感任务中表现出色的视觉语言模型,限制了它们在更多样化和复杂场景中的适应性。随着人工通用智能(AGI)系统的不断发展,创建具有全面理解和推理能力的遥感基础模型具有重要意义。然而,要实现这样的遥感基础模型仍然面临重大挑战,我们总结如下:1)现有模型没有为多样化的遥感任务提供通用表示,通常无法促进全面的感知和推理能力的学习;2)缺乏大规模、高质量、多任务数据集用于训练,也限制了当前遥感模型学习稳健和泛化表示的能力。为解决上述挑战,我们首先提出了 Falcon,一种针对遥感的综合性视觉语言基础模型。Falcon 特别之处在于其统一的多任务学习架构,将图像级、区域级和像素级的推理和理解能力整合到一个模型中。据我们所知,Falcon 是第一个能够同时执行 14 种不同理解和推理任务的遥感视觉语言模型(VLM)。我们还在表 1 中提供了不同遥感 VLM 与 Falcon 的能力比较。与 Falcon 相比,以往的模型如 GeoChat [27] 和 RSGPT [21] 只能支持有限范围的遥感任务,限制了它们的应用场景。设计 Falcon 的关键挑战是为多样化的遥感任务学习通用表示。受自然图像领域最新研究 [74, 77, 81, 91] 的启发,我们利用统一的网络架构无缝整合空间层次和语义粒度信息到通用表示中。该架构包括图像编码器和多模态编码器-解码器。这种设计对齐了视觉和语言表示,并为各种遥感任务提供了一个统一的框架,无需额外的模块设计。
此外,为了进一步增强 Falcon 对指令的理解能力,我们提出了一种动态提示训练策略,利用每个指令的多种不同措辞版本。通过这种方式,给定用户的提示和遥感图像,Falcon 可以在多种任务中以统一的文本形式输出结果,例如图像分类、目标检测、分割、图像描述、变化检测等。此外,为了促进 Falcon 的训练,我们进一步开发了 Falcon SFT,这是一个大规模、多任务指令调整数据集。早期的遥感数据集 [14, 43, 80] 通常专注于单一或少数视觉任务。最近的研究提出了适合训练视觉语言模型的多模态遥感数据集。然而,这些数据集通常只包含有限数量的图像-文本对,仅适用于训练特定任务的模型 [21, 89, 96]。因此,我们提出了 Falcon SFT,这是一个大规模的多任务指令调整数据集。在实验中,我们对提出的 Falcon 进行了定性和定量的多种评估(见图 1 预览)。对于定性评估,我们分别可视化了 14 项任务的预测结果,并与其他最先进的方法进行比较,以评估 Falcon 的性能。对于定量评估,我们评估了 Falcon 在每个下游任务上的性能,以及其在未见数据样本上的零样本性能,突出了 Falcon 的泛化能力。此外,我们还对 Falcon 进行了详细的消融研究,展示了我们训练策略的有效性。最后,为解决社区中缺乏高性能遥感基础模型的关键问题,我们将完全开源我们的工作,提供完整数据集、代码和模型权重,旨在弥合遥感图像基础模型与自然图像基础模型之间的差距。尽管我们提出的 Falcon 需要相当大的资金投入,但我们希望这一努力能够促进该领域的进一步研究和发展,提升遥感模型的能力及其在现实世界中的应用。本文的贡献可以总结如下:1)据我们所知,Falcon 是第一个针对遥感的视觉语言模型,能够在统一架构中支持图像、区域和像素级别的理解和推理能力,涵盖 14 种任务;2)截至 2025 年 3 月,Falcon SFT 是遥感领域中最大规模和最全面的视觉语言模型训练数据集;3)我们进行了广泛的实验,证明了 Falcon 在遥感领域优于以往的 VLM,突出了 Falcon 和 Falcon SFT 的有效性。我们将向社区完全开源完整的数据集、代码和模型权重。
2. 相关工作
2.1 遥感数据集
近年来,开发高质量的遥感数据集受到了越来越多的关注。该领域的先前研究主要集中在两个方面。一些研究 [14, 34, 67, 80] 关注针对单一或少数视觉任务的图像数据集。Long 等人 [43] 提出了 Million-AID,这是一个包含 51 个类别和 100 万个实例的大规模图像数据集,用于遥感场景分类。G. Sumbul 等人 [65] 引入了 BigEarthNet,该数据集包含 590,326 张来自 Sentinel-1 和 Sentinel-2 卫星的图像,具有多种分辨率和图像尺寸。DOTA 系列数据集 [14, 80] 主要来源于 Google Earth、GF-2 卫星和航空图像,极大地推动了目标检测领域的发展。最新版本 [14] 包含 11,268 张图像、18 个类别以及大量带有定向边界框的注释。Jacob Shermeyer 等人 [61] 提出了 RarePlanes 数据集,以提高卫星图像中飞机及其属性检测的性能。GID [69]、UAVid [45]、DLRSD [59] 是常用于 RGB 遥感图像语义分割任务的数据集。 此外,一些研究 [40, 44, 86, 88] 开发了多模态数据集,以支持遥感中的视觉语言模型。Dilxat Muhtar 等人 [51] 开发了 LHRS-Align,其中包括 0.9K 样本用于视觉推理,4K 样本用于详细图像描述,以及 7K 样本用于对话任务。然而,要使用该数据集,用户必须从 Google Earth 图像中下载原始图像。RSICD [44]、Sydney-Captions [54]、UCM-Captions [54]、NWPU-Captions [9] 是专门为遥感图像描述生成任务创建的数据集,分别包含 10921、613、2000、31500 张图像,每张图像都附有不同长度的描述。 尽管取得了上述进展,但现有的遥感数据集在数据规模、任务多样性、分层注释和注释质量方面仍存在限制。该领域仍然缺乏一个大规模、多任务的数据集,用于训练基础视觉语言模型,阻碍了它们的发展。因此,我们在本文中提出了 Falcon SFT,这是一个全面的、大规模的、多任务指令调整的遥感数据集。具体而言,我们汇编了 67 个遥感数据集,涵盖了各种任务,详细信息请参阅补充材料。
2.2 遥感基础模型
最近,围绕开发遥感基础模型的主题出现了相当多的文献。这些预训练的基础模型可以根据架构设计进行分类。第一类包括基于 ViT 的视觉基础模型 [35, 48, 50, 56]。例如,Sun 等人提出了 RingMo [66],这是一个经典的遥感视觉模型,在 4 个下游任务上进行了微调。这些方法缺乏推理能力,也无法通过自然语言指令进行控制。第二类包括基于 CLIP 的视觉语言模型 [37, 75, 96]。例如,Liu 等人提出了 RemoteCLIP [37],这是第一个针对遥感的视觉语言基础模型,对文本嵌入进行对齐以用于下游应用。然而,这些方法无法在不设计额外模块的情况下执行不同任务。第三类包括基于 LLM 的视觉语言模型 [27, 51, 92, 93]。Zhan 等人提出了 SkyEyeGPT [89],专门用于遥感图像理解。Kartik Kuckreja 等人 [27] 引入了 GeoChat,这是一个基于 LLaVA 的多功能遥感视觉语言模型,但它无法执行复杂的像素级任务,如分割或变化检测。同样,LHRS-Bot [51] 也缺乏这种能力。此外,这些方法通常超过 70 亿参数,导致在边缘设备上部署时出现计算瓶颈和低推理效率。更重要的是,我们认为,尽管任务仍然主要集中在视觉输入上,但包含大量参数的 LLM 模块在遥感中可能并不起关键作用。因此,在本文中,我们提出了一个轻量级的视觉语言模型,以高效地处理各种遥感任务的统一范式。
3. 算法
统一格式呈现,我们将每个任务视为一个序列到序列的翻译任务。如图 3 所示,我们将图像、提示和注释视为特殊的语言。例如,区域描述的统一格式指令为:“描述图像中的 <region>。”,其中 <region> 是 <box> <x1> <y1> <x2> <y2> </box>,表示位置标记。位置标记是边界框的坐标。我们将 1000 个箱子添加到标记器的词汇表中,使用针对任务需求量身定制的格式来表示区域。损失函数。我们使用交叉熵损失来优化 Falcon,用于 14 项任务,类似于正常的大语言模型。
4. 数据集
为了使 Falcon 具备强大的图像、区域和像素级理解和推理能力,我们引入了 Falcon SFT,这是第一个针对遥感的大规模、多任务指令调整数据集。它包含 7800 万高质量样本,涵盖 560 万具有多种分辨率和视角的遥感图像。本节详细介绍其创建过程,包括数据收集、预处理和指令生成。
4.1 数据收集和预处理
目前,没有任何现有数据集能够完全满足 Falcon 的训练需求。为解决这一问题,我们设计了一种简单直接的方法,即策划和整合遥感领域的各种开源数据集。我们收集了 90 个针对特定任务的 RGB 图像注释数据集,例如 Million-AID [43]、RSICD [44] 和 DOTA [14, 80],涵盖了几乎所有来自卫星、飞机、无人机等的公开数据集。经过人工筛选后,我们将选择范围缩小到 67 个相关数据集。完整的列表可在补充材料的第 A 节中找到。值得注意的是,我们提供了下载链接和元数据(图像大小、空间分辨率和数量),以帮助减少研究人员的数据收集工作。接下来,我们通过建立统一且一致的注释格式,整合这 67 个收集到的遥感数据集。这种标准化是必要的,因为不同数据集使用不同的注释格式(例如,多边形与掩码图像),这可能会使数据整合变得复杂。此外,为了拓宽应用场景,我们重新利用现有数据结构来生成额外的注释,将支持的任务数量扩展到 14 个。这些任务分为三个类别,即图像级:图像分类、图像 VQA、计数、图像描述和图像详细描述;区域级:区域分类-HBB、区域分类-OBB、区域检测-HBB、区域检测-OBB、视觉定位和区域描述;像素级:像素分类、像素分割和变化检测。这种分类与之前的讨论 [77, 91] 一致。有关更详细的数据收集和预处理程序,请参阅补充材料的第 A 节。
4.2 统一指令生成
接下来,我们将整合的数据集转化为多任务指令调整的视觉语言模型训练数据集。我们采取以下步骤。定义指令模板。为了便于 VLM 理解和执行特定任务,我们根据不同的遥感任务设计了标准化的指令模板。例如,对于目标检测任务,“在图像中检测 <类别>。使用旋转边界框。”。旋转边界框表示为 <quad> <x1> <y1> <x2> <y2> <x3> <y3> <x4> <y4> </quad>,指定四个顶点的坐标,每个坐标以千分之一表示。请参见图 3 查看所有 14 项任务的指令示例。生成图像指令对。为了根据定义的模板为每个图像生成特定的指令,我们首先遍历数据集,并根据其任务类型(例如,检测、分割)为每个图像生成特定的指令。然后,我们将生成的指令与相应的图像和注释组合成一个结构化的对。这使得模型能够使用不同指令提示下的多样化任务响应进行学习。生成多指令池。为了增强语言理解能力并减少对任务特定标记的依赖,我们使用 LLM [2] 为每个任务的指令生成多种变体,这些变体具有不同的复杂性水平。例如,“描述图像。”扩展为“描述图像的内容。”、“分析图像并解释其视觉内容。”和“你能识别图像显示的内容吗?”。这种方法丰富了训练数据中的文本多样性,帮助 VLM 在各种任务中提高性能。请参阅补充材料的第 B 节查看多指令示例。
4.3 Falcon SFT 数据集
按照上述数据处理步骤,我们最终构建了大规模的遥感指令调整数据集 Falcon SFT。我们在表 2 中将 Falcon SFT 与其他用于遥感视觉语言模型的数据集进行了比较。Falcon SFT 数据集具有最多的样本(7800 万)和图像(560 万),支持的任务数量最多(14 个)。它还更全面,涵盖了图像、区域和像素级的空间层次。有关 Falcon SFT 数据集的详细统计数据,请参阅补充材料第 A 节中的表 II。
5. 实验
在本节中,我们将介绍实验设置和结果,以评估 Falcon 的性能,包括:1)对所有 14 项复杂遥感任务的定性和定量性能评估;2)与其他方法相比,Falcon 的零样本性能。结果表明 Falcon 能够处理复杂的视觉语言任务,并突出了其在图像、区域和像素级理解和推理方面的优势。需要注意的是,由于篇幅限制,我们在补充材料中提供了更多实验结果,包括补充材料第 E 节中所有 14 项任务的定性性能评估,补充材料第 F 节中未涵盖在本文中的任务的定量性能评估,补充材料第 G 节中多样化指令的定性性能评估,补充材料第 H 节中图像描述的人类评估,补充材料第 I 节中更多的消融研究,以及补充材料第 J 节中每项任务的评估指标详细信息。实现细节。Falcon 由图像编码器和基于 Transformer 的编码器-解码器组成,总共有 0.7B 参数。详细的架构如图 2 所示。我们使用 [81] 提供的预训练权重初始化模型的参数。与 [81] 不同,我们将输出标记长度增加到 4096,以获得更详细的表示。Falcon 的训练批量大小为 640,学习率设置为 1e−5,图像大小为 448×448。我们使用 160 个 Nvidia A100 GPU 训练模型,耗时 4 天。
5.1 14 项任务的性能评估
图像级任务。在本节中,我们展示了 Falcon 在图像分类任务(参见表 3)、计数任务(参见表 4)和 VQA 任务(参见表 5)上的性能。如表 3 所示,通用 VLM,如 MiniGPTv2 [101] 和 Qwen chat [3] 在遥感数据上表现不佳,因为它们通常缺乏该领域的专业知识。与此同时,与专门针对遥感的 VLM [27, 37, 51] 相比,Falcon 在所有相关数据集上均取得了更好的性能,尽管其参数仅有 0.7B。此外,我们还提供了目标计数的详细性能比较(表 4)。此类任务需要组合感知和推理能力,对最先进的 VLM 构成显著挑战。为此,Falcon 在目标计数方面表现出色,展现了其复杂的推理能力。最后,我们在 VQA 任务中对 Falcon 与其他 VLM 进行了比较,这些模型通常在这些任务中表现出色。如表 5 所示,Falcon 仍然超过了以往的 VLM,尽管其模型参数较少,表明其强大的指令遵循能力。对于图像描述任务,我们对 Falcon 的响应进行了人类评估。具体而言,描述是根据三个维度进行评估的:细节、位置和幻觉,使用四级评分系统(即 A、B、C、D 量化为 4 到 1 分,分数越高表示描述越好)。表 6 中的结果表明,与其他 VLM 相比,Falcon 在所有三个维度上均获得了最高的平均分数。有关详细实验设置,请参阅补充材料第 H 节。区域级任务。除了图像级任务外,我们的 Falcon 还支持细粒度的区域级任务。为此,我们在表 7 中展示了 Falcon 在水平边界框目标检测任务上的性能。值得注意的是,以往的 VLM 在此任务上表现有限,暴露了它们在定位能力方面的局限性。相比之下,Falcon 超越了以往的方法,突出了其处理复杂遥感任务的能力。像素级任务。此外,我们还展示了 Falcon 在像素级任务上的评估结果。据我们所知,Falcon 是第一个在像素级任务(如分割和变化检测)上表现出令人满意的性能的 VLM。图 4 展示了 Falcon 的定性结果。Falcon 成功地根据提示在图像中分割出指定的复杂目标,并识别出两幅相似图像之间的变化。
5.2 零样本评估
最后,我们评估了 Falcon 的零样本能力。我们在表 8 中提供了详细的性能比较,这些评估数据集在训练过程中未使用。与其他 VLM 相比,Falcon 在所有三个级别的任务上均实现了性能提升。对于图像级任务,Falcon 在许多数据集上(如 UCM-Captions 和 MAR20 用于图像描述和图像计数)创造了新的记录。对于区域级任务和像素级任务,Falcon 在许多数据集上表现出色,这些任务需要全面的定位和推理能力。相比之下,这些能力通常在以往的 VLM 中缺失或甚至不被支持。
5.3 消融实验
本节展示了消融实验的结果,以分析数据规模、任务粒度和模型大小对性能的影响,如表 9 所总结。结果表明,随着训练数据规模的增加,性能持续提升——例如,从 10% 的训练样本增加到 50% 的训练样本,最终增加到 100% 的训练样本。此外,随着任务粒度变得更加细致,模型不仅能够有效处理更复杂的任务,还能提升对简单任务的性能。在 0.3B 和 0.7B 参数模型之间的比较表明,更多的参数可以带来更好的泛化性能。更多消融实验可在补充材料第 I 节中找到。
6. 结论
本文开发了 Falcon,这是一个针对遥感的综合性视觉语言基础模型,具有全面的感知和推理能力。为了促进 Falcon 的训练,我们进一步创建了 Falcon SFT 数据集,该数据集包含大约 7800 万高质量数据样本,涵盖 560 万遥感图像。各种定性和定量实验表明,Falcon 在 14 项遥感视觉语言任务和 100 多个测试数据集上展现了卓越的零样本和数据集内性能。我们将发布完整的数据集、代码和模型权重,希望进一步推动这一研究领域的发展。