实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记

最新推荐文章于 2025-08-05 16:20:04 发布

原创

最新推荐文章于 2025-08-05 16:20:04 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #自动驾驶 #人工智能

实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记

Abstract

视觉-语言模型（VLMs）作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型（LLMs），使其在现实场景和实时应用中难以部署。同时，大多数现有的VLMs缺乏处理多张图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一个名为MiniDrive的全新框架，该框架结合了我们提出的特征工程专家混合（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE-MoE能够有效地将2D特征映射为视觉标记嵌入，然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化，从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能，其中最小版本仅包含83M参数。

代码地址：https://github.com/EMZucas/minidrive

欢迎加入自动驾驶实战群

Introduction

随着大规模预训练技术的发展，视觉-语言模型（VLMs）凭借其强大的视觉推理能力，成为各领域视觉问答任务的主要选择。同样，在自动驾驶领域，基于VLMs的问答推理有望成为驾驶员与车辆互动的新方法。这种自然语言的问答方式增强了自动驾驶的可解释性。VLMs将自动驾驶过程中的感知、预测和决策统一整合到一个模型中，成为解决自动驾驶各类子任务的端到端通用模型。

VLMs主要由两个核心模块组成：视觉编码器和用于文本生成的大型语言模型（LLM）。这意味着部署VLMs需要高昂的计算成本和硬件资源。在自动驾驶系统中，如何开发消耗资源更少、计算成本更低且响应速度更快的VLMs，成为实际部署中的关键考虑。然而，目前在自动驾驶领域的多模态大模型研究主要集中在具有超过十亿参数的模型上，其中的视觉编码器依赖于基于Transformer架构的预训练模型，这些模型消耗大量的计算资源和硬件成本，且响应时间较长，使得其难以在实际应用中部署。

为了解决这些挑战，本文提出了一种名为MiniDrive的新型视觉-语言模型。与传统主流的基于Transformer架构的视觉-语言模型不同，MiniDrive并非统一模型。我们采用了基于大卷积核的高效骨干网络模型作为视觉编码器。我们提出了特征工程专家混合（FE-MoE）和动态指令适配器（DI-Adapter），以便在将视觉特征输入到语言模型之前依次处理并获取视觉标记。具体来说，UniRepLKNet捕捉图像的二维特征，FE-MoE处理多个二维特征，将它们映射为文本标记，再输入到语言模型中，无需进行逐阶段的跨模态精细对齐训练。

DI-Adapter引入了动态调整机制，使映射的视觉标记能够根据用户的文本指令动态变化，进而有效增强文本和图像之间的跨模态理解。如图1(a)所示，MiniDrive处理多个输入图像和用户指令，生成自然语言的回答。它涵盖了自动驾驶中最关键的能力，包括感知、规划和预测问答能力。在图1(b)中，我们展示了MiniDrive是一种轻量级的视觉-语言模型，具有极小的参数规模、内存占用和FLOP数。它可以在一台24GB内存的RTX 4090 GPU上完成多个实例的完全训练。例如，MiniDrive224仅有83M参数，FLOP数仅为5.9B，远低于当前用于自动驾驶的视觉-语言模型。在响应性能方面，MiniDrive在问答能力上超越了以往的一系列模型，尤其是在质量上超过了拥有十亿参数的模型。此外，MiniDrive支持单图像和多图像输入。在图1©中，MiniDrive在单图像评估系统CODA-LM（Li et al., 2024）上表现优于开源的7B参数及以上的模型，接近闭源商业模型的表现。