智能车贾维斯诞生Hint-AD:使用人类语言的整体一致的可解释性端到端自动驾驶
Abstract
自动驾驶 (AD) 中的端到端架构面临着解释性问题,阻碍了人类对AI的信任。人性化的自然语言已被用于驾驶解释和三维场景描述等任务。然而,之前的工作主要集中在声明性可解释性的范式上,自然语言解释并未基于AD系统的中间输出,这使得解释仅仅是声明性的。相比之下,对齐式可解释性则在语言和AD系统的中间输出之间建立了联系。本文提出了Hint-AD,这是一种整合了AD和语言系统的架构,它生成的语言与AD模型的整体感知-预测-规划输出相一致。通过结合中间输出和有效特征适配的整体token混合子网络,Hint-AD在驾驶语言任务(如驾驶解释、三维密集描述和命令预测)中实现了令人满意的准确性,达到了最新的结果。为了促进在nuScenes上的驾驶解释任务研究,我们还引入了一个人工标注的数据集Nu-X。
代码及数据获取:https://air-discover.github.io/Hint-AD/
欢迎加入自动驾驶实战群
Introduction
端到端的感知-规划架构在自动驾驶(AD)和通用具身智能领域中至关重要,因为它具有使用大量数据进行自监督训练的潜力。然而,这些系统面临着重大的可解释性挑战。具身智能问题(如AD)中的可解释性问题尤为明显。当AD系统直接输出控制信号时,人类乘客很难信任这些决策。为了解决这一问题,自然语言作为一种高度用户友好的沟通媒介,被用于通过驾驶解释、三维密集描述和视觉问答(VQA)等任务来增强可解释性。虽然人类司机能够通过鸟瞰视角(BEV)轨迹来解释“发生了什么”,但语言为“为什么会这样”提供了补充的视角。
现有的研究忽略了语言解码器与AD流水线中的感知-预测-规划输出之间的对应关系,导致语言任务与AD任务之间出现差异。通过AD流水线的中间输出提高驾驶场景下语言任务的准确性这一潜力尚未得到充分挖掘。为此,我们提出了Hint-AD,这是一种与AD模型的感知-预测-规划过程进行整体对齐的框架,旨在提高语言生成的准确性并促进自动驾驶的可解释性。
我们开发了两种方法来实现语言与AD模型的整体对齐和语言输出的准确性:(a) 我们开发了一种整体token混合模块,适配AD模型的中间输出token,为语言解码器提供输入,专注于稳健的特征提取和融合;(b) 我们引入了一项对齐任务作为在线数据集,使语言解码器在训练过程中解释AD模型推理过程中的中间token。
我们将Hint-AD实现于使用栅格化和矢量化表示的两个最新AD模型(UniAD和VAD)上,以展示其通用性。实验结果表明,Hint-AD在各种语言任务(如驾驶解释、三维密集描述、视觉问答和驾驶命令预测)中实现了最新的性能。此外,我们还贡献了一个人工标注的驾驶解释数据集Nu-X,以弥补在广泛使用的nuScenes AD数据集上缺乏驾驶解释数据的不足。
3.Method
为了探索端到端AD框架中自然语言与中间结果的整体对齐,我们提出了一种名为Hint-AD的新框架,该框架包括三个模块:整体token混合器、语言解码器和传统的AD框架。Hint-AD的概述如图2所示。图2中的现有AD流水线可以是任何将AD分解为感知、预测和规划的端到端AD系统。在不损失通用性的前提下,我们在UniAD和VAD之上实现了我们的方法。
3.1 Hint-AD的整体框架
首先,我们从现有的AD模型的感知-预测-规划架构中提取中间查询token,得到track token、motion token和planning token。其次,整体token混合器模块将这些token适配为语言解码器的输入,其中我们设计了一个实例混合器,用于融合每个检测到的实例的实例级轨迹和运动信息。我们还引入了BEV块和实例块,用于进一步特征提取并将可变长度的实例token转换为固定长度。所有处理后的token被连接为文本生成的上下文token。
3.2 整体Token混合器
从AD流水线中提取的查询token无法直接被语言解码器理解。为了解决这个问题,我们提出了一个整体token混合器架构。Hint-UniAD和Hint-VAD的具体实现略有不同。我们主要遵循Hint-UniAD的设计。
首先,我们为从AD流水线中提取的查询token提供符号表示。对于一个典型的感知-预测-规划AD流水线,可以提取以下组件:BEV token