(1)Abstract
近年来,随着对扩展大语言模型(LLMs)多模态能力的兴趣不断增加,例如视觉语言(VL)学习,它被视为人工通用智能的下一个里程碑。**然而,现有的解决方案代价高昂,不仅需要优化过多的参数,还需要在进行VL指令微调之前进行大规模的预训练。本文提出了一种新颖且经济实惠的解决方案,用于有效地适应LLMs的视觉语言任务,称为“模态混合适配(MMA)”。**与其使用大型神经网络连接图像编码器和LLM,MMA采用轻量级模块(如Adapter)来弥合LLM与VL任务之间的差距,同时还可以实现图像模型和语言模型的联合优化。同时,MMA还配备了路由算法,**帮助LLMs在单模态和多模态指令之间自动切换,而不影响其自然语言理解能力。为了验证MMA,我们将其应用于最近提出的LLM——LLaMA,并将这个经过改造的大型视觉语言指令模型命名为LaVIN。**为了验证MMA和LaVIN的效果,我们在两个设置下进行了广泛的实验,即多模态科学问答和多模态对话。实验结果不仅展示了LaVIN在性能和训练效率方面优于现有多模态LLM的竞争力,还确认了其作为通用聊天机器人的巨大潜力。更重要的是,LaVIN的实际支出非常低廉,例如,仅需1.4小时的训练时间,且可调参数仅为380万,大大验证了MMA的有效性。我们的项目已经发布在 https://luogen1996.github.io/lavin。
(2)Introduction
①LLM的下一个里程碑通常被认为是将这些LLMs扩展为具有多模态能力,例如视觉语言(VL)学习,从而使LLMs可以应用于更多的实际应用场景。这一目标最近已经通过GPT-4得以实现,GPT-4采用了大规模的视觉语言语料库来直接训练一个多模态的GPT。
然而,GPT-4的训练方法代价高昂,近期的研究工作仍在致力于提高LLMs的VL适应效率。现有的LLM多模态解决方案大致分为两类:专家系统和模块化训练方法。
①专家系统解决方案中,LLMs通常作为管理器来解释不同的自然语言指令,然后调用相应的视觉模型处理输入的图像,例如图像描述、视觉问答或文本到图像的生成。该解决方案的优点是无需重新训练LLM,并且可以充分利用现有的视觉模型。然而,LLM与各种视觉模型的组合仍然在计算和参数方面存在显著冗余,导致过大的内存占用。与此同时,LLM和视觉模型的联合优化仍然是一个障碍
②LLM的模块化训练。这种范式通常要求LLM部署额外的“neck”分支来连接视觉编码器,然后对大量的图像文本对进行预训练,实现跨模态对齐。之后,通过VL指令对“neck”分支和LLM进行联合微调。尽管这种方法有效,但所需的VL预训练仍然非常昂贵。
PS:(1)Neck: 在多模态学习和训练中,“neck”通常指的是一个中间层或连接部分,用于将不同的模态(如文本和图像)融合或对齐。在模块化训练中,LLM可能需要连接视觉编码器和语言模型,而“neck”就是负责实现这种连接的组件。具体来说,它是一个额外的分支,用于接收来自视觉模型的特征(例如图像的嵌入表示),并将这些特征与LLM的输入结合,通常会进行预训练和微调,以实现跨模态的对齐。
(2)VL指的是“视觉-语言”(Vision-Language),即结合视觉信息(如图像或视频)和语言信息(如文本)的任务或模型。 以下是一个VL指令的例子:
③本文提出了一种新颖且高效的视觉语言指令微调解决方案——模态混合适配(MMA)。与现有的模块化训练方案不同,MMA是一种端到端的优化方案。通过使用轻量级适配器连接图像编码器和LLM,MMA可以通过少量的参数联合优化整个多模态LLM,相比现有方案,节省了数千倍的存储开销。为了快速切换文本指令和图像文本指令,MMA为插入的适配器配备了路由机制,可以动态选择适应不同模态输入的合适路径,从而很好地保持LLM的NLP能力。
PS:①指令微调是一种通过对自然语言指令进行训练,使得大语言模型能够理解并执行各种任务的方法。这种方法提高了模型的多任务处理能力和泛化能力,广泛应用于各种自然语言处理任务。例子如下:
②方法(b)中的VL对齐的意思是:在多模态模型中,如何将视觉信息(如图像或视频)和语言信息(如文本)进行有效地融合和对齐,以便它们能够共同作用、互相补充,从而实现更准确的理解和生成,然后再根据VL指令进行微调:
(3)Method
1 混合模态适配(MMA)
在本文中,我们提出了一种用于大语言模型(LLMs)视觉-语言适应的全新学习机制,称为混合模态适配(Mixture-of-Modality Adaptation, MMA)。,MMA包含两种新的设计,分别是混合模态适配器(MM-Adapter)和混合模态训练(MMT)。具体来说,MM-Adapter通过轻量级适配器扩展LLMs的多模态能力,同时实现单模态和多模态指令之间的自动切换。随后,通过MMT,整个多模态LLM被联合优化,训练时间和存储成本都非常低廉
混合模态适配器(MM-Adapter)
MMA的具体如下图所示:
混合模态训练(MMT)
因此MMT有以下的优势:
大型视觉-语言指令模型
(4)实验结果