EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks
在当前的研究中,EmbodiedVSR(Embodied Visual Spatial Reasoning)框架被提出,以解决多模态大语言模型(MLLMs)在空间推理任务中的局限性。尽管这些模型在理解视觉场景和语言指令方面取得了显著进展,但在动态环境下的复杂空间推理任务中仍面临挑战。EmbodiedVSR通过动态场景图生成和链式思维(CoT)推理,增强了具身智能体的空间理解能力。该框架通过构建结构化知识表示,使得机器人能够在没有任务特定微调的情况下进行零-shot空间推理。此外,为了评估该框架的性能,研究团队开发了eSpatial-Benchmark,这是一个包含真实世界场景和细致空间注释的综合数据集,旨在推动多模态大模型在具身智能场景中的应用。