【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元
27【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音
28【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元
29【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番
30【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章
31【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper
32【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型
33【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型
34【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破
35【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
36【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
37【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
39【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
41【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型
42【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南
43【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界
44【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破
45【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
46【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践
47【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型
48【AI大模型前沿】OmniAudio:阿里通义实验室的空间音频生成模型,开启沉浸式体验新时代
49【AI大模型前沿】MiniCPM 4.0:面壁智能开源的极致高效端侧大模型(小版本、低消耗、220倍极致提速)
50【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型


前言

随着人工智能技术的飞速发展,机器人技术逐渐从实验室走向实际应用。然而,传统的机器人系统往往依赖于复杂的编程和高昂的硬件成本,限制了其广泛应用。近年来,基于视觉-语言模型(VLM)的机器人技术成为研究热点。Hugging Face开源的SmolVLA项目,以其轻量级、高效的特点,为机器人技术的普及和应用提供了新的可能性。

一、项目概述

SmolVLA是由Hugging Face开源的一个轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计该模型拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。SmolVLA基于开源数据集训练,数据集标签为“lerobot”,并引入了异步推理堆栈,显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色,适用于多种机器人应用场景,如物体抓取与放置、家务劳动、货物搬运等。
在这里插入图片描述

二、技术原理

(一)视觉-语言模型(VLM)

SmolVLA使用SmolVLM2作为其VLM主干,包含一个SigLIP视觉编码器和一个SmolLM2语言解码器。视觉编码器通过像素洗牌操作限制每帧图像的视觉Token数量为64个,大大减少了处理成本。同时,SmolVLA跳过VLM中的一半层进行计算,将计算成本减半,同时保持了良好的性能。

(二)动作专家

动作专家是一个轻量级的Transformer模块,包含约1亿参数。它基于VLM的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

(三)异步推理

SmolVLA引入了异步推理策略,将动作执行与感知和预测分离。在这种策略下,机器人可以一边执行当前动作,一边处理新的观察并预测下一组动作,消除了推理延迟,提高了控制频率。

三、主要功能

(一)多模态输入处理

SmolVLA能够处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。

(二)动作序列生成

模型包含一个动作专家模块,能够基于视觉-语言模型(VLM)的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

(三)高效推理与异步执行

SmolVLA引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。

四、应用场景

(一)物体抓取与放置

SmolVLA可以控制机械臂完成复杂的抓取和放置任务。例如,在工业生产线上,机器人需要根据视觉输入和语言指令,准确地抓取零件并将其放置到指定位置。

(二)家务劳动

SmolVLA可以应用于家庭服务机器人,帮助完成各种家务劳动。例如,机器人可以根据自然语言指令,识别并清理房间中的杂物,或者将物品放置到指定位置。

(三)货物搬运

在物流仓库中,SmolVLA可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状,结合语言指令,生成最优的搬运路径和动作序列,提高货物搬运的效率和准确性。

五、快速使用

(一)环境安装

在开始使用SmolVLA之前,需要安装LeRobot库以及相关的依赖项。可以通过以下命令安装:

pip install -e ".[smolvla]"

(二)模型微调

可以使用预训练的SmolVLA模型进行微调,以适应特定的任务。以下是一个微调的示例命令:

python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so101_pickplace \
  --batch_size=64 \
  --steps=20000 \
  --output_dir=outputs/train/my_smolvla \
  --job_name=my_smolvla_training \
  --policy.device=cuda \
  --wandb.enable=true

(三)模型部署

SmolVLA支持在消费级GPU甚至CPU上部署,可以在MacBook等设备上运行。部署时,可以使用LeRobot框架提供的工具进行快速部署。

六、结语

SmolVLA作为Hugging Face开源的轻量级视觉-语言-行动模型,以其高效、轻量的特点,为机器人技术的普及和应用提供了新的思路。通过多模态输入处理、高效推理和异步执行等特性,SmolVLA在多种机器人应用场景中表现出色。未来,随着技术的进一步发展,SmolVLA有望在更多领域发挥重要作用。

七、项目地址

  • Hugging Face模型库:https://huggingface.co/lerobot/smolvla_base
  • arXiv技术论文:https://arxiv.org/pdf/2506.01844

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寻道AI小兵

🐳 感谢你的巨浪支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值