- 博客(486)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注

原创 2024年自动驾驶规划控制面试及答案
A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。
2024-07-22 18:43:12
1492
原创 不止惊艳WAIC!盘点5年「多智能体」发展之路,7大关键技术“改写”具身智能协作规则
北京人形机器人创新中心首次公开展示的工业级「多智能体协同系统」,凭借四台机器人在分布式 “慧思开物” 平台支撑下,实现了异步任务分发、动态调度与自然语言沟通的高效协同,成功覆盖电控柜操作、质检、封装全流程,据悉任务成功率超 90%。为解决集中式控制面临的瓶颈,分布式控制策略应用而生——独立控制多智能体系统中的每个智能体,使其更适用于大规模多智能体系统。分组时,各智能体共享起始与局部目标位置及局部地图,通过ECBS的高效多智能体路径查找(EMAPF)。
2025-08-06 14:29:19
412
原创 告别海量数据依赖!EgoVLA新范式:机器人「偷师」人类第一视角,实现精准灵巧操作
最终,他们用很少的机器人演示微调模型,就训练出了效果强大的策略模型 EgoVLA,并在一个新设计的仿真平台上验证了它的表现——比传统方法更聪明、更像人。在模型设计上,作者引入了一个统一的动作空间,对齐了人类手部和机器人手部的表示方式,从而实现了人类到机器人之间的迁移能力。在推理阶段,EgoVLA 输出的人类手腕和手部姿态,会被映射成机器人的控制指令。如果能够充分利用这类人类数据,不仅能极大扩展训练数据的数量,更重要的是拓展任务和场景的多样性,尤其是在传统机器人或遥操作难以适应的环境中。
2025-08-05 17:49:36
337
原创 硬核焦点 | 半年,拿下7大顶会“大满贯”!盘点清华大学TEALab最新成绩单
清华大学具身智能实验室(Tsinghua Embodied AI Lab,简称 TEA Lab)隶属于清华大学交叉信息研究院,由在加州大学伯克利分校(BAIR)获得博士学位、曾在斯坦福视觉与学习实验室(SVL)从事博士后研究的许华哲教授创立并担任负责人。TEA Lab 专注于等前沿方向,目标是让机器人真正看懂世界、主动探索,并完成复杂多变的任务。,清华大学 TEA 实验室已经在具身智能的多个核心话题上发表了15篇硬核论文(具体数量以TEAlab实验室网站上的为准)。
2025-08-05 11:44:26
374
原创 65万数据训练!端到端 VLA 模型:真实任务成功率暴增46.7%,性能超越GPT-4o
但这种方式往往忽视了具身推理的复杂性。近年来,大模型在计算机视觉和自然语言处理领域取得了显著进展,受此启发,越来越多的视觉-语言-动作(Vision-Language-Action, VLA)模型开始以大规模预训练的视觉-语言模型(VLM)为基础,在大规模具身交互数据上进行训练,从而提升在机器人操作任务中的泛化能力。,通过可训练的专家混合(MoE)框架统一语言与动作生成,并在通用多模态数据集、操作数据与 VLA-IT 数据集上联合训练,实现语言推理与动作生成的自动切换,从而充分激发 VLM 的多模态能力。
2025-08-04 18:25:15
692
原创 GR-3:字节跳动推出40亿参数通用机器人大模型,精确操作提升250%,开启具身智能新纪元!
导语2025年7月23日,字节跳动Seed团队发布GR-3(Generalist Robot-3),这是一个拥有40亿参数的大规模视觉-语言-动作(VLA)模型。如图1所示,该模型通过创新的多源数据融合训练策略,在机器人操作任务中实现了前所未有的泛化能力,特别是在精细操作任务中,成功率提升高达250%。这一突破为通用机器人的实际部署提供了可行的技术路径。▲图1。GR-3能够从三种类型的数据中学习:视觉-语言数据、机器人轨迹数据和人类轨迹数据。
2025-08-03 16:02:22
1542
原创 OCC任务新SOTA!华科提出SDGOCC:语义深度双引导的3D占用预测框架(CVPR 2025)
本文提出了一种多模态三维语义占用预测框架SDGOCC,旨在通过融合BEV视角的 LiDAR信息,实现更高的准确率和具有竞争力的推理速度。本文提出的方法在Occ3D-nuScenes数据集上实现了实时处理的最高性能,并在更具挑战性的SurroundOcc-nuScenes数据集上取得了相当的性能,证明了其有效性。在此背景下,3D语义占用预测任务提供了一种更加全面的环境建模方式,并且同时估计场景体素的几何结构和语义类别,为每个3D体素分配标签,并提供更完整的感知,对任意形状和动态遮挡表现出更强的鲁棒性。
2025-08-01 19:46:11
836
原创 轨迹精度暴涨 35%!MIT 开源新框架:实现机器人在极端视角下的鲁棒全局定位(RSS 2025)
本文提出了 ROMAN(Robust Object Map Alignment Anywhere),这是一种新颖的全局定位框架,能够在具有挑战性的室内、城市以及非结构化自然场景中,通过配准开放集的对象地图来实现稳健定位。由所提出的方法找到的关联分段通过直线连接,并投影到图像平面上。为了提升不同视角下对象几何关系的一致性,ROMAN 特别引入了基于 IMU 或 LiDAR 自身推导的重力方向估计,将所有对象地图在生成时即对齐到重力向量,从而显著减少因滚转(roll)或俯仰(pitch)角变化带来的几何偏差。
2025-07-31 19:06:26
1179
原创 【同济大学】双速率自动驾驶架构LeAD:端到端+LLM,CARLA实测93%路线完成率,性能SOTA!
在复杂场景下的实验结果证明了LeAD的卓越性能,其表现超越了许多强大的基准模型,最高驾驶得分达到71.96,路线完成率达到93.43%,证明了其强大的规划能力和出色的场景通过性。在CARLA模拟器中进行的实验评估证明了LeAD对非常规场景的卓越处理能力,在Leaderboard V1基准测试中获得了71分,路线完成率达到 93%。该算法包括两个平行的结构,分别是高频的端到端系统,以及低频的LLM系统,二者通过异步耦合机制集成。为了评估集成的基于LLM的冗余决策模块的贡献,本文进行了相关消融实验,结果如图。
2025-07-30 18:07:22
957
原创 ICCV 2025 Highlight|降低190倍内存,渲染质量不减反增!MEGA刷新4DGS性能极限
综合上述方法,作者在 Technicolor 和 Neural 3D Video 两个数据集上分别实现了 约190倍和125倍的存储压缩率,同时保持了与原始4DGS方法相当的渲染速度与场景重建质量,成为该领域中的新一代轻量化标准。该方法通过将颜色属性拆解为每个高斯点的直流分量(DC)与一个共享的、轻量级的交流颜色预测器(AC),显著压缩了每个高斯点所需的参数量,同时不影响渲染性能。为了进一步减少 4D 高斯之间的冗余,作者引入了熵约束的高斯变形机制,有效扩展了每个高斯的作用范围,从而提高了其利用率。
2025-07-29 18:11:40
1008
原创 卡内基梅隆大学提出Human2LocoMan:基于人类预训练的四足机器人「多功能操作学习框架」
实验表明(图8),相比HPT模型在人类数据预训练后的改进幅度有限,MXT通过预训练显著提升了在LocoMan任务上的性能泛化性。- MXT零基础版:仅采用LocoMan数据训练MXT - HPT预训练版:主干网络基于人类数据预训练后,使用LocoMan数据微调 -HPT零基础版:仅采用LocoMan数据训练HPT网络 - HPT基础版:使用官方HPT基础权重初始化主干网络,结合LocoMan数据微调 - HPT精简版:使用官方HPT精简权重初始化主干网络,结合LocoMan数据微调。
2025-07-28 17:41:40
773
原创 T-RO顶刊|单视角“找相似”,大阪大学提出新型点云描述符(C-FPFH),杂乱场景一抓一个准!
此外,方法还集成了大语言模型(LLM)辅助语义匹配,提出了 SOBB 结构用于精确的尺寸匹配,并构建了基于平面检测的点云配准方法(PDM registration)用于模仿式抓取规划,同时引入了双阶段微调策略以优化最终抓取质量。实验方面,作者使用一个不足100个物体模型的小型数据库,在丰富的新颖物体抓取任务上(包括独立物体和杂乱场景)进行评估,显著优于当前主流方法,在准确率、效率与泛化能力上均取得突破。一项近期研究首次引入了“语义+几何”的打分机制,从相似的已知物体中迁移抓取知识来辅助未知物体抓取。
2025-07-24 18:08:36
858
原创 浙大Fast Lab:融合3D激光雷达与强化学习的「端到端导航」,让无人机“飞”在点云上!
本文所提出的方法,创新性地将高分辨率激光雷达的点云数据转化为任务适配的轻量化感知表示,既保留了对狭窄空域和纤细障碍物的精细感知能力,又通过强化学习直接映射至低延迟的底层控制指令,让无人机仿佛 “飞” 在点云之上 —— 无需复杂的中间处理模块,便能在50Hz的控制频率下,凭借对已知与未知区域的动态感知,在室内电线、室外树林等复杂场景中实现平滑避障与安全穿越。该研究的核心在于构建一个从仿真到现实的强化学习框架,其能够将机载3D激光雷达的原始感知数据直接、端到端地映射为无人机的底层控制指令。(b)室内场景II。
2025-07-23 17:44:35
1037
原创 IROS 2025|高精地图抗干扰新突破!新框架RoboMap在13类传感器损坏下稳居SOTA!
本文的目标是设计一个鲁棒的多模态高精地图构建框架,它集成了数据增强、新的多模态融合模块和有效的训练策略,以显著提高多模态融合方法的鲁棒性,如图。为了评估模型的鲁棒性,本文引入了适应性得分(RS)和相对适应性得分(RRS),它们评估了模型在数据损坏或者传感器噪声下的性能,确保了在现实世界场景中的可靠性。:本文提出了三个关键组成部分:数据增强、新的多模态融合模块和模态丢弃训练策略,在不牺牲精度的情况下,显著提高了多模态融合方法的鲁棒性;:对于干净的数据,本文采用与先前的高精地图研究一致的指标。
2025-07-21 17:32:22
1007
原创 大模型赋能USV集群路径规划!上海交大团队提出APPT方法,路径长度缩短14.55%
为解决此类问题,基于大语言模型的COT思想,本文提出基于现有的路径规划算法库(如 RRT, APF 方法等)及其对应 API 接口,构建功能完备的工具函数提示体系,通过补充算法功能的语义描述与调用规则,帮助大模型理解算法功能,创建任务目标的功能库。实验时将基于大模型的智能体部署于无人艇地面站,使用的 GPU 为 NVIDIA GeForce RTX 4070,显存容量为 12GB,智能体使用的大模型为 Qwen2.5,模型参数为 14B, 智能体使用局部 XY 坐标系,单位为米,地图大小为 30m*30。
2025-07-21 12:06:32
619
原创 8万条!清华团队开源VLA数据集:面向自动驾驶极端场景,多模态CoT标注+闭环安全提升35%
为探究第二个核心问题——即Impromptu VLA数据集具体提升自动驾驶哪些能力维度(感知/预测/规划),以及验证集作为诊断基准的效能——利用其规划导向的问答任务展开诊断评估套件:通过面向特定任务场景的对比方法,评测基础视觉-语言模型(VLM)与基于本数据集调优版本的性能差异。将描述文本精炼为有效的非结构化挑战类别:首先通过编程化识别滤除常规驾驶场景,执行基于视觉-语言模型(VLM)的二次分类——利用精心设计的提示词指令,使Qwen2.5-VL作为场景分类器评估原始描述是否属于非常规案例。
2025-07-21 12:05:42
938
原创 全球首个!阿里巴巴联手浙大推出SAM4D:摄像头+激光雷达统一分割模型(ICCV 25)
给定长度为T的图像序列,每隔K帧选择关键帧。运动感知跨模态记忆注意力是本文方法的核心组件,通过整合跨模态特征和记忆中的先前帧特征来优化特征表示,确保跨模态和时序对齐。在提示编码器和掩码解码器方面,提示编码器支持来自图像和激光雷达输入的不同输入提示,以定义目标的空间范围和位置。在可提示跨模态帧分割方面,通过选择两种模态中都存在的目标并在单一模态中提供提示,然后测量单帧内两种模态的分割交并比来评估。如表1所示,在图像或激光雷达中提供提示使另一个模态能够实现有希望的分割结果,展示了SAM4D中跨模态提示的能力。
2025-07-16 18:05:04
731
原创 理想最新工作World4Drive:意图感知世界模型实现闭环端到端新SOTA(ICCV 25)
大量实验证明World4Drive在开环nuScenes和闭环NavSim数据集上实现了SOTA的性能,表明World4Drive对物理世界的深刻而全面的理解,以及将驾驶意图与潜在世界模型紧密耦合的有效性。同时,本文也使用了一个分类网络来预测K个模态的得分。本文为了提取具有对三维物理世界整体理解的世界潜在表征,分别设计了用于整合空间和语义先验信息的上下文编码器以及增强时间上下文信息的时间聚合模块。随后,本文引入了一个世界模型选择模块用于评估在K个不同意图下的轨迹,并且选择其中最合理的轨迹结果,如图3所示。
2025-07-14 14:13:07
1112
原创 机器人也会写代码了?CodeDiffuser:用VLM生成指令,精准化解语言歧义(RSS 2025)
在所给场景中,这条指令可通过多种动作来执行:机器人可以从三个可选的电池中任选其一,并将其放入托盘中的六个潜在插槽之一,最终产生共十八种可能的执行方案。在实验中,作者发现现有的扩散策略(diffusion policies)在涉及语言模糊性的复杂任务中,即便使用大量数据,也仅能收敛到远低于实际可用水平的成功率。系统不仅能在简单指令(如“把最右边的电池放到左列的插槽”)下正确高亮目标电池和插槽,还能在更复杂甚至带自我修正的指令(如“把红杯挂在最上面的树枝,哦不,是绿杯”)中依然准确生成对应 3D 注意力。
2025-07-13 17:48:04
1044
原创 RSS 2025|击败Transformer!斯坦福新作:生成模型赋能自动驾驶预测,推理速度提升3倍!
此外,与常用的基于离散表示的 Transformer 方法相比,该方法在推理速度上显著更快,性能也更优。他们的方法甚至超越了现有在语义占据预测领域采用定制 Transformer 的最新工作,这表明相比常见的离散 codebook Transformer,本文提出的基于连续潜在空间的方案在推理开销与精度间取得了更优平衡。由于其良好的通用性以及与无标签数据天然适配的特性,作者认为,基于 L-OGM 的预测方法与 RGB 视频预测类似,具备成为自动驾驶自监督预训练目标,即“自动驾驶基础模型”的潜力。
2025-07-13 17:47:36
547
原创 RSS 2025|误差降低41%!ETH 开源「感知式动力学模型」,实现崎岖地形零样本导航
本文的框架扩展了基于采样的规划器方法的能力,通过减少繁琐的参数调优需求,提供了一种灵活的非任务特定规划方案,使其能够在无需额外学习步骤的情况下实现对新环境的零样本适应。在复杂崎岖的环境里让机器人安全前行,并不是件容易的事。基于物理的一阶原理推导并通过系统辨识标定的传统物理模型,往往难以精确捕捉这种复杂的系统动力学,尤其在接触丰富的场景中更容易出现非线性问题,同时对感知精度也提出更高要求。在规划中,利用 MPPI 的零样本能力,可以无需额外训练,仅通过调整奖励中的位置项与风险项的权重,适应新环境。
2025-07-09 17:45:30
776
原创 IROS 2025|RL vs MPC性能对比:加州理工无人机实测,谁在「变形控制」中更胜一筹?
在智能化机器人技术领域,兼具空中飞行与地面行驶能力的多模态机器人成为研究热点,而四旋翼无人机从空中到地面的形态转换因涉及复杂气动交互和执行器饱和控制难题,一直是技术瓶颈。该研究成果创新性地对比了基于模型预测控制(MPC)与端到端强化学习(RL)的两种控制策略,前者无需依赖执行器动态细节即可直接应用于硬件,后者通过仿真训练实现了 65° 大倾角的稳定着陆,二者在扰动恢复和故障容错等场景中展现出不同优势,为解决四旋翼形态转换控制难题提供了极具价值的技术路径参考。会根据机器人当前的高度和身体倾斜角度在线调整。
2025-07-07 17:58:58
1176
原创 当人形机器人听懂自然语言:LangWBC如何实现从指令到动作的端到端控制
这里的CVAE就像一个“双语翻译器”,将文本指令(如“挥手”)和动作数据(如关节角度序列)编码为统一的“思维代码”,再解码为具体动作。”,LLM分解为“快速走到朋友面前”和“挥手致意”两个子指令,机器人能按顺序执行,展现出处理复杂社交场景的潜力。:人类语言千变万化,机器人需要既能执行“快走”“慢跑”等相似指令,又能在受到干扰(如被推搡)时保持动作连贯。在演示视频中,机器人能从“向前行走”无缝过渡到“快速奔跑”,再到“挥手停止”,整个过程流畅自然,甚至在被外力踢踹时仍能维持动作稳定性。
2025-07-06 20:22:35
818
原创 RSS2025获奖论文!机器人实现sim2real的最佳学习工厂
作者展示了如何在不同的 GPU 拓扑结构上,结合 JAX 与 PyTorch 等强化学习库进行大规模策略训练,并在从状态输入到像素输入的多种机器人运动与灵巧操作任务上,演示了 sim-to-real 的实际部署效果。更重要的是,这不是只在论文里跑通的代码,作者用它在真实机器人上也演示了 sim-to-real 的直接迁移,几乎零调整就能用。,值的注意的是,本文提供了非常丰富的Appendix信息,包含了许多补充的实验,在这里小编只为大家提取最主要的实验结果和结论,如果大家感兴趣的话可以去阅读原文详细了解。
2025-07-06 20:22:19
954
原创 CVPR 2025|自动驾驶界的“神笔马良”:动动嘴、画个图,Talk2Traffic为你创造复杂路况
导读目前,自动驾驶仿真方法不仅可以降低自动驾驶汽车在实际场景中测试所带来的高昂成本,还能够提供各种具有挑战性的场景进行测试,以确保自动驾驶安全性。本文针对现有自动驾驶仿真方法不够直观且无法与人类交互的局限性,提出了Talk2Traffic,以支持用户的多模态输入来生成各种交通场景。部署自动驾驶汽车(AVs)需要在各种具有挑战性的场景中进行测试,以确保安全性和可靠性,但是采集现实世界数据仍然成本高昂。
2025-07-02 18:40:00
721
原创 RSS 2025|十亿级「灵巧手」数据集Dex1B:抓取成功率 92.6%!
本文作者提出了一种全新的生成式数据构建框架,结合优化和生成模型,推出了目前最大规模的灵巧操作数据集 Dex1B,包含十亿条高质量演示,涵盖抓取(grasping)和关节操控(articulation)两大核心任务。为便于研究社区使用这类大规模数据,作者还设计了一个简单但表现强大的基线模型 DexSimple,结构轻量,易于扩展,且能显著从大规模数据中获益。的大规模灵巧操作数据生成框架,其核心是一种迭代式的数据生成机制,结合优化方法与生成模型,实现了超大规模高质量操作轨迹的自动化构建。
2025-06-30 17:54:12
813
原创 又一篇Science子刊 !浙大高飞团队提出分层规划系统:仅0.01秒生成山地最优航迹!
而后端创新的双层多项式轨迹优化,则从根本上解决了微分平坦模型中困扰已久的奇点问题,确保了轨迹在各种复杂机动下的数值稳定性和高阶运动学可行性,显著提升了机器人轨迹的质量和可执行性。这一分层、稳定且高效的规划框架,不仅在模拟和真实世界的迷宫、固定翼导航等大规模实验中得到了验证 ,更为未来自动驾驶和自主机器人技术在真实、非结构化环境中的广泛部署铺平了道路,预示着机器人将能更智能、更安全地融入我们的生活。相比之下,本方法始终表现出良好的数值稳定性,确保了平滑的速度曲线,并能稳定收敛到动态可行的解决方案。
2025-06-25 19:06:51
1927
原创 86%成功率!斯坦福DexUMI:以人手为通用操作界面,实现灵巧操作
在两种不同型号的灵巧机械手硬件平台上通过全面的真实世界实验,展示了 DexUMI 的能力,取得了平均 86% 的任务成功率。研究观察到,在舀取盐粒的任务中,触觉反馈显著提升了操作性能。研究人员提出的解决方案是:将外骨骼设计参数化,并将佩戴舒适性要求转化为对设计参数的约束,继而通过优化求解达到在保障运动学关系的前提下实现佩戴舒适性的目的。此外,该外骨骼还通过针对每款目标机械手专门设计了硬件优化框架:在确保人手可穿戴性的前提下,通过精调外骨骼参数(如构件长度),使其能精确匹配机械手指的运动轨迹。
2025-06-24 17:56:22
588
原创 强强联手!斯坦福、英伟达联合提出DexMachina,用“虚拟对象控制器”让机器人从单次演示中学会复杂操作
对比了混合动作、绝对动作和残差动作的效果,显示采用腕部约束的混合动作在任务奖励与辅助奖励联合优化下性能最优,例如在 Schunk 手部机器人上,混合动作 + 辅助奖励组合在 Box-200 任务中成功率达 70.8%,较绝对动作提升约 35%,验证了动作空间设计的必要性。尽管有了辅助奖励,但在长时程、复杂接触的任务中,策略仍容易因早期失败而无法学习。这个从易到难的自动课程,让策略能够在一个受保护的环境下探索,然后平滑地过渡到解决完整的、无辅助的复杂操作任务,从而极大地提升了学习的成功率和效率。
2025-06-23 18:42:24
1150
原创 上交&卡尔动力联合提出FastDrive!结构化标签实现自动驾驶端到端大模型更快更强
此外,本文还提出了FastDrive,一个用于端到端的自动驾驶模型,在NuScenes-S数据集上取得了具有竞争力的性能,推理速度更快,参数更少。引入一个结构化的数据集,该数据集关注与驾驶决策密切相关的关键要素,从而消除冗余信息,解决自由格式文本注释中同义表达的局限性,并提高推理效率。图6展示了不同算法模型在感知、预测以及决策任务上的性能对比,实验结果可以看出,FastDrive在预测和决策规划任务上实现了最佳的性能。本文中的LLM在FastDrive算法模型中起到大脑的角色,并且选用的是Qwen2.5。
2025-06-23 18:42:04
949
原创 无需任何定位传感器?VLFly让无人机只靠单目视觉稳健飞行,成功率达83%!
模块化方法试图融合两者优势,通过将传统导航流程中的关键模块替换为可学习的网络结构,以实现更好的可解释性与泛化能力,但仍依赖大量真实数据,且容易出现模块误差积累,缺乏人类式的推理能力。此外,真实环境下的室内外飞行测试也表明,该方法在面对直接或间接指令时,均展现出良好的开放词汇理解能力和泛化导航能力,验证了其实用性。相较之下,传统强化学习方法(如PPO和NPE-DRL)虽然在训练环境中表现良好,但在陌生场景中普遍表现较差,反映出它们对环境变化的适应性较弱。虽然在目标识别方面尚可,但在未见环境中的表现大幅下降。
2025-06-23 18:41:52
1768
原创 纯视觉SOTA!华科&小米推出ReCogDrive:结合VLM和强化学习的端到端自动驾驶框架
给定自车状态例如,自车速度和自车加速度)、传感器输入和导航信息,自动驾驶任务旨在预测未来几秒内平滑且无碰撞的轨迹。传统的端到端驾驶算法表述为:其中,为未来路径点和航向的序列。尽管一些方法已经展现出很强的有效性,但是其黑盒性质阻碍了模型的可解释性,并且它们往往无法泛化到现实世界驾驶场景中罕见的极端情况。最新的工作利用了视觉语言模型的丰富世界知识和强大因果推理能力来实现自动驾驶。VLMs以文本形式输出轨迹,并且生成显式推理过程:然而,观察到语言格式的轨迹空间和连续行为。
2025-06-20 18:02:51
999
原创 举一反“万” | 2篇开创性工作解读:模仿学习,如何让机器人“操作”突破空间泛化瓶颈!
从效果上看,与 Diffusion Policy和 pi0 相比,我们观察到 GR00T N1 有更高的性能提升,我们假设,为 IDM 动作设置单独的动作参数和解码器参数有助于解决神经轨迹以 0 为状态的问题。它们共同揭示了未来机器人自主学习的可能路径——不再依靠繁重的真实数据采集,而是借助智能合成与模拟,让机器人在“虚拟演练”中预习与掌握多样化任务,为下一个时代的机器人学习范式奠定了坚实基础。因此,有效的视觉运动策略想要泛化到足够大的工作空间,必须依赖密集的演示分布。
2025-06-17 08:45:00
701
原创 具身智能路线之争:All in 模仿强化学习 vs 死磕传统控制?从业者到底该「信」谁?
因此构建更加丰富和主动的感知系统,是具身智能实现过程中非常重要的一环,也是第一环。相比构建超大模型、堆参数、调奖励函数,身处“大模型+端到端学习”的热潮之下,更重要的是谁在解决真实问题、谁在把机器人真正落地到工厂、医院、仓库!从更强的三维感知,到低成本触觉采集,再到强化学习的自我修正机制,以及跨模态世界模型的构建——这条路线清晰、难度极高,但确实代表了具身智能通向“自我理解”的方向。因此,具身智能的关键不在于继续堆数据、涨参数,而在于让智能体拥有身体,能主动去感知、行动并反馈,形成一个闭环的自我校正系统。
2025-06-16 17:48:45
647
原创 CVPR 2025最佳论文详解|VGGT:纯前馈Transformer架构,3D几何感知「大一统」模型来了!
论文出处:CVPR2025论文标题:论文作者:项目地址:编译:阿豹导读在3D视觉领域,不同任务之间往往被模型架构所隔离——估相机、做深度、建点云,各用各的网络,协同效率低下。而这篇来自Meta AI的研究打破了传统界限,提出了一个统一的几何感知框架 VGGT(View Generalizable Geometry Transformer),可以从任意数量的视图中直接推理出相机参数、点云、深度图、三维轨迹等全部关键3D属性。
2025-06-16 17:42:41
787
原创 OpenDriveLab用“非专家”自动驾驶数据训练世界模型,高保真可控模拟,性能提升55.3%!
在实验中,该策略选择机制带来了高达 55.3% 的性能提升。此外,为支持以奖励驱动的任务评估,该研究还设计了 Video2Reward 模块,能够将 ReSim 生成的视频序列转化为真实场景中的奖励信号,从而完成从模拟到评估的闭环路径。现有大多数驾驶世界模型主要依赖真实专家驾驶数据或网页视频(如 NAVSIM 和 OpenDV 数据集),但这类数据存在显著偏差——以人类安全驾驶为主,缺乏碰撞、偏航等“非专家行为”的真实记录,导致模型在遇到未见行为时表现不稳定,难以判断策略好坏、提供可靠奖励。
2025-06-16 00:14:13
959
原创 仅用一台Vision Pro就能控制机器人?MoE&闭环纠错,实现机器人长时域精准遥操作
14个使用IMU基础的Xsens MoCap系统捕获的专业级序列;
2025-06-13 16:55:44
649
原创 盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?
OpenVLA 基于 LLaMA 2 的 7B 参数语言模型,融合 SigLIP 与 DINOv2 提供的视觉特征,使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练,任务涵盖物体摆放、器具清理、多物体分类等,机器人可根据语言指令快速适配多种身体形态(如 WidowX、Franka 等)。首次实现了网页知识到机器人动作的转移。从早期的任务特化导航器与操作器,到如今能够理解语言、解析图像并生成复杂动作的通用智能体,VLA 模型正在悄然改变我们对“机器人”的认知。
2025-06-12 17:55:26
993
1
原创 交互提速30倍!苏黎世联邦理工提出E-APhI新框架,让无人机敢碰硬、会柔抓
近日,《Science Robotics》期刊上发表了一篇由苏黎世联邦理工学院的Emanuele Aucone和Stefano Mintchev撰写的焦点论文,该研究突破性地提出具身空中物理交互(E-APhI)框架,为飞行机器人从单纯感知观察向主动物理交互的进化指明了方向。这场由具身智能引领的技术变革,本质是对机器人 “智能” 的重新定义 —— 当 “身体” 成为感知与决策的核心载体,飞行机器人正以 “物理智商” 的跃升,跨越从实验室到真实世界的鸿沟,向着 “像生物一样与环境共舞” 的终极目标坚实迈进。
2025-06-11 18:38:52
854
原创 五家顶尖机构联合发布 | 可穿戴外骨骼 + 视觉合成:机器人Ctrl C人类的精细操作
DexUMI在Inspire Hand和XHand这两种机器人手上进行了四项任务(立方体抓取、鸡蛋托盘开合、茶叶采摘、厨房操作),其结果表明:相对手指轨迹比绝对轨迹更具抗干扰性,触觉反馈在力信号清晰的任务中有效,DexUMI数据采集效率是传统遥操作的3.2倍。,使得外骨骼的指尖可以完美地与机器人手的指尖在外骨骼腕部相机的图像中对齐,方便完成软件部分用机械手指替换外骨骼手指,得到示教数据。每个手指的关节处都集成了编码器,并都和DexUMI电路板连接,用于获取电机数值,从而实现关节动作的解算;
2025-06-11 17:00:46
911
俞刚-物体检测的过去、现在和未来.pdf
2020-09-07
矩阵指数与对数运算的实现
2014-10-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人