- 博客(102)
- 收藏
- 关注

原创 Lerobot-SO101-安装/数据收集/训练policy
一个有用的功能是重放功能,它允许你重放任何已录制的回合,或者来自任何数据集的回合。接下来的步骤是训练您的神经网络。通过稳定的抓取表现后,您可以开始在数据采集时引入更多变化,例如额外的抓取位置、不同的抓取技术和改变相机位置。重要的是,这个策略将自动适应你机器人(例如笔记本电脑和手机)的电机状态、动作和相机的数量,这些信息已保存在你的数据集中。这是可选的,但如果你使用它,确保先登录,使用命令。一旦你收集到足够的轨迹数据,你将训练一个神经网络来模仿这些轨迹,并部署训练好的模型,使你的机器人能够自主执行任务。
2025-07-28 15:27:34
1096
原创 14. isaacsim4.2教程-April Tags/给相机加噪声
在传感器中有几种方式来定义增强(augmentation)。增强可以通过不同的方式实现,常见的有:C++ OmniGraph 节点Python OmniGraph 节点omni.warp核心numpy核心接下来,我们用numpy和omni.warp核心来定义一个简单的噪声函数。为了简化,这里没有做颜色值的越界检查。我们使用来定义一个图像增强操作。在这个例子中,我们增强的是图像的输出,将注释器的结果(将 RGBA 转换为 RGB)与噪声增强结合起来。# 获取 RGB 数据的渲染变量名。
2025-08-08 10:13:53
1055
原创 NVIDIA Isaac GR00T N1.5 源码剖析与复现
代码页项目页模型页假设用户已经收集了机器人演示数据集,数据格式为(视频、状态、动作)三元组。用户需要首先将演示数据转换为 LeRobot 兼容的数据格式(更多信息请参见 getting_started/LeRobot_compatible_data_schema.md, 该格式与上游的兼容。我们的代码库提供了针对不同机器人形态的训练配置示例。我们的代码库提供了便捷的脚本,用于在用户数据上微调预训练的 GR00T N1.5 模型,以及运行推理。
2025-08-06 21:16:24
1008
原创 13. isaacsim4.2教程-机械臂关节控制
Omniverse Isaac Sim 中的 Python 环境内置了基于 ROS Noetic 的 ROS 环境,其中包含rospy。这使得大多数核心 ROS 包和消息都可以使用,同时也支持发布和接收自定义消息。学习目标在独立 Python 脚本中发布和接收 ROS 消息。使用包含接触传感器信息的自定义 ROS 消息。在扩展脚本中发布 ROS 消息。在这个示例中,我们将使用来自接触传感器的数据来演示如何发布自定义 ROS 消息。
2025-08-06 09:50:03
951
原创 OpenVLA复现
为什么在看过那么多声称更先进的VLA,效果更好的VLA后,还要翻过头来尝试复现一下OpenVLA,首先因为OpenVLA的工作确实带来了相当大的影响,而且为后面的很多VLA都奠定了一定的基础;其次就是后续的很多VLA都会尝试去对比OpenVLA的效果;最后就是他的复现结果多一点,社区经验较为丰富,方便我这种初学者进行学习,没有太多其他复杂功能,整体思路比较明确。最重要的可能还是学习吧,学习整个一套的流程,包括怎么微调以适应采摘任务,然后尝试使用openvla来应用于自己的特定任务上。
2025-08-02 19:37:21
873
原创 GR-3(4B) 技术报告--2025.7.23--字节跳动 Seed
在本报告中,字节汇报了在构建通用机器人策略方面的最新进展,即开发了 GR-3。GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型,如图1所示。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务(包括需要双手操作和底盘移动的任务)上也展现出稳健且可靠的性能。这些能力源自—种多样的训练方法。
2025-07-31 21:20:19
1079
原创 NVIDIA AI 机器人技术专场—GR00T N1.5实践: 结合光轮智能仿真云平台赋能 LeRobot
建立关节映射,直接关节控制策略,如果没有真实机械臂,需要通过末端解算机械臂关节位姿。提供了脚本将数据转换成lerobot,并通过lerobot的数据查看功能回放数据。能遥操完了之后就可以与lerobot和N1.5结合了,leisaac。lerobot官方不支持isaacsim,这个工作打破了gap。cosmos是一系列模型组合,类似于世界模型?训练24gb,推理8gb,88%以上成功率。GR00T用到了很多cosmos的数据,GR00T-Mimic也是数据增强的。仿真--isaacsim。
2025-07-31 09:58:35
115
原创 12. isaacsim4.2教程-ROS 导航
该服务使用一个自定义的IsaacPosenames:一个字符串数组,包含要传送对象的 prim 路径,必须与场景中的路径完全一致。poses:一个Pose数组,与names一一对应,指定每个对象的目标位置。(可选)velocities和scales可用于同时设置速度和缩放,但在本示例中未用到。
2025-07-25 20:37:41
1018
原创 11. isaacsim4.2教程-Transform 树与Odometry
在本示例中,你将学习如何:使用 TF 发布器将相机作为 TF 树的一部分发布在 TF 上发布机械臂/可动结构(articulation)的树状结构发布里程计(Odometry)消息。
2025-07-25 10:07:34
857
原创 10. isaacsim4.2教程-RTX Lidar 传感器
Isaac Sim的RTX或光线追踪Lidar支持通过JSON配置文件设置固态和旋转Lidar配置。每个RTX传感器必须附加到自己的视口或渲染产品,以确保正确模拟。在运行RTX Lidar仿真时,如果你在Isaac Sim UI中停靠窗口,可能会导致崩溃。请在重新停靠窗口之前暂停仿真。
2025-07-23 10:52:56
1011
原创 9. isaacsim4.2教程-ROS加相机/CLOCK
在本示例中,我们将学习如何:向场景中添加额外的相机并将其安装在机器人上添加相机发布器(Camera Publishers)通过 rostopics 发送真实的合成感知数据(ground truth synthetic perception data)前提条件已完成 ROS 的安装:包括安装 ROS,启用 ROS 扩展,构建提供的 Isaac Sim ROS 工作区,并设置必要的环境变量。
2025-07-18 20:15:14
1191
原创 8. isaacsim4.2教程-ROS驱动Turtlebot
Omniverse Isaac Sim 提供了多种工具来促进与 ROS 系统的集成。我们有 ROS 和 ROS2 桥接器,作为 Omnigraph 节点的形式,还有 URDF 导入器,并且能够连接到 Gazebo/Ignition。本系列教程提供了如何使用这些工具的示例。在本示例中,我们将通过 URDF 导入器将 Turtlebot3 导入到 Isaac Sim 中。如果你已经有一个带有装配好关节和属性的机器人模型(以 USD 格式),并且想要直接使用我们的 ROS 桥接器,可以跳到系列中的下一个教程,通过
2025-07-18 10:01:42
842
原创 7.isaac sim4.2 教程-Core API-数据记录
打开示例代码打开位于的扩展示例代码。可以使用菜单顶部的按钮来查看该代码。首先要关注的是数据记录(logging)功能。data_logger = world.get_data_logger()# 获取世界中默认的 DataLogger 对象# 检查 数据记录器 是否已经启动。如果还没有启动,接下来会定义数据记录的方式并开始记录。# 数据记录函数,它将在每个物理时间步被调用。该函数获取机器人和目标的状态信息return {# 确保每个物理时间步都会调用这个函数来记录数据。
2025-07-16 22:02:56
945
原创 微调以优化VLA的速度和成功率的方法--OpenVLA-OFT--斯坦福--2025.4.28--RSS25--开源
现有沿用基础模型自回归训练方案来微调 VLA 的方法,存在两大瓶颈:推理速度太慢(3–5 Hz),不适合高频控制;在双臂操作时表现不够稳定。动作生成策略(图 2 左):我们对比了自回归生成(逐token顺序预测)和并行解码(一次性生成所有动作并支持高效动作分块)。动作表示(图 2 右):我们对比了“离散动作”(将归一化后的动作分成 256 档,通过 softmax 输出 token 概率)和“连续动作”(由一个 MLP 直接生成实数值动作)。
2025-07-16 10:08:05
1104
原创 V-JEPA 2 世界模型--2025.6.11--开源--Meta AI
构建能够从感官数据(如视频)学习世界模型的AI agent,可使其理解物理世界、预测未来状态,并像人类一样在新场景中高效规划,从而应对此前未遇到的新任务。以往研究通常从包含状态—动作序列的交互数据中开发预测性世界模型,且常常依赖环境的显式奖励反馈来推断目标。然而,现实世界交互数据的稀缺性限制了此类方法的可扩展性。为了解决数据稀缺。
2025-07-15 09:42:19
235
原创 6.isaac sim4.2 教程-Core API-多机器人,多任务
本教程将两种不同类型的机器人集成到同一个仿真中。它详细说明了如何构建程序逻辑以在子任务之间切换。通过本教程,你将获得构建更复杂的机器人交互仿真经验。
2025-07-12 21:49:50
453
原创 5. isaac sim4.2 教程-Core API-操作机械臂
在 Omniverse Isaac Sim 中,Task 类提供了一种模块化的方式,用于管理场景创建、信息检索和指标计算。它适用于构建具有高级逻辑的更复杂场景。在本教程中,你将需要基于 Task 类重构之前的代码。# 自己定义taskfrom omni.isaac.core.tasks import BaseTask # 任务基类# FrankaPlaying 任务子类#NOTE: 这里只有basetask任务类中的一部分,还有更多可以查看原本实现。
2025-07-10 22:15:24
532
原创 AgiBot World--智元机器人+Shanghai AI Lab--2025.3.9--开源
这是一个的,包含和。与以往类似平台相比,AgiBot World 在规模和多样性上无可比拟。部署了 100 台双臂仿人机器人。他们进一步提出了一个(GO‑1),并配备了潜在动作规划器。它在多样化的数据集上进行训练,与以往方法相比,实现了可扩展的 32% 性能提升。
2025-07-10 09:56:05
927
原创 4. isaac sim4.2 教程-Core API-Hello robot
本教程将介绍如何创建并使用自定义控制器来移动移动机器人,随后详细说明如何在Omniverse Isaac Sim中运用各类可用控制器。完成本教程后,您将能更轻松地在Omniverse Isaac Sim中添加与控制机器人。self._wheel_radius = 0.03 # 轮子半径3cmself._wheel_base = 0.1125 # 轴距11.25cmreturndef forward(self, command): # 这个函数是用来接收命令的# 差速驱动模型。
2025-07-08 21:41:26
697
原创 3. isaac sim4.2 教程-Core API-Hello world
核心API教程专为Omniverse Isaac Sim的初学者设计。该系列教程详细讲解了如何通过控制器操控轮式机器人与机械臂,并记录机器人及环境数据。
2025-07-08 09:33:42
1174
原创 Gemini Robotics On-Device--2025.6.24
Gemini Robotics On‑Device 在大量测试场景中展现了优秀的视觉、语义和行为泛化能力,能够遵循自然语言指令,并完成如解拉链袋、折叠衣物等高度灵巧的任务——所有操作均直接在机器人上完成。该图评估了 Gemini Robotics On‑Device 在各类任务上的泛化表现,并与旗舰 Gemini Robotics 模型及以往表现最好的本地运行模型进行了对比。现在,推出 Gemini Robotics On‑Device——我们最强大的 VLA 模型,评估 On‑Device 模型、在。
2025-07-05 19:49:30
666
原创 2.isaacsim4.2 教程-初识OmniGraph
OmniGraph 是 Omniverse 的可视化编程框架。它提供了一个图状结构,将 Omniverse 内多个系统的功能节点串联起来;同时也是一个计算框架,允许你编写高度自定义的节点,将自己的功能无缝集成到 Omniverse 中,并自动利用其高效的计算后端。在 Isaac Sim 中,OmniGraph 是:Replicators(批量场景生成器)ROS / ROS2 桥接传感器访问控制器外部输入/输出设备用户界面等功能的核心引擎本教程将带你入门 OmniGraph 的世界。
2025-07-04 20:42:43
1072
原创 Gemini Robotics--技术报告--2025.3.25--Google DeepMind--Trusted tester
现代人工智能(AI)模型在大规模数据集上预训练后取得了惊人的进展,重新定义了信息处理,展现出在文本、图像、音频和视频等多种模态上的高水平能力和良好泛化性。这为数字领域中各种互动与辅助系统开辟了广阔前景,从多模态聊天机器人到虚拟助手都承载了新希望。然而,要将通用自主 AI 的潜力带入物理世界,就必须从数字环境做出重大转变——物理型 AI agent 需要展现出稳健的人类级“具身推理”能力:即在真实物理世界中必不可少的基础概念和常识。
2025-07-04 09:44:07
998
原创 1.iasscsim4.2 教程-建立你的第一个虚拟世界
现在官方的教程已经不太好用了,他用的是omniverse安装的,但是omniverse现在只有isaacsim4.5了,所以只能采用下载安装包,然后unzip安装,但是omniverse也是需要下载安装的,cache和nucleus仍是需要在其中配置的。因为我是ubuntu20.04,安装了ros1-noetic,启动ros bridge:选了一下这个,点击草莓就不会选到world了。
2025-07-02 20:48:37
1042
原创 Rekep--2024.9.12--斯坦福李飞飞--开源
在此定义一个 ReKep 实例。为清晰起见,假设已有 K 个关键点被指定(后文 2.4 节将讨论如何获得)。具体来说,每个关键点kik_iki都是场景表面上的一个 3D 笛卡尔坐标点,其位置取决于任务语义和环境(例如把手上的抓取点、壶嘴处的点)。ReKep 的一个实例是一个函数fRK×3→RfRK×3→R,它将关键点数组(记作 k)映射到一个 COST,其中fk≤0fk≤0表示约束已满足。
2025-07-02 09:37:37
819
原创 GR00T N1.5 技术报告 -- Nvidia -- 2025.6.11 -- 开源
Isaac-GR00T 在6.11 进行了全面升级,从 N1 进化为 N1.5,但基本还是基于之前的架构,官方发布了一个技术报告,并更新了github库,之前的N1也做了独立版本GR00T N1.5 其实是一种改进的通用人形机器人。这个跨形体模型可以接收多模态输入(比如语言和图像),用来在不同环境中完成操作任务。这是面向人形机器人的 GR00T N1 基础模型的升级版。通过在方面的多项改进,Nvidia 发现 N1.5 在模拟操控基准测试和真实 GR-1 机器人上的表现都超过了 N1。
2025-06-28 19:44:29
1283
原创 1. 使用神经网络进行分类任务
CPU版本:pip install torchpip install torchvision数字分类,数据集就是一堆0-9的图片,是一个10分类任务。最后得到的就是10个概率,这张图片属于每个类别的概率是多少。784(28*28)就是每张图片的像素点有多少个。nn就是神经网络,Mnist_NN这个类的名字随便,后面的继承打死都不能改。接下来是两个非常关键的函数:hidden1 = nn.Linear ,它就是 wx+b 封装好的,指定好输入784个像素点,输出128个特征就行再来一层 hid
2025-06-27 18:49:52
726
原创 π0.5:现实世界泛化VLA-2025.4.22-未开源
pi 就不做过多介绍了,pi0.5因为其未开源也是现在确定好工作方向之后有时间来看的,而且pi本身也有开源的先例,还是值得一看的。π0.5 模型从多种异构数据源中迁移知识,包括其他机器人的数据、高层子任务预测、语音指令以及网络上的数据,以此来提升它在不同环境和物体之间的广泛泛化能力。π0.5 能够控制一台,在训练时未见过的新房屋中,执行时长为的任务。
2025-06-27 09:30:04
986
原创 DexGraspVLA:面向通用灵巧抓取的分层VLA-2025.5.22-北京大学
这篇工作吸引我的点:1200+种未见物体、光照、背景组合上有90%+的成功率。这种对于环境的泛化能力是怎么做到的。而且在我个人领域中也能够参考一下。
2025-06-25 19:40:52
858
原创 深度学习必备算法-4.ViT源码解读
20年以前Transformer广泛应用于NLP,但是有两篇论文的出现,导致Transformer在CV领域也开始绽放光彩。DETR 和 ViT 就是最关键的两个点。
2025-06-25 09:59:42
1033
原创 如何微调和部署OpenVLA在机器人平台上
搞了半天,应该去Agent Studio 中找我想要的,如何启动一个与 VLA 模型相连的 MimicGen 环境(只有mimicgen?能否使用其他VLA?
2025-06-23 10:27:20
1101
原创 深度学习必备算法-3.Transformer
先讲讲RNN,才能更好的与Transformer做对比。上一篇我们讲的是图像,这一篇讲讲文本,文本也是有先后顺序的,当数据呈现明显的先后顺序时,就得考虑用神经网络捕捉上下文的信息。预测时使用最后时刻的输出就行,前面的一些输出都是只考虑他自己和前面时刻的。但是这种结构会出现问题:如果这个时间序列非常长,最后这么多特征,如果一直在学,没有去遗忘,那最后就爆了;而且这是一个串行的结构,现在咱们张口闭口大模型,参数这么多,这种串行的算的太慢了,包被淘汰的,而且层数也加不上,加了层也是串行的,越加越慢。
2025-06-19 22:58:55
704
原创 一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学(挑战篇)
同样,Uni‑NaVid 将第一人称视频帧压缩为 token,以支持 5 Hz 的导航频率,但在高度歧义的指令和更长的导航路径下仍然困难重重,加之对新物体的泛化能力有限,即使是先进的混合视觉-语言定位方案(如 ObjectVLA)也只能对 64 % 的新物体作出正确判断,凸显了开放世界鲁棒性方面的持续差距。它使得像 Eva 这样的机器人能够感知、规划、执行、适应,并与人类安全共存,最终以稳健、可解释且符合人类价值观的方式,革新智能系统与现实环境的交互模式。
2025-06-19 09:39:03
984
原创 模拟器介绍、仿真环境、资源格式转换、任务生成、远程遥操方式--来自RoboVerse
在机器人领域,模拟器扮演着重要角色。它就像机器人的子宫,负责在“出生”到真实世界前对其行为进行训练和测试。因此,模拟器的功能对于机器人应用的成功至关重要。用户根据具体场景对模拟器有不同需求:有的需要进行照片级真实感渲染的任务,有的则需要为高效强化学习设计的大规模并行场景。上述需求都会影响模拟器的选择。为减轻用户熟悉新模拟器的痛苦,我们将ROBOVERSE 平台,并在表 VI 中列出了目前支持的模拟器及其规格。统一接口下切换模拟器,用户无需学习多套 API 或配置。
2025-06-17 21:43:32
1276
原创 RoboVerse--为机器人学习打造的大一统世界--UC Berkeley...--2025.4.26
代码页论文页项目页最近在复现了几个VLA之后,重点转移到如何将现有的VLA部署到自己的任务上,但是每种VLA的仿真环境、所需求的数据集类型、格式等等各不相同,令我十分苦恼,十分想要有一个环境、基准、数据集都能够方便的应用各种现有的,甚至未来的 VLA。
2025-06-17 10:05:02
792
原创 深度学习必备算法-2.卷积神经网络理解
最早就是卷积神经网络把人工智能、深度学习带火了,它是很关键的一个东西。在视觉中有很多应用场景,包括目标检测、位姿估计等等。
2025-06-12 16:58:07
925
原创 一文讲懂VLA的原理、进展、挑战 - 2025.5.7 - 美国康奈尔大学(进展篇)-内含数十种VLA的特点大表
例如,Figure AI 开发的 Helix2 人形机器人,利用全融合 VLA 模型以高频率执行全身操控,实时控制手臂、双手、躯干,甚至细微的手指运动。一点点传感器误差、模型漂移,或是视觉环境的亮度变化,都可能导致策略偏差——可想而知,刀口上的手术机器人可容不得哪怕 0.01% 的出错率。例如,在果实采摘任务中,如图 15 所示,一台配备 VLA 的地面机器人可利用图像中的成熟度特征识别可采摘果实,解析“只采A级果实”等用户设定标准,并通过动作token控制末端执行器执行对应运动序列。
2025-06-12 09:56:36
661
原创 大模型驱动的具身智能: 发展与挑战--综述--中国电信人工智能研究院--2024.8.29
这篇综述是中文的,所以只会提取一些我个人之前不清楚的点。那么我的文章框架也会跟原文略有不同。
2025-06-10 20:17:11
872
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人