
Diffusion Policy系列:umi与dexcap
文章平均质量分 95
Diffusion Policy系列:umi与dexcap
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(原创 2024-12-29 00:20:05 · 12140 阅读 · 2 评论 -
Fast-UMI——改进斯坦福UMI的硬件:用RealSense T265替代SLAM且实现机械臂的迁移与平替(含归类好的全部硬件清单)
24年9.28日下午,微信上的好友丁研究员和我说我当时(周六)和家人在李自健美术馆,故回复之:帅气,我晚上到家后看下我个人确实准备 这几天仔细研究下,毕竟我们之前也在基于umi/dexcap做二次开发,有很多契合点我深知这种感觉,因为当我司做出一个大模型应用或机器人解决方案,哪怕只是一篇博客时,都渴望和同行做各种深入交流而且正如技术合伙人姚博士所说,“fastumi数据采集方式的改进强,因为我们当时也考虑过t265,但确实是人手不足”原创 2024-10-01 15:32:54 · 7303 阅读 · 8 评论 -
Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)
所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。原创 2024-11-09 21:53:57 · 19132 阅读 · 6 评论 -
UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用视觉SLAM和Diffusion Policy预测动作
如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并对最小化能量景观的动作进行优化(c)扩散策略通过学习的梯度场将噪声细化为动作。这种表述提供了稳定的训练,允许学习到的策略准确地建模为多模态动作分布,并容纳高维动作序列进一步,所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法扩散策略学习动作-分布评分函数的梯度即该策略不是直接输出一个动作,而是以视觉观察为条件,对K次去噪迭代推断“动作-得分梯度”(原创 2024-01-10 23:59:28 · 22219 阅读 · 24 评论 -
dexcap升级版之DexWild——面向户外环境的灵巧手交互策略:人类和机器人演示协同训练(人类直接带上动捕手套采集数据)
因为具身订单需求源源不断,所以长远来看,我们也有源源不断的经费,支撑我们无止境的科研探索故,最终凡是值得探索的,我们都会考虑,且我们也不想做谁谁谁,或某某中国版,而是——只做世界唯一综上,一方面因为叠衣服这个任务,二方面,因为无止境的科研探索,故关注到了本文所要介绍的DexWild原创 2025-06-06 22:14:38 · 4655 阅读 · 0 评论 -
斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段
它可以捕捉颜色图像、深度图像、姿态数据以及手部关节数据,并将这些数据保存到指定的目录中首先,导入库"""示例用法"""import argparse # 用于解析命令行参数import copy # 用于复制对象import numpy as np # 用于数值计算import open3d as o3d # 用于3D数据处理import os # 用于操作系统相关功能。原创 2024-11-10 00:10:38 · 5259 阅读 · 0 评论 -
DexCap——斯坦福李飞飞团队泡茶机器人:带灵巧手和动作捕捉的数据收集系统(基于点云的扩散策略)
2023年7月,我司组建大模型项目开发团队,从一开始的论文审稿,演变成目前的两大产品线论文方面,除了论文审稿之外,目前正在逐一开发论文翻译、论文对话、论文idea提炼、论文修订/润色/语法纠错、论文检索机器人方面,我们1月份开始攻机器人、Q1组建队伍、5月份成功复现UMI和DexCap后,本月(即6月)总算要开始为工厂赋能了(目前已经谈好三个工厂的合作意向)原创 2024-06-03 12:28:31 · 12007 阅读 · 0 评论 -
斯坦福UMI代码解析:刷盘机器人Universal Manipulation Interface代码的整体解读
本文一开始是属于此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用Diffusion Policy预测动作》的第四部分,但为了把原理部分和代码解析更好的解耦,故把代码解析抽取出来了,独立成本文本解读基本来自我司大模型项目组的远根同学,之前之所以分享其中的部分出来,当时是想招纳可以针对UMI共同做二次开发的朋友。原创 2025-02-02 21:32:39 · 5065 阅读 · 0 评论