- 博客(534)
- 资源 (50)
- 收藏
- 关注

原创 【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航
StreamVLN是一个基于多轮对话的连续视频导航系统,通过整合语言指令、视觉观测和空间位姿信息生成导航动作序列(前进、左转、右转、停止)。本文详细介绍了StreamVLN的复现流程,包括: 环境配置:创建Conda环境,安装Habitat仿真环境及依赖库 数据准备:需下载Matterport3D场景数据、VLN-CE导航片段和预收集轨迹数据 模型权重:提供仿真环境和真实世界部署两种权重 评估推理:支持多GPU和单GPU两种评估模式,可输出导航成功率、SPL等指标 训练方法:使用分布式多节点训练 系统在真实
2025-07-24 19:52:09
773

原创 【机器人】REGNav 具身导航 | 跨房间引导 | 图像目标导航 AAAI 2025
摘要:REGNav提出了一种两阶段跨房间导航框架,通过离线预训练房间专家(无监督学习房间风格特征)和在线融合导航策略,模仿人类“先识别区域再定位细节”的认知方式。该方法利用单目RGB输入,通过风格编码器提取房间布局特征,结合视觉细节优化路径规划,在Gibson和Matterport3D数据集上显著提升导航成功率(SR)和路径效率(SPL)。实验表明,其分层决策机制有效解决跨房间视觉关联难题,泛化性优于传统方法。(149字)
2025-07-15 19:19:47
972

原创 【机器人】Aether 多任务世界模型 | 4D动态重建 | 视频预测 | 视觉规划
Aether是ICCV2025提出的创新世界模型,通过整合几何重建与生成建模,构建了具备类人空间推理能力的统一框架。其核心突破在于将传统独立的三大任务——4D动态重建(时空场景还原)、动作条件视频预测(未来视图生成)和目标条件视觉规划(状态路径推导)融合到单一扩散模型中。该框架采用多模态隐变量交互机制,通过动态掩码处理和两阶段相机参数优化实现精准4D重建,并基于DiT架构进行视频预测与路径规划。实验表明,Aether能有效模拟人类空间认知逻辑,在机器人导航等
2025-07-09 21:17:01
1295

原创 【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图
HOV-SG 是通过语言指令实现机器人导航的,核心特点是分层结构、开放词汇、3D场景图。可以为大规模、多层次的环境构建精确的、开放词汇的 3D 场景图,并使机器人能够通过语言指令在其中有效地导航。
2025-06-30 21:03:33
1211
8

原创 【机器人】ForesightNav | 高效探索 动态场景 CVPR2025
ForesightNav是一种基于场景想象的探索策略,用于机器人在未知环境中高效导航。从 “反应式探索” 到 “预见式规划”,基于局部几何语义地图,推理出全局场景,填补“未探索区域”。
2025-06-18 00:20:21
1678

原创 【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统
一种创新的双地图框架,实现动态场景下的开放词汇自然语言导航。动态更新闭环,未找到目标时自动更新抽象地图并重新规划。
2025-06-17 00:57:14
909

原创 【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation
本文汇总了的论文,供大家参考学习,涵盖2025、2024、2023等覆盖的会议和期刊:CVPR、IROS、ICRA、RSS、arXiv等等论文和方法会持续更新的~
2025-05-30 18:53:11
2131
1

原创 【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动
文章摘要 Embodied-Reasoner是一个多模态具身模型,扩展了深度推理能力至具身交互任务,支持AI2THOR仿真环境中的复杂操作(如物体搜索、搬运)。其核心能力包括:深度推理(分析/空间推理/规划)、多模态处理(图像-文本序列)及环境交互(自主探索)。复现流程涵盖环境配置(Conda+AI2Thor)、模型部署(通义千问权重)、任务合成(JSON模板生成)及轨迹生成(单/多步骤任务),并通过脚本实现评估。相关资源及代码
2025-05-25 12:07:00
1779
4

原创 【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中
WMNav 是由VLM视觉语言模型驱动的,基于世界模型的对象目标导航框架。本文分享WMNav复现和模型推理的过程~
2025-05-17 18:15:00
1766
2

原创 【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示
SG-Nav是一种创新的零样本物体导航框架,利用三维场景图表示观察到的场景,并通过分层的思路链提示帮助大型语言模型(LLM)推理目标位置。本文详细介绍了SG-Nav的复现和模型推理过程,包括环境配置、依赖库安装、预训练模型权重下载以及数据集准备。具体步骤包括创建Conda环境、安装habitat模拟器、pytorch、pytorch3d、segment_anything、GroundingDINO、GLIP和Ollama,并配置LLM。
2025-05-14 20:16:23
1340
2

原创 【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025
本文介绍了如何复现和运行UniGoal,一个通用的零样本目标导航框架,能够处理对象类别导航、实例图像目标导航和文本目标导航。整个过程详细说明了环境搭建、依赖安装和模型推理的步骤
2025-05-12 22:16:15
1931
6

原创 【机器人】复现 ECoT 具身思维链推理
文章介绍了如何在VLA(视觉-语言-动作)模型的基础上训练一个视觉-语言-动作模型,该模型能够在选择机器人动作之前,根据指令和图像生成思考决策的推理步骤,从而提高性能、可解释性和泛化能力。文章提供了具体的实施步骤,包括创建Conda环境、安装依赖库、下载模型权重和运行推理。此外,文章还提供了一个可视化推理演示脚本,展示了如何通过输入指令和图像数据,生成任务目标、子任务拆分、子任务推理和控制指令,并将结果可视化保存。这个框架的目的是通过具身链式思维推理(ECoT)来增强机器人控制的智能性和可解释性。
2025-05-12 00:55:39
1252
1

原创 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025
UniGoal的提出了一个通用的零样本目标导航框架,能够统一处理多种类型的导航任务(如对象类别导航、实例图像目标导航和文本目标导航),而无需针对特定任务进行训练或微调。
2025-04-23 23:25:35
1185

原创 NVIDIA Jetson 环境安装指导 PyTorch | Conda | cudnn | docker
本文适用于Jetson Nano、TX1/TX2、Xavier 和 Orin系列的设备,供大家参考。
2025-04-07 23:09:42
2333
2

原创 【机器人】复现 GraspNet 端到端抓取点估计 | PyTorch2.3 | CUDA12.1
GraspNet是的大规模基准的基线模型,值得学习和复现。本文分享使用较新版本的PyTorch和CUDA,来搭建开发环境。
2025-03-30 11:28:12
1687
2

原创 【机器人】复现 GrainGrasp 精细指导的灵巧手抓取
GrainGrasp为每个手指提供细粒度的接触指导,为灵巧手生成精细的抓取策略。通过单独调整每个手指的接触来实现更稳定的抓取,从而提供了更接近人类能力的抓取指导。
2025-03-24 19:56:03
1369
4

原创 【机器人】论文分析 ASGrasp 通用透明物体重建、6-DoF抓取预测
在机器人抓取领域,透明和镜面物体的抓取一直是个难题。物体是透明的,光线会直接穿过,深度相机就很难准确测量出杯子的实际位置和形状,很难准确地感知这类物体的深度信息。ASGrasp核心是两层学习型立体网络,能够同时恢复透明和镜面物体的可见部分和不可见部分的深度信息。然后融合两层深度信息,进行重建物体,得到点云信息作为GSNet(GraspNess)的输入,进而预测出抓取位姿。
2025-03-23 16:21:19
1336

原创 【机器人】复现 ASGrasp 通用透明物体重建、6-DoF抓取预测
在机器人抓取领域,透明和镜面物体的抓取一直是个难题。ASGrasp核心是,能够同时的和的。然后融合两层深度信息,进行重建物体,得到点云信息作为GSNet(GraspNess)的输入,进而预测出抓取位姿。与传统方法不同,ASGrasp不依赖深度相机生成的深度图,而是直接从主动立体相机获取的和入手。
2025-03-15 17:01:15
1341
1

原创 【机器人】MODEST 透明物体 单目深度估计和分割 ICRA 2025
MODEST是一种用于透明物体的单目深度估计和分割的方法,来自ICRA 2025。它通过单张RGB图像作为输入,能够同时预测透明物体的深度图和分割掩码。由深度图生成点云数据,然后采用GraspNet生成抓取位姿,开展透明物体抓取实验。
2025-03-10 22:37:51
1464
5

原创 【机器人】复现 MODEST 机器人抓取透明物体 单目 ICRA 2025
MODEST 单目透明物体抓取算法,来自ICRA 2025,本文分享它的复现过程。输入单个视角的RGB图像,模型需要同时处理深度和分割任务,输出透明物体的分割结果和场景深度预测。将算法迁移到真实机器人平台,开展了透明物体抓取实验。实验平台主要由UR机械臂和深度相机组成。在借助MODEST方法对透明物体进行分割和深度预测,生成点云数据作为输入,进而采用GraspNet生成抓取位姿。
2025-03-09 18:47:31
1754
13

原创 机器人学习模拟框架 robosuite 支持强化学习和模仿学习 (1) 快速入门
RoboSuite 是一款基于MuJoCo物理引擎构建的机器人学习模拟框架。人形机器人、自定义机器人组合,还包含复合控制器(像全身控制器等)、更多遥控设备选项,以及能够呈现出照片级逼真效果的渲染功能。
2025-02-23 00:24:34
2045
4

原创 DeepSeek-R1 本地电脑部署 Linux系统 【轻松简易】
本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。这里借助Ollama工具,在Windows系统中进行大模型部署~ 本文的成功部署了DeepSeek-R1的1.5b、8b、14b、32b等版本
2025-02-09 07:10:59
3495

原创 DeepSeek-R1 本地电脑部署 Windows系统 【轻松简易】
本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。借助Ollama工具,在Windows系统中进行大模型部署~
2025-02-06 22:58:14
7019
9

原创 【机器人】SceneGrasp 同时支持3D物体重建、6D位姿估计、抓取点估计
本文分享SceneGrasp,它来自IROS2023,同时支持物体分类、3D物体重建、6D位姿估计、抓取点估计。它是一种快速、高效且同时处理多个任务的方法,能够使机器人更好地理解和操作其环境。同时处理多个任务,实现任务之间共享信息,而且速度达到30 FPS。
2025-01-13 18:35:43
2304
3

原创 【机器人】01 强化学习、模仿学习和运动规划 仿真平台ISAAC Lab安装与使用
ISAAC Lab是 NVIDIA 提供的一个 GPU 加速的开源框架,专为简化机器人研究工作流程而设计,特别是在和等领域。它基于 NVIDIA 的 ISAAC Sim 构建,结合了高精度的物理和传感器,成为了从仿真到现实应用的理想选择。本文会分享ISAAC Lab的安装和使用,通过和进行安装的,适用于windows系统,带大家规避一些坑。
2024-12-03 01:11:19
5428
5

原创 YOLO11 图像缩放 | 图像填充 | 自适应不同尺寸的图片
本文分享YOLO中的图像缩放、填充,实现任意图像训练和推理的基础,是图像预处理中的工作。本文的代码和示例,适合YOLO11、YOLOv8和YOLOv5等版本。
2024-10-26 15:11:01
7283
1

原创 一篇文章快速认识YOLO11 | 旋转目标检测 | 原理分析 | 模型训练 | 模型推理
本文分享YOLO11的旋转目标检测任务,在原始目标检测中,添加多一个角度预测,实现定向边界框检测。包括1、旋转目标检测概述;2、YOLO11中的OBB数据格式;3、分析模型配置参数;4、分析检测头代码;5、编写模型训练;6、开始训练;7、模型推理
2024-10-24 19:30:12
12484
23

原创 YOLO11 目标检测 | 自动标注 | 预标注 | 标签格式转换 | 手动校正标签
本文分享使用YOLO11进行目标检测时,实现模型推理预标注、自动标注、标签格式转换、以及使用Labelme手动校正标签等功能。
2024-10-20 11:36:56
7833
1

原创 YOLO11 目标检测 | 导出ONNX模型 | ONNX模型推理
本文分享YOLO11中,从xxx.pt权重文件转为.onnx文件,然后使用.onnx文件,进行任务的。用,便于算法到开发板或芯片的部署。备注:本文是使用Python,编写ONNX模型推理代码的。
2024-10-17 19:20:37
17240
16

原创 YOLO11 实例分割 | 导出ONNX模型 | ONNX模型推理
本文分享YOLO11中,从xxx.pt权重文件转为.onnx文件,然后使用.onnx文件,进行实例分割任务的模型推理。用ONNX模型推理,便于算法到开发板或芯片的部署。备注:本文是使用Python,编写ONNX模型推理代码的。
2024-10-15 18:37:52
8544
8

原创 YOLO11 实例分割 | 自动标注 | 预标注 | 标签格式转换 | 手动校正标签
本文分享使用YOLO11进行实例分割时,实现模型推理预标注、自动标注、标签格式转换、以及使用Labelme手动校正标签等功能。
2024-10-14 19:11:18
9168
6

原创 一篇文章快速认识 YOLO11 | 实例分割 | 模型训练 | 自定义数据集
本文分享YOLO11的实例分割,通过自定义数据集、数据标注、标签格式转换、模型训练、模型推理和验证。目录1、数据标注2、Labelme的json转为YOLO的txt3、配置YOLO11代码工程4、数据集yaml配置文件5、YOLO11模型结构配置文件6、编写训练代码7、开始训练模型8、YOLO11模型训练——代码浅析。
2024-10-12 20:27:42
15519
11

原创 YOLO11模型训练 | 目标检测与跟踪 | 实例分割 | 关键点姿态估计
本文分享YOLO11的模型推理,检测任务包括物体分类、目标检测与跟踪、实例分割 、关键点姿态估计、旋转目标检测等。安装方式支持:默认的使用pip进行安装;也支持直接调用YOLO11源码,灵活便捷修改源码。本文支持自定义数据集,并提供详细训练参数的train.py版本,方便大家训练测试。
2024-10-11 06:00:00
9674
3

原创 YOLO11模型推理 | 目标检测与跟踪 | 实例分割 | 关键点估计 | OBB旋转目标检测
本文分享YOLO11的模型推理,检测任务包括物体分类、目标检测与跟踪、实例分割 、关键点估计、旋转目标检测等。
2024-10-09 21:50:43
11182
3

原创 一篇文章快速认识YOLO11 | 关键改进点 | 安装使用 | 模型训练和推理
本文分享YOLO11的关键改进点、性能对比、安装使用、模型训练和推理等内容。YOLO11 是 Ultralytics 最新的实时目标检测器,凭借更高的精度、速度和效率重新定义了可能性。除了传统的目标检测外,YOLO11 还支持目标跟踪、实例分割、关键点姿态估计、OBB定向物体检测(旋转目标检测)等视觉任务。1. YOLOv3:核心改进:YOLOv3 是 YOLO 系列的第三代,由 Joseph Redmon 于 2018 年发布,标志着 YOLO 从原始的单尺度检测进化到多尺度检测。
2024-10-08 23:26:27
32888
9

原创 CVPR2024 合成异常数据 工业异常检测 RealNet
本文分享一个基于扩散模型的异常检测框架,用于检测工业场景的缺陷检测或异常检测。强度可控扩散异常合成:基于扩散过程的合成策略,能够生成不同强度的异常样本,模仿真实异常样本的分布。异常感知特征选择:选择代表性和判别性的预训练特征子集,以提高异常检测性能并控制计算成本。重建残差选择:自适应选择判别性残差,用于全面识别各级异常区域。强度可控扩散异常合成,简称为SDAS,生成的异常图像,如下图所示。这些异常图像,都是基于正常图像生成的。
2024-05-31 23:08:56
7259
1

原创 3D工业视觉
本文主要介绍3D视觉技术、工业领域的应用、市场格局等。3D视觉技术满足工业领域更高精度、更高速度、更柔性化的需求,扩大工业自动化的场景。移动机器人视觉引导是一个前景的场景,主要技术包括结构光、ToF、立体视觉。从深度学习到通用视觉大模型,AI助力机器视觉提升效率,拓展应用场景。
2024-05-23 20:51:03
4242
3

原创 【6D位姿估计】SAM-6D 当分割一切遇到位姿估计 CVPR2024
本文介绍6D位姿估计的方法SAM-6D,来自CVPR 2024的论文。它是一个用于零样本6D位姿估计的框架,在测试新物体时,无需进行微调,直接进行检测。通过结合实例分割模型和姿态估计模型,实现对新物体的6D姿态估计。
2024-05-17 19:09:37
6026
7

原创 【6D位姿估计】FoundationPose 支持6D位姿估计和跟踪 CVPR 2024
本文介绍6D位姿估计的方法FoundationPose,是CVPR 2024的满分论文,支持6D位姿估计和跟踪。通过大规模的合成数据训练,具有强大的泛化能力,在测试新物体时,无需进行微调。支持输入一些物体的RGBD图片,模型进行3D物体构建;生成多个假设的姿态,进行评分和排序得到最精准的姿态。
2024-05-09 00:16:09
18118
7

原创 【多模态融合】MetaBEV 解决传感器故障 3D检测、BEV分割任务
本文介绍多模态融合中,如何解决传感器故障问题;基于激光雷达和相机,融合为BEV特征,实现3D检测和BEV分割,提高系统容错性和稳定性。会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。
2024-04-06 19:42:09
3081
CC2530 (zigbee) 中文数据手册完全版
2018-10-05
Win32DiskImager-0.9.5-install 树莓派和电脑传输文件
2019-02-25
全国大学生电子设计竞赛 培训资料
2018-10-21
bazel-0.27.1-installer-linux-x86_64.sh
2019-07-10
CVPR 2022 Tutorial Denoising Diffusion-based Generative Model
2023-11-11
整理近年来《人工智能》的标准和评估规范
2020-11-19
宝马:深度学习在自动驾驶中的应用及部署过程.pdf
2020-04-05
decawave_trek1000_arm2.10_pc3.6.zip
2019-07-22
apollo_demo_2.0.bag数据包
2020-01-13
ZigBee各类传感器模块-例程及使用手册说明.zip
2019-07-19
apollo__demo_1.5.bag数据包
2020-01-13
“2019年中国自动驾驶行业发展研究报告-前瞻产业研究院-2019.8”.pdf
2020-04-05
apollo--demo_1.0数据包
2020-01-13
VScode+opencv3.4+mingw5.3+cmake-3.9.0.rar
2020-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人