NVIDIA 开发者博客

机器人

R²D²：利用 NVIDIA 研究工作流和全局基础模型训练通用机器人
AI 平台/部署

CUTLASS：基于张量和空间微核处理多维数据的原理抽象
开发与优化

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象
AI 平台/部署

NVIDIA Dynamo 新增对 AWS 服务的支持，可大规模提供经济高效的推理
AI 平台/部署

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型编排

R²D²：利用 NVIDIA 研究工作流和全局基础模型训练通用机器人

机器人领域的一项主要挑战是训练机器人执行新任务，而无需为每个新任务和环境收集和标记数据集。

3 MIN READ

2025年 7月 16日

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

在生成式 AI 时代，充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常，

4 MIN READ

2025年 7月 16日

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数，例如图块形状、数学和复制指令以及线程束专用方案。

3 MIN READ

2025年 7月 15日

NVIDIA Dynamo 新增对 AWS 服务的支持，可大规模提供经济高效的推理

Amazon Web Services (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2…

2 MIN READ

2025年 7月 15日

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型编排

在开发和部署高级 AI 模型时，访问可扩展的高效 GPU 基础设施至关重要。但是，在云原生、容器化环境中管理此基础设施可能既复杂又昂贵。

2 MIN READ

2025年 7月 14日

NCCL 深度解析：跨数据中心通信与网络拓扑感知

随着 AI 训练规模的扩大，单个数据中心 (DC) 不足以提供所需的计算能力。

2 MIN READ

2025年 7月 14日

借助 NVIDIA Riva TTS 增强多语种类似人类的语音和语音克隆

虽然语音 AI 用于构建数字助理和语音智能体，但其影响远远超出这些应用。文本转语音 (TTS) 和自动语音识别 (ASR)…

3 MIN READ

2025年 7月 14日

借助 NCCL 2.27 实现快速推理和弹性训练

随着 AI 工作负载的扩展，快速可靠的 GPU 通信变得至关重要，这不仅适用于训练，而且越来越适用于大规模推理。

3 MIN READ

增强现实/虚拟现实

查看全部

2025年 5月 18日

聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 实现个性化的数字化美妆体验

增强现实 (AR) 和 AI 通过提供从虚拟试用到 AI 驱动的造型推荐等超个性化体验，正在彻底改变美妆和时尚行业。

1 MIN READ

2025年 5月 6日

借助 NVIDIA RTX PRO Blackwell 台式机 GPU 实现 Rivian 新一代XR 设计

对于不断突破 XR 界限的专业人士而言，打造身临其境的高保真体验始终充满挑战。在渲染大型数据集和驱动最新的超高分辨率高级 XR 头显设备时，

2 MIN READ

2025年 3月 5日

借助 NVIDIA Omniverse 将 AR 体验串流到 Apple iPad

最近在 MWC 巴塞罗那宣布，开发者现在可以将使用 NVIDIA Omniverse 构建的增强现实（AR）体验流式传输到 Apple…

1 MIN READ

2025年 2月 24日

在 NVIDIA 视频编解码器 SDK 13.0 中使用 MV-HEVC 启用立体和 3D 视图

NVIDIA 宣布在最新的 NVIDIA 视频编解码器 SDK 版本 13.0 中实施多视图高效视频编码 (MV-HEVC) 编码器。

2 MIN READ

2025年 1月 6日

利用 NVIDIA Omniverse 空间流，在 XR 中体验数字孪生技术

空间计算体验正在转变我们与数据的交互方式，通过扩展现实 (XR) 和数字孪生等技术连接物理和数字世界。

2 MIN READ

2024年 10月 24日

利用 NVIDIA Morpheus 加速警报分流和 LLM 代理强化安全运营中心

安全运营中心（SOC）分析师每天都会收到大量传入的安全警报。为了确保其组织的持续安全，他们的任务是仔细检查传入的噪音，分拣出误报，

1 MIN READ

2024年 10月 22日

多代理 AI 和 GPU 驱动的声音转文本技术创新

自动音频字幕 (Automated Audio Captioning) 任务的核心是从音频输入中生成自然语言描述。鉴于输入 (音频) 和输出…

2 MIN READ

2024年 10月 14日

AI 驱动模拟和数字孪生技术助力手术机器人技术创新发展

在手术室中集成机器人手术助手（RSAs）为外科医生和患者的治疗效果带来了巨大的优势。目前，

1 MIN READ

数据科学

查看全部

2025年 7月 11日

使用 NVIDIA Earth-2 预测两周以上的天气

能够预测极端天气事件至关重要，因为此类条件变得更加常见且更具破坏性。次季节性气候预测 (预测未来两周或两周以上的天气)…

2 MIN READ

2025年 7月 10日

从 TB 级到一站式解决方案：AI 驱动的气候模型走向主流

在了解地球不断变化的气候的竞赛中，速度和准确性至关重要。但当今使用最广泛的气候模拟器往往难以满足需求：由于计算能力的限制，

2 MIN READ

2025年 7月 9日

为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块

CUB 和 Thrust 等 C++ 库提供高级构建块，使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。

2 MIN READ

2025年 7月 7日

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、

3 MIN READ

2025年 7月 3日

RAPIDS 新增 GPU Polars 串流、统一 GNN API 和零代码 ML 加速功能

RAPIDS 是一套用于 Python 数据科学的 NVIDIA CUDA-X 库，发布了 25.06 版本，引入了令人兴奋的新功能。

2 MIN READ

2025年 7月 1日

适用于有效 FP8 训练的按张量和按块扩展策略

在本博文中，我们将分解主要的 FP8 缩放策略 (按张量缩放、延迟和电流缩放以及按块缩放 (包括 Blackwell 支持的 MXFP8…

2 MIN READ

2025年 6月 27日

AI 分析护士观察记录以降低患者危险

研究人员开发了一款 AI 赋能的工具，可以分析护士的轮班笔记，从而比传统方法更早地识别入院患者的健康状况可能恶化或处于“崩溃”的边缘…

1 MIN READ

2025年 6月 27日

如何在 Polars GPU 引擎中处理超过 VRAM 的数据

在量化金融、算法交易和欺诈检测等高风险领域，数据从业者经常需要处理数百 GB 的数据，才能快速做出明智的决策。

1 MIN READ

NVIDIA 技术博客

R²D²：利用 NVIDIA 研究工作流和全局基础模型训练通用机器人

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

NVIDIA Dynamo 新增对 AWS 服务的支持，可大规模提供经济高效的推理

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型编排

最近

R²D²：利用 NVIDIA 研究工作流和全局基础模型训练通用机器人

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

NVIDIA Dynamo 新增对 AWS 服务的支持，可大规模提供经济高效的推理

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型编排

NCCL 深度解析：跨数据中心通信与网络拓扑感知

借助 NVIDIA Riva TTS 增强多语种类似人类的语音和语音克隆

借助 NCCL 2.27 实现快速推理和弹性训练

增强现实/虚拟现实

聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 实现个性化的数字化美妆体验

借助 NVIDIA RTX PRO Blackwell 台式机 GPU 实现 Rivian 新一代XR 设计

借助 NVIDIA Omniverse 将 AR 体验串流到 Apple iPad

在 NVIDIA 视频编解码器 SDK 13.0 中使用 MV-HEVC 启用立体和 3D 视图

利用 NVIDIA Omniverse 空间流，在 XR 中体验数字孪生技术

利用 NVIDIA Morpheus 加速警报分流和 LLM 代理强化安全运营中心

多代理 AI 和 GPU 驱动的声音转文本技术创新

AI 驱动模拟和数字孪生技术助力手术机器人技术创新发展

数据科学

使用 NVIDIA Earth-2 预测两周以上的天气

从 TB 级到一站式解决方案：AI 驱动的气候模型走向主流

为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

RAPIDS 新增 GPU Polars 串流、统一 GNN API 和零代码 ML 加速功能

适用于有效 FP8 训练的按张量和按块扩展策略

AI 分析护士观察记录以降低患者危险

如何在 Polars GPU 引擎中处理超过 VRAM 的数据