AI 平台/部署

NVIDIA Dynamo 加速 llm-d 社区计划,推动大规模分布式推理

在 Red Hat Summit 2025 上推出的 llm-d 社区标志着开源生态系统在加速生成式 AI 推理创新方面迈出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 构建,通过 Kubernetes 原生架构扩展了 vLLM 的功能,从而实现大规模推理部署。

本文将介绍支持 llm-d 项目的关键 NVIDIA Dynamo 组件。

加速推理数据传输

大规模分布式推理利用模型并行技术(例如 tensor、pipeline 和 expert parallelism),这些技术依赖于 internode 和 intranode、低延迟、高吞吐量的通信。它们还需要在 disaggregated serving 环境中,在预填充和解码 GPU 工作者之间快速传输 KV 缓存。

为实现高吞吐量、低延迟的分布式和分解数据传输,llm-d 利用了 NVIDIA NIXL。作为 NVIDIA Dynamo 的一部分,NIXL 是一个高吞吐量、低延迟的点到点通信库,可提供一致的数据移动 API,以使用相同的语义在不同的内存和存储层之间快速异步地移动数据。它专门针对推理数据移动进行了优化,支持在各种类型的内存和存储之间进行无阻塞和非连续的数据传输。llm-d 依靠 NIXL 来加速解服务设置中预填充和解码之间的 KV 缓存数据传输。

预填充和解码分解

传统的大语言模型 (LLM) 部署在同一 GPU 上同时运行计算密集型预填充阶段和内存密集型解码阶段。这会导致资源使用效率低下和性能优化受限。分解服务通过将两个阶段分离到不同的 GPU 或节点来解决这一问题,从而实现独立优化和更好的硬件利用率。

解服务需要仔细调度预填充和解码节点之间的请求。为加速解服务在开源社区的采用,NVIDIA 已在 vLLM 项目中为预填充和解码请求调度算法的设计和实施提供支持。

展望未来,NVIDIA 很高兴能继续与 llm-d 社区合作,为社区做出更多贡献,详情请参阅以下章节。

动态 GPU 资源规划

传统的 autoscaling 方法依赖于每秒查询次数 (QPS) 等指标,对于现代 LLM 服务系统来说是不够的,尤其是那些使用 disaggregated serving 的系统。这是因为推理工作负载在输入序列长度 (ISL) 和输出序列长度 (OSL) 方面存在显著差异。虽然长 ISL 对预填充 GPU 的要求更高,但长 OSL 会对 decode GPU 进行压力。

“具有不同 ISL 和 OSL 的动态工作负载使 QPS 等简单指标无法可靠地预测资源需求或平衡解服务设置中的 GPU 负载。为了应对这种复杂性,NVIDIA 将与 llm-d 社区合作,将 NVIDIA Dynamo Planner 的优势引入 llm-d Variant Autoscaler 组件。Dynamo Planner 是一款专业规划引擎,能够理解 LLM 推理的独特需求,并能在合适的时间智能地扩展合适类型的 GPU。

KV cache offloading

管理在 GPU 显存中存储大量 KV 缓存的高昂成本已成为 AI 推理团队面临的一项重大挑战。为应对这一挑战,NVIDIA 将与社区合作,将 NVIDIA Dynamo KV Cache Manager 的优势引入 llm-d KV Cache 子系统。

NVIDIA Dynamo KV Cache Manager 可将访问频率较低的 KV 缓存卸载到更具成本效益的存储解决方案,例如 CPU 主机内存、SSD 或网络存储。该策略使组织能够以远低于成本的成本存储大量 KV 缓存,同时释放宝贵的 GPU 资源用于其他任务。Dynamo KV Cache Manager 利用 NIXL 与不同的存储提供程序交互,为 llm-d 实现无缝的 KV 缓存分层。

借助 NVIDIA NIM 提供经过优化的 AI 推理

对于寻求开源创新的敏捷性以及许可商业产品的可靠性、安全性和支持的企业,NVIDIA NIM 集成了 NVIDIA 和社区的领先推理技术。其中包括 SGLang、NVIDIA TensorRT-LLM 和 vLLM,即将支持 Dynamo 组件。NVIDIA NIM 是一套易于使用的微服务,旨在跨云、数据中心和工作站安全可靠地部署高性能 AI 模型推理,并通过 Red Hat OpenShift AI 上的 NVIDIA AI Enterprise 商业许可证提供支持。

NVIDIA 和 Red Hat 长期以来一直合作,在 NVIDIA 加速计算上支持 Red Hat OpenShift 和 Red Hat OpenShift AI。为简化 AI 训练和推理工作负载的部署、管理和扩展,NVIDIA GPU OperatorNVIDIA Network OperatorNVIDIA NIM Operator 已在 Red Hat OpenShift 上获得认证,并与 Red Hat OpenShift AI 兼容。

Red Hat 还将 NVIDIA NIM 集成到 Red Hat OpenShift AI 应用目录中。Red Hat 支持 Red Hat OpenShift 和 Red Hat OpenShift AI 在任何 NVIDIA 认证系统上运行,目前正在与 NVIDIA 合作验证对 NVIDIA GB200 NVL72 系统的支持。

开始推进开源推理

如需详细了解 NVIDIA 如何支持 llm-d 项目,请观看 2025 年 Red Hat 峰会主题演讲,了解 llm-d 项目的概述,并聆听由 Google、Neural Magic、NVIDIA 和 Red Hat 的领导者主持的专家小组讨论

开源软件是 NVIDIA 云原生技术的基础。NVIDIA 为开源项目和社区做出贡献,包括容器运行时、Kubernetes 运算符和扩展以及监控工具。

我们鼓励 AI 开发者和研究人员在 GitHub 上参与 llm-d 和 NVIDIA Dynamo 项目的开发,为塑造开源推理的未来做出贡献。

标签