在 Red Hat Summit 2025 上推出的 llm-d 社区标志着开源生态系统在加速生成式 AI 推理创新方面迈出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 构建,通过 Kubernetes 原生架构扩展了 vLLM 的功能,从而实现大规模推理部署。
本文将介绍支持 llm-d 项目的关键 NVIDIA Dynamo 组件。
加速推理数据传输
大规模分布式推理利用模型并行技术(例如 tensor、pipeline 和 expert parallelism),这些技术依赖于 internode 和 intranode、低延迟、高吞吐量的通信。它们还需要在 disaggregated serving 环境中,在预填充和解码 GPU 工作者之间快速传输 KV 缓存。
为实现高吞吐量、低延迟的分布式和分解数据传输,llm-d 利用了 NVIDIA NIXL。作为 NVIDIA Dynamo 的一部分,NIXL 是一个高吞吐量、低延迟的点到点通信库,可提供一致的数据移动 API,以使用相同的语义在不同的内存和存储层之间快速异步地移动数据。它专门针对推理数据移动进行了优化,支持在各种类型的内存和存储之间进行无阻塞和非连续的数据传输。llm-d 依靠 NIXL 来加速解服务设置中预填充和解码之间的 KV 缓存数据传输。
预填充和解码分解
传统的大语言模型 (LLM) 部署在同一 GPU 上同时运行计算密集型预填充阶段和内存密集型解码阶段。这会导致资源使用效率低下和性能优化受限。分解服务通过将两个阶段分离到不同的 GPU 或节点来解决这一问题,从而实现独立优化和更好的硬件利用率。
解服务需要仔细调度预填充和解码节点之间的请求。为加速解服务在开源社区的采用,NVIDIA 已在 vLLM 项目中为预填充和解码请求调度算法的设计和实施提供支持。
展望未来,NVIDIA 很高兴能继续与 llm-d 社区合作,为社区做出更多贡献,详情请参阅以下章节。
动态 GPU 资源规划
传统的 autoscaling 方法依赖于每秒查询次数 (QPS) 等指标,对于现代 LLM 服务系统来说是不够的,尤其是那些使用 disaggregated serving 的系统。这是因为推理工作负载在输入序列长度 (ISL) 和输出序列长度 (OSL) 方面存在显著差异。虽然长 ISL 对预填充 GPU 的要求更高,但长 OSL 会对 decode GPU 进行压力。
“具有不同 ISL 和 OSL 的动态工作负载使 QPS 等简单指标无法可靠地预测资源需求或平衡解服务设置中的 GPU 负载。为了应对这种复杂性,NVIDIA 将与 llm-d 社区合作,将 NVIDIA Dynamo Planner 的优势引入 llm-d Variant Autoscaler 组件。Dynamo Planner 是一款专业规划引擎,能够理解 LLM 推理的独特需求,并能在合适的时间智能地扩展合适类型的 GPU。
KV cache offloading
管理在 GPU 显存中存储大量 KV 缓存的高昂成本已成为 AI 推理团队面临的一项重大挑战。为应对这一挑战,NVIDIA 将与社区合作,将 NVIDIA Dynamo KV Cache Manager 的优势引入 llm-d KV Cache 子系统。
NVIDIA Dynamo KV Cache Manager 可将访问频率较低的 KV 缓存卸载到更具成本效益的存储解决方案,例如 CPU 主机内存、SSD 或网络存储。该策略使组织能够以远低于成本的成本存储大量 KV 缓存,同时释放宝贵的 GPU 资源用于其他任务。Dynamo KV Cache Manager 利用 NIXL 与不同的存储提供程序交互,为 llm-d 实现无缝的 KV 缓存分层。
借助 NVIDIA NIM 提供经过优化的 AI 推理
对于寻求开源创新的敏捷性以及许可商业产品的可靠性、安全性和支持的企业,NVIDIA NIM 集成了 NVIDIA 和社区的领先推理技术。其中包括 SGLang、NVIDIA TensorRT-LLM 和 vLLM,即将支持 Dynamo 组件。NVIDIA NIM 是一套易于使用的微服务,旨在跨云、数据中心和工作站安全可靠地部署高性能 AI 模型推理,并通过 Red Hat OpenShift AI 上的 NVIDIA AI Enterprise 商业许可证提供支持。
NVIDIA 和 Red Hat 长期以来一直合作,在 NVIDIA 加速计算上支持 Red Hat OpenShift 和 Red Hat OpenShift AI。为简化 AI 训练和推理工作负载的部署、管理和扩展,NVIDIA GPU Operator、NVIDIA Network Operator 和 NVIDIA NIM Operator 已在 Red Hat OpenShift 上获得认证,并与 Red Hat OpenShift AI 兼容。
Red Hat 还将 NVIDIA NIM 集成到 Red Hat OpenShift AI 应用目录中。Red Hat 支持 Red Hat OpenShift 和 Red Hat OpenShift AI 在任何 NVIDIA 认证系统上运行,目前正在与 NVIDIA 合作验证对 NVIDIA GB200 NVL72 系统的支持。
开始推进开源推理
如需详细了解 NVIDIA 如何支持 llm-d 项目,请观看 2025 年 Red Hat 峰会主题演讲,了解 llm-d 项目的概述,并聆听由 Google、Neural Magic、NVIDIA 和 Red Hat 的领导者主持的专家小组讨论。
开源软件是 NVIDIA 云原生技术的基础。NVIDIA 为开源项目和社区做出贡献,包括容器运行时、Kubernetes 运算符和扩展以及监控工具。
我们鼓励 AI 开发者和研究人员在 GitHub 上参与 llm-d 和 NVIDIA Dynamo 项目的开发,为塑造开源推理的未来做出贡献。