Amazon Web Services (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上利用 NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了对 Amazon Simple Storage (S3) 的支持,此外还有与 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的现有集成。此次更新将大规模服务大语言模型 (LLM) 的性能、可扩展性和成本效益提升到了新的水平。
NVIDIA Dynamo 可扩展生成式 AI 并为其提供服务
NVIDIA Dynamo 是专为大规模分布式环境打造的开源推理服务框架。它支持所有主要的推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高级优化功能,例如:
- 分解服务:在不同的 GPU 上分离预填充和解码推理阶段,以提高吞吐量。
- LLM 感知路由:路由请求以更大限度地提高 KV 缓存命中率,并避免重新计算成本。
- KV 缓存卸载:在经济高效的内存层次结构中卸载 KV 缓存,以降低推理成本。
这些功能使 NVIDIA Dynamo 能够为大规模多节点 LLM 部署提供出色的推理性能和成本效益。
与 AWS 服务无缝集成
对于在 AWS 云上服务 LLM 的 AWS 开发者和解决方案架构师,Dynamo 将无缝集成到您现有的推理架构中:
- Amazon S3:Dynamo NIXL 现在支持 Amazon S3,这是一种对象存储服务,可提供几乎无限的可扩展性、高性能和低成本。计算 KV 缓存需要大量资源且成本高昂。通常会重复使用缓存值而不是重新计算它们。但是,随着 AI 工作负载的增长,重用所需的 KV 缓存量可能会迅速超过 GPU 甚至主机内存。通过将 KV 缓存卸载到 S3,开发者可以释放宝贵的 GPU 显存来处理新请求。这种集成减轻了开发者构建自定义插件的负担,使他们能够将 KV 缓存无缝卸载到 S3,并降低总体推理成本。
- Amazon EKS:Dynamo 在 Amazon EKS 上运行,这是一种完全托管的 Kubernetes 服务,使开发者能够运行和扩展容器化应用程序,而无需管理 Kubernetes 基础设施。随着 LLM 的规模和复杂性不断增加,生产推理部署现在需要高级组件,例如可感知 LLM 的请求路由、分解服务和 KV 缓存卸载。这些紧密集成的组件增加了在 Kubernetes 环境中部署的复杂性。借助这种支持,开发者可以将 Dynamo 无缝部署到由 EKS 管理的 Kubernetes 集群中,使他们能够按需快速启动新的 Dynamo 副本,以处理推理工作负载高峰。

- AWS Elastic Fabric Adapter (EFA) :Dynamo 的 NIXL 数据传输库支持 Amazon 的 EFA,这是一个在 Amazon EC2 实例之间提供低延迟节点间通信的网络接口。随着 LLM 规模的扩大并采用稀疏多专家模型架构,跨多个 GPU 进行分片可在保持低延迟的同时提高吞吐量。在这些设置中,针对在 AWS 上运行的工作负载,使用 EFA 跨 GPU 节点传输推理数据。借助 Dynamo 的 EFA 支持,开发者可以通过 NIXL 的前端 API 使用简单的 get、push 和 delete 命令,在节点之间轻松移动 KV 缓存。这样一来,无需自定义插件即可访问 Dynamo 的高级功能 (如解服务) ,从而缩短 AI 应用的生产时间。
在 Blackwell 驱动的 Amazon P6 实例上使用 Dynamo 优化推理
Dynamo 与任何 NVIDIA GPU 加速的 AWS 实例兼容,但与由 Blackwell 提供支持的 Amazon EC2 P6 实例搭配使用时,在部署 DeepSeek R1 和最新 Llama 4 等高级推理模型时,可显著提升性能。Dynamo 通过管理预填充和解码自动缩放以及速率匹配等关键任务,简化并自动处理分解 MoE 模型的复杂性。
同时,Amazon P6-B200 实例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 带宽,而由 NVIDIA GB200 NVL72 提供支持的 P6e-GB200 Ultra 服务器具有独特的纵向扩展架构,可提供 130 TBps 的聚合多对多带宽,旨在加速密集型通信模式Dynamo 和 P6 驱动的 Blackwell 实例相结合,可提高 GPU 利用率,提高每美元的请求吞吐量,并推动生产规模 AI 工作负载的可持续利润增长。
开始使用 NVIDIA Dynamo
深化 Dynamo 与 AWS 的集成可帮助开发者无缝扩展其推理工作负载。
NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的 AWS 实例上运行。通过使用 NVIDIA Dynamo 进行部署,立即开始优化推理堆栈。