AI 平台/部署

NVIDIA Dynamo 新增对 AWS 服务的支持,可大规模提供经济高效的推理

Amazon Web Services (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上利用 NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了对 Amazon Simple Storage (S3) 的支持,此外还有与 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的现有集成。此次更新将大规模服务大语言模型 (LLM) 的性能、可扩展性和成本效益提升到了新的水平。

NVIDIA Dynamo 可扩展生成式 AI 并为其提供服务

NVIDIA Dynamo 是专为大规模分布式环境打造的开源推理服务框架。它支持所有主要的推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高级优化功能,例如:

  • 分解服务:在不同的 GPU 上分离预填充和解码推理阶段,以提高吞吐量。
  • LLM 感知路由:路由请求以更大限度地提高 KV 缓存命中率,并避免重新计算成本。
  • KV 缓存卸载:在经济高效的内存层次结构中卸载 KV 缓存,以降低推理成本。

这些功能使 NVIDIA Dynamo 能够为大规模多节点 LLM 部署提供出色的推理性能和成本效益。

与 AWS 服务无缝集成

对于在 AWS 云上服务 LLM 的 AWS 开发者和解决方案架构师,Dynamo 将无缝集成到您现有的推理架构中:

  • Amazon S3:Dynamo NIXL 现在支持 Amazon S3,这是一种对象存储服务,可提供几乎无限的可扩展性、高性能和低成本。计算 KV 缓存需要大量资源且成本高昂。通常会重复使用缓存值而不是重新计算它们。但是,随着 AI 工作负载的增长,重用所需的 KV 缓存量可能会迅速超过 GPU 甚至主机内存。通过将 KV 缓存卸载到 S3,开发者可以释放宝贵的 GPU 显存来处理新请求。这种集成减轻了开发者构建自定义插件的负担,使他们能够将 KV 缓存无缝卸载到 S3,并降低总体推理成本。
  • Amazon EKS:Dynamo 在 Amazon EKS 上运行,这是一种完全托管的 Kubernetes 服务,使开发者能够运行和扩展容器化应用程序,而无需管理 Kubernetes 基础设施。随着 LLM 的规模和复杂性不断增加,生产推理部署现在需要高级组件,例如可感知 LLM 的请求路由、分解服务和 KV 缓存卸载。这些紧密集成的组件增加了在 Kubernetes 环境中部署的复杂性。借助这种支持,开发者可以将 Dynamo 无缝部署到由 EKS 管理的 Kubernetes 集群中,使他们能够按需快速启动新的 Dynamo 副本,以处理推理工作负载高峰。
Dynamo on AWS architecture showing Availability Zone, Virtual Private Cloud, EKS Control Plane and CPU and GPU nodes.
图 1:使用 Amazon EKS 的 AWS 部署架构上的 Dynamo
  • AWS Elastic Fabric Adapter (EFA) :Dynamo 的 NIXL 数据传输库支持 Amazon 的 EFA,这是一个在 Amazon EC2 实例之间提供低延迟节点间通信的网络接口。随着 LLM 规模的扩大并采用稀疏多专家模型架构,跨多个 GPU 进行分片可在保持低延迟的同时提高吞吐量。在这些设置中,针对在 AWS 上运行的工作负载,使用 EFA 跨 GPU 节点传输推理数据。借助 Dynamo 的 EFA 支持,开发者可以通过 NIXL 的前端 API 使用简单的 get、push 和 delete 命令,在节点之间轻松移动 KV 缓存。这样一来,无需自定义插件即可访问 Dynamo 的高级功能 (如解服务) ,从而缩短 AI 应用的生产时间。

在 Blackwell 驱动的 Amazon P6 实例上使用 Dynamo 优化推理

Dynamo 与任何 NVIDIA GPU 加速的 AWS 实例兼容,但与由 Blackwell 提供支持的 Amazon EC2 P6 实例搭配使用时,在部署 DeepSeek R1 和最新 Llama 4 等高级推理模型时,可显著提升性能。Dynamo 通过管理预填充和解码自动缩放以及速率匹配等关键任务,简化并自动处理分解 MoE 模型的复杂性。

同时,Amazon P6-B200 实例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 带宽,而由 NVIDIA GB200 NVL72 提供支持的 P6e-GB200 Ultra 服务器具有独特的纵向扩展架构,可提供 130 TBps 的聚合多对多带宽,旨在加速密集型通信模式Dynamo 和 P6 驱动的 Blackwell 实例相结合,可提高 GPU 利用率,提高每美元的请求吞吐量,并推动生产规模 AI 工作负载的可持续利润增长。

开始使用 NVIDIA Dynamo

深化 Dynamo 与 AWS 的集成可帮助开发者无缝扩展其推理工作负载。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的 AWS 实例上运行。通过使用 NVIDIA Dynamo 进行部署,立即开始优化推理堆栈。

 

 

标签