基于计算巢的ACS PD分离一键部署实践

原创于 2025-08-13 15:41:34 发布 · 874 阅读

CC 4.0 BY-SA版权

文章标签：

背景

随着大语言模型（LLM）在生成式AI领域的广泛应用，高效、稳定的推理服务成为支撑实际业务落地的关键。传统推理架构在处理高并发请求时，常面临资源利用率低、尾延迟高、吞吐受限等挑战。为应对这些问题，vLLM 作为当前主流的高性能推理框架，通过 PagedAttention、动态批处理（Continuous Batching）和模型量化等核心技术，显著提升了大模型推理的吞吐与效率，广泛支持包括通义千问、Llama、Qwen、Kimi 等在内的多种主流模型。

在此基础上，Prefill-Decode（PD）分离推理架构进一步突破性能瓶颈。该架构基于 Prefill 阶段计算密集、Decode 阶段内存敏感且高并发的负载特征差异，将两个阶段拆分至不同实例上独立运行，实现资源的精细化匹配与极致利用。相比传统一体化部署，PD分离架构可显著提升集群整体并行处理能力，降低服务延迟，提高吞吐。

为降低 PD 分离架构的部署复杂度，提升交付效率，本实践基于阿里云计算巢（Compute Nest）推出 ACS PD 分离一键部署解决方案。该方案深度融合 vLLM 推理引擎，支持将大语言模型（如 Qwen3-32B）以 PD 分离模式自动部署至阿里云容器服务（ACS）集群。通过计算巢的模板化编排与全栈自动化能力，用户可快速完成从资源创建、模型加载到服务暴露的全流程部署，无需关注底层基础设施与复杂配置。

单机部署 vs PD分离部署

Qwen3-32B

场景设定：线上场景用户期望模型迅速返回推理结果。因此设定在后续token平均生成时间(TPOT)约为50ms的情况下，对比模型的并发，吞吐与首字符响应时间(TTFT)。

单机部署配置：3个Pod节点的Acs集群，每个节点中有一张96GB的GPU卡，部署 Qwen3-32B 模型。

PD分离部署配置：3个Pod节点的Acs集群，每个节点中有一张96GB的GPU卡，部署 Qwen3-32B 模型，并开启PD分离部署，会根据并发请求数自动调整PD比例。

TPOT约为50ms，输入长度:输出长度为1,200:200

结论

在同等GPU资源与同等TPOT时延要求下，与单机部署方案相比，PD分离部署能够并发与吞吐有明显提升，且TTFT时延相近。

部署教程

费用须知

预估费用：50 元。

(如果您按照方案示例规格完成部署及测试，且时间不超过 60 分钟，预计费用约 50 元。实际情况中可能会因您操作过程中实际使用的流量差异，导致费用有所变化，请以控制台显示的实际报价以及最终账单为准。)

部署流程

进入计算巢模型市场，单击开始部署。切换到ACS集群部署。根据界面提示填写参数，并选择PD分离部署。选择GPU类型为P16EN的价格约为45元/小时，未加白的用户无法使用P16EN卡，需提交工单申请加白。可根据需求选择是否开启公网，模型配置处允许自定义修改模型部署参数。确认参数后点击下一步：确认订单。
点击下一步：确认订单后可以看到价格预览，随后可点击立即部署，等待部署完成。(提示RAM权限不足时需要为子账号添加RAM权限)
32B模型的PD分离部署方案，部署时间约为25分钟。等待部署完成后，就可以开始使用服务了。点击服务实例名称，进入服务实例详情。