背景
随着大语言模型(LLM)在生成式AI领域的广泛应用,高效、稳定的推理服务成为支撑实际业务落地的关键。传统推理架构在处理高并发请求时,常面临资源利用率低、尾延迟高、吞吐受限等挑战。为应对这些问题,vLLM 作为当前主流的高性能推理框架,通过 PagedAttention、动态批处理(Continuous Batching) 和 模型量化 等核心技术,显著提升了大模型推理的吞吐与效率,广泛支持包括通义千问、Llama、Qwen、Kimi 等在内的多种主流模型。
在此基础上,Prefill-Decode(PD)分离推理架构 进一步突破性能瓶颈。该架构基于 Prefill 阶段计算密集、Decode 阶段内存敏感且高并发的负载特征差异,将两个阶段拆分至不同实例上独立运行,实现资源的精细化匹配与极致利用。相比传统一体化部署,PD分离架构可显著提升集群整体并行处理能力,降低服务延迟,提高吞吐。
为降低 PD 分离架构的部署复杂度,提升交付效率,本实践基于 阿里云计算巢(Compute Nest) 推出 ACS PD 分离一键部署解决方案。该方案深度融合 vLLM 推理引擎,支持将大语言模型(如 Qwen3-32B)以 PD 分离模式自动部署至阿里云容器服务(ACS)集群。通过计算巢的模板化编排与全栈自动化能力,用户可快速完成从资源创建、模型加载到服务暴露的全流程部署,无需关注底层基础设施与复杂配置。
单机部署 vs PD分离部署
Qwen3-32B
场景设定:线上场景用户期望模型迅速返回推理结果。因此设定在后续token平均生成时间(TPOT)约为50ms的情况下,对比模型的并发,吞吐与首字符响应时间(TTFT)。
单机部署配置:3个Pod节点的Acs集群,每个节点中有一张96GB的GPU卡,部署 Qwen3-32B 模型。
PD分离部署配置:3个Pod节点的Acs集群,每个节点中有一张96GB的GPU卡,部署 Qwen3-32B 模型,并开启PD分离部署,会根据并发请求数自动调整PD比例。
TPOT约为50ms,输入长度:输出长度为1,200:200
结论
在同等GPU资源与同等TPOT时延要求下,与单机部署方案相比,PD分离部署能够并发与吞吐有明显提升,且TTFT时延相近。
部署教程
费用须知
预估费用:50 元。
(如果您按照方案示例规格完成部署及测试,且时间不超过 60 分钟,预计费用约 50 元。实际情况中可能会因您操作过程中实际使用的流量差异,导致费用有所变化,请以控制台显示的实际报价以及最终账单为准。)
部署流程
-
进入计算巢模型市场,单击开始部署。切换到ACS集群部署。根据界面提示填写参数,并选择PD分离部署。选择GPU类型为P16EN的价格约为45元/小时,未加白的用户无法使用P16EN卡,需提交工单申请加白。可根据需求选择是否开启公网,模型配置处允许自定义修改模型部署参数。确认参数后点击下一步:确认订单。
-
点击下一步:确认订单后可以看到价格预览,随后可点击立即部署,等待部署完成。(提示RAM权限不足时需要为子账号添加RAM权限)
-
32B模型的PD分离部署方案,部署时间约为25分钟。等待部署完成后,就可以开始使用服务了。点击服务实例名称,进入服务实例详情。
体验模型
计算巢提供了图形化界面帮助您快速与模型进行对话。在实例详情页找到在线访问,单击访问链接,即可与模型进行对话。