大模型重要技术系列三：高效推理

最新推荐文章于 2025-06-23 11:41:33 发布

原创

最新推荐文章于 2025-06-23 11:41:33 发布 · 965 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节 #自然语言处理 #语言模型 #数据挖掘 #人工智能 #深度学习 #神经网络

接上一篇高效训练，这一篇汇总下高效推理的方法。高效推理的两个主要优化目标是低延迟（快速得到推理结果）和高吞吐量（能同时处理很多请求），同时还要尽可能地少用资源（算力、存储、网络带宽）。

如果要说高效训练和高效推理哪个更重要，从产生的效益来说，应该说高效推理更重要，因为模型训练出来最终都是要用来推理使用的。整个生态产业中，训练基座大模型的就那么多家，训练出来更多时间也是对外提供推理服务；具体一个企业中，训练或者微调完模型后，多数时间也是在业务场景中使用推理。

高效推理如此重要，少不了学者们已经总结了综述文章，本文主要基于两篇综述文章，取其精华，从不同的分类角度全面概括高效推理的方法。目前Transformer结构基本一统大模型江山，多数高效推理方法均针对Transformer模型结构。

综述一

来自于2023年12月卡莱基梅隆大学的《Towards Efficient Generative Large Language Model Serving:A Survey from Algorithms to Systems》，是一个比较简洁版的综述，从机器学习系统研究的角度，分类如下：

图1. LLM推理技术分类，来源[1]

总体分为模型算法、系统优化两个大类，由于第二篇综述在此基础上增加了数据维度，更全面，我们只从本综述挑选亮点分部分介绍。

1.1 Decoder算法优化

对Decoder算法优化的总结，如下图2。大模型中最常见的是只有解码器的Decoder-Only结构，解码器中最常见的是自回归模型，见图中（a），每一时刻由上一token预测下一token，每一次预测由于attention计算都要消耗大量的资源，优化Decoder就是要想办法减少资源消耗，提高计算效率，包括图中后面四种方法。

图2. 大模型Decoder算法分类，来源[1]

前排提示，文末有大模型AGI-CSDN独家资料包哦！
Non-autoregressive decoding

token不再是一个一个预测出来，一次预测多个或者并行预测多个tokens，该方法假设前后token之间有一定的条件独立性。当前该方法比自回归方法速度更快，但可靠性还是比自回归方法低。

Early exiting

每次预测下一个token不一定计算完整的Transformer层，根据不同的情况提前退出得到预测的token，以便减少计算量，但该方法可能导致预测准确率下降。

Speculative decoding

用一个小模型预测token（只是其中一种方式），这样出结果快，同时用原始大模型验证结果，不对就纠正，LLM计算量没有变，但验证的时候可以并行计算节约时间。

Cascade inference

将共享前缀的 KV Cache 存到共享内存中，读一次共享前缀的 KV Cache 即可，具有独特的后缀部分保持原来的计算逻辑，最终共享前缀和独特的后缀部分的各自的部分 attention 结果合并起来，得到最终的 attention 结果。

1.2 开源推理工具

市面上主要的开源推理工具，考察支持的指标包括：

**并行计算方式：**张量并行、流水线并行、计算资源是否offload到系统CPU或者内存上。

**Iteration Scheduling：**

最低0.47元/天解锁文章

200万优质内容无限畅学