大模型长对话中上下文无法承载全部历史，如何压缩或提取重点

大模型大数据攻城狮

已于 2025-05-31 14:30:32 修改

阅读量739

点赞数 6

CC 4.0 BY-SA版权

分类专栏： Python最全面试题/AI大模型智能体-从入门到Offer 文章标签：人工智能大模型提示词上下文管理 prompt 智能体 RAG

于 2025-05-31 00:03:26 首次发布

本文链接：https://blog.csdn.net/linweidong/article/details/148343968

Python最全面试题/AI大模型智能体-从入门到Offer 专栏收录该内容

80 篇文章 ¥9.90 ¥99.00

订阅专栏

在人工智能技术迅猛发展的今天，大模型已经渗透到我们生活的方方面面，尤其是自然语言处理领域，简直是掀起了一场革命。从智能客服到个人助手，从在线教育到心理咨询，大模型驱动的对话系统正在以一种前所未有的方式改变我们与机器的互动模式。特别是那些能够进行多轮对话、甚至长时间交流的系统，早已不是简单的问答工具，而是更像一个能“理解”我们意图、记住我们喜好的“老朋友”。想象一下，你和一个虚拟助手聊了半个小时，从天气聊到周末计划，再到工作上的小烦恼，它都能接得上话，甚至还能根据之前的内容给出贴心的建议，这种体验真是让人惊叹。

5. 场景案例分析：客服与个人助手的不同打法

基于注意力机制的重点筛选：让模型“自己决定”

然而，事情并没有表面上看起来那么完美。当对话的轮数越来越多，聊天的内容逐渐堆积时，大模型就得面对一个棘手的问题：如何处理这些海量的历史信息？毕竟，每一句对话、每个细节都需要被记录下来，以便后续的回应能够保持连贯性和上下文相关性。可现实是，无论是内存空间还是计算资源，都是有限的。你不可能让一个模型无限制地存储所有对话记录，更别提每次生成回应时都要把全部历史翻一遍，那样成本高得离谱。更何况，历史信息里往往还夹杂着大量的无关紧要内容，比如一句随口的“哈哈”或者重复的寒暄，这些东西对后续对话的帮助几乎为零，反而会干扰模型的判断。

咱们不妨来细想一下，假设你和一个虚拟助手聊了100轮对话，每轮平均50个字，那就是5000字的内容。如果是更长的对话，像是某些专业领域的咨询，可能轻松突破几万字。这么大的数据量，对模型来说是个不小的负担。内存限制就不用说了，普通的服务器或者边缘设备根本吃不消。更关键

了解本专栏