AI 算法笔记

原创已于 2025-04-09 13:54:33 修改 · 435 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

于 2025-04-09 11:06:58 首次发布

记录该学习哪些东西，自我复习使用

Q1: 主流的agent 框架有哪些

分为单智能体框架/ 多智能体框架

单智能体： BabyAGI, AutoGPT, HuggingGPT, GPT-Engineer, AppAgent, OS-copilot, Langgraph;

多智能体框架：斯坦福虚拟小镇, MetaGPT, AutoGen, ChatDEV, GPTeam, TaskWeaver, 微软UFO, CrewAI, Camel

其中Langg r a

详细答案：

单智能体框架

BabyAGI：决策流程包括根据需求分解任务、对任务排列优先级以及执行任务并整合结果。框架简单易用，任务优先级队列是其独特特征。
AutoGPT：定位类似个人助理，帮助用户完成指定任务，如调研某个课题。强调对外部工具的使用，如搜索引擎、页面浏览等。后续模仿者众多，演变出了很多框架。
HuggingGPT：任务分为任务规划、模型选择、执行任务等部分。与 AutoGPT 不同的是，它可以调用 HuggingFace 上不同的模型来完成更复杂的任务，从而提高了每个任务的精确度和准确率。
GPT - Engineer：基于 langchain 开发，是单一的工程师 agent，解决编码场景的问题，目的是创建一个完整的代码仓库，在需要时要求用户额外输入补充信息。
AppAgent：是基于视觉 / 多模态的 agent，能做多模态处理，是 os 级别的 agent，可以完成系统级别的操作，直接操控多个 app。
OS - Copilot：同样是 OS 级别的 Agent，FRIDAY 能够从图片、视频或者文本中学习，并且能够执行一系列的计算机任务，比如在 Excel 中绘图，或者创建一个网站。
Langgraph：是 langchain 的一个 feature，允许开发者通过图的方式重构单个 agent 内部的执行流程，增加灵活性，并且可与 langSmith 等工具结合。

多智能体框架

斯坦福虚拟小镇：是早期的多智能体框架，通过多个智能体来模拟小镇中的各种角色和行为，展示了多智能体系统在复杂环境中的应用。
MetaGPT：将不同角色（如产品经理、架构师等）分配给不同 GPT，形成协作的软件实体，交付特定产品。模拟软件开发团队协作模式，涵盖软件开发全生命周期。
AutoGen：一个用于开发多对话代理的框架，这些代理能够协同解决任务，并与人类无缝交互，简化了复杂的 llm 工作流程，增强了自动化和优化。
ChatDEV：专注于开发聊天机器人相关的多智能体系统，通过多个智能体的协作来完成聊天任务，提高聊天机器人的智能性和灵活性。
GPTeam：强调多智能体之间的协作和团队合作，通过合理分配任务和协调智能体的行动，实现复杂任务的解决。
TaskWeaver：提供了一种灵活的任务分配和管理机制，适用于多智能体系统中任务的动态分配和执行，能够根据智能体的能力和任务的要求进行高效匹配。
微软 UFO：是一个以用户界面为中心的双代理框架，旨在通过无缝导航和操作单个或跨多个应用程序，在 windows 操作系统上满足用户请求。
CrewAI：专为编排角色扮演、自主 AI 代理而设计，使代理能协同工作，处理复杂任务。易于使用，能简化多代理系统的构建和部署，适合快速构建多代理应用原型。
Camel：支持多种类型的智能体协作，提供了丰富的通信和协作机制，适用于构建各种复杂的多智能体系统，特别是涉及到不同角色和功能的智能体之间的协作场景。

参考文章：

【Agent系列】详细调研总结19种主流Agent框架-CSDN博客

Q2：agent 智能体设计中术语 reflection 的含义是什么？

在 Agent 智能体设计中，“Reflection”（反射）通常指智能体对自身的状态、行为、知识以及决策过程进行自我观察、分析和推理的能力。它是智能体实现自我优化、自适应和提高性能的重要机制，具有以下几方面的含义和作用：

自我监测：智能体可以通过反射机制实时监测自身的内部状态，如当前的信念、目标、知识储备以及正在执行的动作等。例如，一个机器人智能体可以通过反射来检查自己的电池电量、传感器状态是否正常，或者检查当前执行的任务是否按计划进行。
错误检测与恢复：当智能体在执行任务过程中出现错误或异常情况时，反射能够帮助它发现问题。比如，智能体在进行推理时发现得出的结论与已有的知识产生冲突，或者在执行动作时发现无法达到预期的效果，这时通过反射机制，智能体可以分析错误产生的原因，并尝试采取相应的恢复措施，如调整策略、重新规划任务等。
性能评估与优化：智能体可以利用反射来评估自己的性能表现。通过分析过去的决策过程和行为结果，智能体能够发现哪些策略或方法是有效的，哪些是需要改进的。例如，一个下棋的智能体可以在每一局结束后，通过反射分析自己在棋局中的决策，找出可以优化的步骤，从而提高下棋的水平。
知识更新与学习：反射有助于智能体根据对自身的观察和分析来更新自己的知识和信念。当智能体发现自己的知识存在不足或错误时，它可以通过反射机制触发学习过程，获取新的知识或修正已有的知识。例如，一个语言处理智能体在处理文本时发现对某个词汇的理解有误，通过反射它可以查找相关资料来更新对该词汇的认识。

Q3：manus 的技术可以分解为哪些？

豆包的回答：

技术架构的三层融合
- 基础层：通过对 Claude 的 MCP 协议深度开发，挖掘 Claude 模型中未被充分利用的多环境处理协议，使其具备直接操作浏览器 DOM 元素、执行命令行指令、处理多模态数据流的能力。
- 决策层：自研强化学习模型（RL）作为 “任务指挥官”，负责意图识别与语义消歧，将任务分解为可执行的原子操作，以及进行动态资源调度。
- 执行层：拥有自研超过 200 个专用工具组件的模块化工具包生态，覆盖网页自动化、代码执行沙箱、跨平台文件处理、多模型协同网关等。
任务执行的核心逻辑链条
- 意图翻译：通过 RL 模型将自然语言转换为结构化任务树，生成包含执行路径、依赖关系、验收标准的文件。
- 环境初始化：根据任务类型自动创建 Docker 容器，预装相应的环境。
- 原子操作分解：将复杂任务拆解为机器可执行的 “数字动作单元”，如信息收集、内容生成等具体操作。
- 过程自检与纠错：每完成一个原子操作即进行结果验证、异常捕获和资源回收。
- 成果封装交付：最终输出物经过格式标准化、元数据注入和多版本管理后进行交付。
关键技术创新突破
- 动态上下文管理技术：通过 todo.md 文件实现任务进度的持久化记忆，允许随时中断 / 续接任务、多人协作编辑以及版本回溯。
- 低成本执行引擎：通过 RL 模型前置过滤、异步批处理和硬件级优化三项技术将单任务成本控制在较低水平。
- 可信执行环境：引入区块链技术确保操作可审计、数据隔离和权限管控。