Agent-S: 操作计算机的智能代理框架

GitHubhttps://github.com/simular-ai/Agent-S

更多AI开源软件发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。通过集成大模型(LLM)和视觉多模态模型,能够理解屏幕截图、界面结构等输入,并生成操作指令,实现自动点击、输入、窗口切换、搜索等操作。

主要功能

  • 图形界面操作:模拟鼠标和键盘,与电脑软件互动。
  • 任务分解与规划:将复杂任务拆成小步骤,自动执行。
  • 经验学习:从历史任务中学习,提高效率。
  • 跨平台支持:可在 macOS、Windows 和 Linux 上运行。
  • 多模态输入:结合屏幕图像和界面元素,精准操作。
  • 开源定制:提供源代码和文档,开发者可自由调整。
  • 知识库更新:运行时持续更新经验数据,提升智能性。

安装和使用

  1. 准备环境

    • 安装 Python 3.9 到 3.12。
    • 安装 Git,用于下载代码。
    • 可选:准备虚拟机(如 VMware),用于测试或隔离环境。
  2. 下载代码

    • 打开终端,运行:

      git clone https://github.com/simular-ai/Agent-S.git
      
    • 进入项目目录:

      cd Agent-S
      
  3. 安装依赖

    • 创建虚拟环境(推荐):

      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • 安装核心库:

      pip install gui-agents
      
    • 设置环境变量(如 API 密钥):

      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. 启动 Agent S

    • 运行 Agent S1 或 S2:

      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • 启动后,输入任务即可开始使用。

实战演习

场景1: 图形界面操作
  • 功能说明:通过屏幕截图和界面识别,模拟人类操作。

  • 操作步骤:

    1. 运行 agent_s2​。
    2. 输入任务:“打开记事本并输入‘你好’。”
    3. Agent S2 找到记事本图标,点击打开,然后输入文字。
    4. 按 Ctrl+C 可随时停止。
场景2: 任务分解与规划
  • 功能说明:将复杂任务拆解为小步骤,逐步完成。

  • 操作步骤:

    1. 输入:“发送一封邮件给朋友。”
    2. Agent S2 自动执行:打开邮件软件、新建邮件、填写内容、点击发送。
    3. 用户可在终端查看每步日志。
场景3: 经验学习
  • 功能说明:记录任务过程,优化后续操作。

  • 操作步骤:

    1. 完成任务后,经验保存在 gui_agents/kb​ 文件夹。
    2. 再次运行相似任务,效率会提升。
    3. 开发者可检查知识库文件,了解学习内容。
场景4: 跨平台支持
  • 功能说明:支持三大主流操作系统。

  • 操作步骤:

    1. Windows 需要安装 pywin32​ 和 pywinauto​。
    2. macOS 需要 pyobjc​,用 pip install pyobjc​ 安装。
    3. Linux 检查 pyautogui​ 兼容性,可能需调整权限。
场景5: 多模态输入
  • 功能说明:结合图像和界面数据,提高操作准确性。

  • 操作步骤:

    1. 输入:“在浏览器中搜索‘天气’。”
    2. Agent S2 分析屏幕,找到浏览器窗口,输入搜索词。
    3. 结果自动显示。
场景6: 知识库下载
  • 功能说明:Agent S2 使用预训练知识库,支持离线运行。

  • 操作步骤:

    1. 首次启动时,自动从 GitHub Releases 下载知识库。

    2. 手动下载示例:
      **复制**复制**复制**复制**复制**复制**复制**复制

      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. 知识库路径在 kb_data​ 文件夹。

场景7: 集成 Perplexica 搜索
  • 功能说明:增强 Agent S 的网页知识检索能力。

  • 操作步骤:

    1. 安装 Docker Desktop 并启动。

    2. 下载 Perplexica:

      cd Perplexica
      git submodule update --init
      
    3. 重命名 sample.config.toml​ 为 config.toml​,填写 API 密钥。

    4. 启动服务:

      docker compose up -d
      
    5. 设置 Perplexica URL:

      export PERPLEXICA_URL=http://localhost:端口/api/search
      
场景8: 自定义模型
  • 功能说明:支持多种大模型和自定义端点。

  • 操作步骤:

    1. 使用 Claude 模型:

      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. 使用 Hugging Face 端点:

      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值