定义与含义
什么是 AI Agent?
AI Agent(智能体) 是一个能够自主感知环境、推理观察结果、规划多步骤动作、通过工具执行动作,并从反馈中学习的智能软件系统。其核心目标是:以最少的人类干预完成特定任务。
学术上,一个 AI Agent 可以形式化为五元组:
| 组件 | 英文 | 功能描述 |
|---|---|---|
| 大语言模型 | LLM Core | "大脑"——负责理解、推理和决策生成 |
| 记忆系统 | Memory | 短期上下文 + 长期知识存储与检索 |
| 工具系统 | Tools | 调用外部 API、搜索引擎、代码执行器等 |
| 规划能力 | Planning | 任务分解、子目标生成与执行调度 |
| 反思机制 | Reflection | 自我评估、策略修正与持续优化 |
一句话总结:AI Agent = LLM + 记忆 + 规划 + 工具 + 反思。
与普通 AI 模型的本质区别
| 对比维度 | 普通 AI 模型(LLM) | AI Agent |
|---|---|---|
| 交互模式 | 单轮问答,无状态 | 多轮交互,有状态 |
| 自主性 | 被动响应 prompt | 主动感知环境并采取行动 |
| 工具使用 | 无 | 可调用外部工具(搜索、代码、API) |
| 记忆能力 | 仅上下文窗口 | 短期+长期记忆系统 |
| 任务完成方式 | 生成文本回答 | 规划-执行-验证闭环 |
| 错误处理 | 无自主修正 | 反思+重试+策略调整 |
一个普通 LLM 可以回答"如何订机票",而一个 AI Agent 可以真正帮你搜索航班、比较价格、填写信息、完成支付——它不只是"说",而是"做"。
关键概念辨析
| 概念 | 含义 |
|---|---|
| AI Agent | 通用术语,指任何能感知环境并执行动作的智能系统 |
| Agentic AI | 以 LLM 为认知核心,具有自主性、记忆、工具使用和反思能力的系统 |
| LLM Assistant | 被动的、无状态的对话助手,仅有当被编排了记忆、工具、目标分解后才升级为 Agentic AI |
| RAG | 检索增强生成——让 LLM 从外部知识库检索信息后再生成回答;是 Agent 记忆系统的一部分,但不等同于 Agent |
核心区分:Agent 与 Chatbot 的根本区别在于前者能采取行动。Chatbot 的终点是生成文本,Agent 的终点是改变外部世界状态。
核心能力
自主性
自主性是 Agent 区别于传统程序的根本特征。Agent 能够在给定高层目标后,自主决定采用什么策略、调用哪些工具、如何处理失败、何时请求人类干预。
Google 与腾讯研究机构提出的 Agent 成熟度模型(L0-L5) 清晰地刻画了自主性的梯度:
| 等级 | 名称 | 角色比喻 | 核心行为 |
|---|---|---|---|
| L0 | 核心推理 | 计算器 | 仅从训练数据中回答问题,无工具 |
| L1 | 被动执行者 | 问答文员 | "你问,我答"——基于 Prompt + RAG |
| L2 | 任务助手 | 工具使用者 | "你说,我做"——工作流 + Function Calling |
| L3 | 初级规划者 | 规划执行者 | "你说目标,我来规划"——ReAct 多步推理 |
| L4 | 主动贡献者 | 领域专家 | "我发现问题,我解决它"——环境感知,自主发起 |
| L5 | 领导者/编排者 | 团队协调者 | "我来组织"——多 Agent 协调,分解给 L2-L4 Agent |
2025 年大多数企业级部署处于 L2-L3 级别。
工具使用
工具使用是 Agent 连接数字世界与现实世界的桥梁。常见的工具类型包括:
- Function Calling:通过结构化的 JSON Schema 调用 API
- 代码执行器:沙箱化环境中运行 Python/JavaScript/Bash 代码
- 网页浏览与搜索:实时信息检索
- 数据库与 API 网关:企业系统交互
- MCP(Model Context Protocol):Anthropic 提出的 LLM 与工具之间的标准化协议,被比喻为"AI 的 USB-C"
- 文件系统操作:读写文件、管理项目结构
工具设计四原则:语义清晰(description 是"写给 AI 看的微提示词")、原子性与单一职责、无状态(只封装技术逻辑)、最小权限(只授予必需的最小能力)。
规划能力
规划是 Agent 将复杂目标分解为可执行步骤的过程。主流规划方案如下:
| 方案 | 核心思想 | 适用场景 | 代表工作 |
|---|---|---|---|
| ReAct | 推理与行动交替进行(思考-行动-观察循环) | 需要动态调整的任务 | Yao et al., 2022 |
| Plan-and-Execute | 先一次性生成完整计划,再逐步执行 | 步骤清晰、依赖明确的任务 | BabyAGI, LLMCompiler |
| CoT(思维链) | 在生成最终答案前展示完整推理过程 | 数学推理、逻辑问题 | Wei et al., 2022 |
| ToT(思维树) | 多路径探索,对候选思路进行树搜索 | 需要前瞻性规划的任务 | Yao et al., 2023 |
| Reflexion | 基于语言反馈的自我反思与策略修正 | 动态环境,需要试错 | Shinn et al., 2023 |
记忆系统
记忆赋予 Agent 持续性和个性化。一个成熟 Agent 的记忆架构通常是分层的:
┌─────────────────────────────────┐ │ 短期记忆(Session Buffer) │ ← 当前会话上下文,滑动窗口管理 ├─────────────────────────────────┤ │ 工作记忆(Working Memory) │ ← 当前任务状态、中间变量 ├─────────────────────────────────┤ │ 长期语义记忆(Vector Store) │ ← 用户偏好、历史经验、领域知识 ├─────────────────────────────────┤ │ 外部记忆(External Knowledge) │ ← 知识图谱、数据库、文档系统 └─────────────────────────────────┘
关键优化策略:上下文压缩、向量检索加速(HNSW 索引)、记忆加权检索(新近度/相关性/重要性排序)、元记忆机制(自动评估记忆质量)。
多步推理与反思
Agent 不只是执行单步操作,而是在多步推理链条中前进。这要求 Agent 具备回溯能力(失败时调整策略)、自我批评(评估自身输出质量)、验证闭环(每步执行后验证结果)和动态重规划(根据执行结果修正后续计划)。
技术架构
核心执行循环
无论是单 Agent 还是多 Agent 系统,其底层都遵循一个核心执行循环:
迭代 t: 1. 观察(Observe):获取环境输入 oₜ 2. 检索(Retrieve):调取相关记忆 mₜ 3. 提议(Propose):通过 LLM 生成候选动作 aₜ 4. 验证(Validate):根据工具 Schema 和护栏检查动作 5. 执行(Execute):调用工具,更新环境和记忆
ReAct(Reasoning + Acting)
ReAct 是当今最广泛使用的 Agent 范式。它的核心理念是将推理与行动交错进行:
Thought: 我需要知道今天北京的天气,才能建议穿什么衣服。
Action: search_weather("北京")
Observation: 北京今天晴,15-25°C
Thought: 天气温暖,建议穿薄外套或长袖。
Action: respond("建议穿薄外套或长袖衬衫。")
ReAct 的优势在于其简单直观、易于实现和调试。大多数 Agent 框架的默认模式都是 ReAct 或其变体。
Plan-and-Execute(先规划后执行)
与 ReAct 的逐步推理不同,此模式先由 Planner 生成完整计划,再由 Executor 逐步执行。Devin(首个 AI 软件工程师)就采用了类似的规划-执行分离设计。
| 优点 | 缺点 |
|---|---|
| 全局视角,减少短视决策 | 计划可能因执行中的意外而过时 |
| 计划可被人类审查和修改 | 对动态环境的适应性较弱 |
| 适合步骤间有强依赖的任务 | — |
Multi-Agent(多智能体协作)
复杂任务往往需要多个 Agent 分工协作:
| 模式 | 描述 | 代表框架 |
|---|---|---|
| 编排者+专家 | 一个编排 Agent 将任务分发到各专业 Agent | CrewAI, AutoGen |
| 辩论/交叉检查 | 多个 Agent 相互批评,提高输出质量 | ChatDev |
| 层级团队 | 高层 Agent 管理低层专家 Agent | MetaGPT |
| 群集智能 | 去中心化,涌现式协作 | AgentVerse |
四种架构范式对比
| 架构 | 控制拓扑 | 核心优势 | 典型应用 |
|---|---|---|---|
| Hierarchical Cognitive | 集中式、分层 | 快速反应层 + 深度推理层 + 元认知层 | 机器人、工业自动化 |
| Swarm Intelligence | 去中心化、多 Agent | 可扩展、容错、涌现行为 | 无人机集群、物流 |
| Meta Learning | 单 Agent、双循环 | "学会学习",快速适应新任务 | 个性化推荐、AutoML |
| Self-Organizing Modular | 编排式模块 | 模块可动态组合/替换 | LLM Agent 栈、企业 Copilot |
参考技术栈(企业级)
┌──────────────────────────────────────────┐ │ 认知层(COGNITIVE LAYER) │ │ LLM 核心(GPT/Claude/Llama/Gemini) │ │ + 规划引擎(CoT, ToT, ReAct, Reflexion) │ ├──────────────────────────────────────────┤ │ 记忆层(MEMORY LAYER) │ │ 短期上下文 + 事件轨迹 + 语义向量库 │ ├──────────────────────────────────────────┤ │ 工具调用层(TOOL INVOCATION LAYER) │ │ Function Calling | Web Browsing │ │ Code Execution | API Gateway | MCP │ ├──────────────────────────────────────────┤ │ 编排层(ORCHESTRATION LAYER) │ │ LangGraph | AutoGen | CrewAI │ ├──────────────────────────────────────────┤ │ 控制、策略与治理(GOVERNANCE) │ │ 护栏(Guardrails)| HITL | 可观测性 │ └──────────────────────────────────────────┘
关键设计取舍
| 维度 | 权衡 |
|---|---|
| 延迟 vs. 准确度 | 更多思考(ToT、自一致性)提高可靠性,但增加成本和延迟 |
| 自主性 vs. 可控性 | 完全自主的 Agent 强大但难治理;HITL 检查点增加摩擦 |
| 能力 vs. 可靠性 | 更多工具 = 更多能力,但也意味着更多攻击面和故障模式 |
| 单 Agent vs. 多 Agent | 单 Agent 更简单;多 Agent 系统处理复杂性但带来协调开销 |
发展历程
从 1950 年代图灵测试到 2025 年 MCP+A2A 协议标准化,AI Agent 经历了五个阶段的演进:
(ELIZA 1966) (Word2Vec 2013) (BERT/GPT 2018) (ChatGPT 2022) (AutoGPT/o1 2023+)
萌芽期:对话式 AI 的起源
1950 年图灵测试提出"机器能否思考";1956 年达特茅斯会议首次提出"人工智能"概念;1966 年 MIT 的 Joseph Weizenbaum 用约 150 行代码构建了首个聊天机器人 ELIZA,通过模式匹配模拟心理治疗师。
if "伤心" in text → "为什么你会感到伤心?"探索期:从规则到符号推理
1980s 专家系统(MYCIN、XCON)将人类专家知识编码为 if-then 规则库;1990s BDI 模型形式化 Agent 的信念、愿望、意图,奠定智能体理论框架;1997 年深蓝击败国际象棋冠军,证明 AI 在特定领域可超越人类。
数据驱动期:从规则到学习
2011 年 Siri 推出首个大规模消费级语音助手;2016 年 AlphaGo 击败李世石——强化学习 Agent 在复杂博弈中超越人类;2017 年 Google 发表 Transformer 架构《Attention Is All You Need》,成为整个 AI 领域的基础设施。
LLM 爆发期:Agent 范式的质变
2020 年 GPT-3(1750 亿参数)的涌现能力被发现;2022 年 Chain-of-Thought 论文提出思维链提示;2022 年 10 月 ReAct 论文提出推理-行动交错范式;2022 年 11 月 ChatGPT 发布(5 天破百万用户,2 个月破亿);2023 年 4 月 AutoGPT 在 GitHub 短时间内获超 150k stars。
Agent 自主化期
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2024.03 | Devin(首个 AI 软件工程师) | Agent 能独立完成复杂工程项目 |
| 2024.11 | Anthropic 发布 MCP 协议 | 标准化 Agent-工具交互,"AI 的 USB-C" |
| 2025.01 | OpenAI o1 / DeepSeek-R1 | 推理时扩展——模型在回答前进行深度"思考链" |
| 2025.04 | Google 发布 A2A 协议 | Agent-to-Agent 通信标准,50+ 企业首批支持 |
| 2025.05 | MCP + A2A 归入 Linux 基金会 | 两大协议统一治理,消除单一厂商锁定风险 |
当前(2025 年中):AI Agent 从概念验证走向生产部署。MCP 月均 SDK 下载量已突破 9700 万次,Gartner 预测到 2028 年,70% 的 AI 应用将由多 Agent 系统驱动。
驱动 Agent 演进的四条主线
| 维度 | 演进路径 |
|---|---|
| 理解力 | 模式匹配 → 语义理解 → 常识推理 → 多模态感知 |
| 自主性 | 被动响应 → 任务执行 → 自主规划 → 自我进化 |
| 架构 | 规则引擎 → 神经网络 → Transformer → ReAct 闭环 Agent |
| 记忆 | 无记忆 → 上下文窗口 → 向量数据库 + RAG → 长期记忆 + 反思 |
应用场景
软件开发
这是 Agent 最成熟、最广泛落地的场景。AI Agent 已从代码补全进化为自主协作的"同事":
| 场景 | 描述 | 实测效果 |
|---|---|---|
| 代码生成与审查 | Agent 编写代码、标注 diff、生成测试 | 绿场任务效率提升 55.8%(ACM 2024) |
| Agentic SDLC | 逆向工程需求、正向生成测试、与 IDE/工单系统交互 | GitHub Copilot 减少 20-30% 开发时间 |
| CI/CD 自动修复 | SRE Agent 排查失败管线、重跑 flaky test | 追踪 MTTR、自动修复率 |
| 企业代码助手 | 理解私有代码库和编码规范 | 雷诺/Ampere 使用 Gemini 开发电动车软件 |
代表项目:Devin, GitHub Copilot, Cursor, Claude Code, Cline
客户服务
| 场景 | 描述 | 案例 |
|---|---|---|
| 自主问题解决 | 身份验证、拉取订单数据、发起退款/退货 | Klarna:AI Agent 处理 2/3 对话,解决时间从 11 分钟降至 2 分钟 |
| 全渠道支持 | 邮件、聊天、社媒、语音等多渠道情感感知 | Uber:AI 工具总结用户沟通,展示交互上下文 |
| 语音 Agent | 实时对话处理账单、争议、账户查询 | 某头部零售商:平均处理时间减少 9% |
数据分析与商业智能
Agent 自动连接数据源,编写 SQL/Python 查询,生成可视化报告——从"分析师花 3 天出报告"到"Agent 10 分钟完成初稿,分析师审核修正"。
科学研究
文献检索与综述自动化、实验方案设计与设备控制、跨学科知识交叉发现。代表工作:ChemCrow(化学 Agent), Coscientist(自主实验室 Agent)。
具身智能与自动驾驶
| 场景 | 案例 |
|---|---|
| 自动驾驶 | 丰田/Woven:使用 Google Cloud AI 超算,TCO 降低 50% |
| 车内多模态助手 | 奔驰 MBUX(2025):Gemini 驱动的多轮对话 + 跨行程记忆 |
| 车队安全 | Geotab:每天分析 460 万+ 车辆数据 |
网络安全
Agent 自主监控日志、检测异常、隔离威胁、生成事件报告。安全运维从"告警疲劳"到"Agent 初筛 + 专家决策"。
人力资源与行政
简历筛选 Agent 自动匹配 JD 与简历;入职 Agent 自动配置账号、发送欢迎邮件;差旅报销从邮件提取发票信息、自动填写报销单。
主流框架与平台
开发框架
| 框架 | 定位 | 核心特点 | 成熟度 |
|---|---|---|---|
| LangChain / LangGraph | 通用 LLM 应用开发框架 | 模块化组件、200+ 工具集成、图式工作流 | 极高 |
| AutoGPT | 自主目标驱动 Agent | 目标自动拆解、自迭代、20+ 工具 | 中等 |
| CrewAI | 角色分工多 Agent 协作 | 上手极快、角色驱动、任务并/串行 | 高 |
| AutoGen(微软) | 多 Agent 通信 | 支持人机混合协作、对话式编程 | 高 |
| MetaGPT | 多 Agent 软件开发 | 虚拟软件公司、SOP 驱动、角色丰富 | 中高 |
| OpenAI Agents SDK | 轻量多 Agent 编排 | Agent + Handoff 模式、Python/TypeScript | 高 |
| Dify / Coze | 低代码 Agent 平台 | 可视化构建、拖拽式工作流 | 高 |
两大开放协议
| 协议 | 提出方 | 定位 | 解决的问题 | 状态 |
|---|---|---|---|---|
| MCP | Anthropic (2024.11) | Agent ↔ 工具标准化 | 让 LLM 统一访问文件、数据库、API | Linux 基金会治理 |
| A2A | Google (2025.04) | Agent ↔ Agent 标准化 | 跨框架/厂商的多 Agent 协作 | Linux 基金会治理 |
选型建议
| 你的场景 | 推荐 |
|---|---|
| 构建复杂生产系统、多工具集成 | LangChain / LangGraph |
| 快速原型 + 团队协作任务 | CrewAI |
| 自主研究探索、实验性项目 | AutoGPT |
| 微软生态下的多 Agent 协作 | AutoGen |
| 学习 Agent 原理 | CrewAI → LangChain(从易到难) |
| OpenAI 生态的生产级部署 | OpenAI Agents SDK |
未来趋势
从单 Agent 到多 Agent 协作
2025 年正在发生的最大趋势:从"一个万能 Agent"到"多个专业 Agent 协作"。Gartner 预测到 2028 年,70% 的 AI 应用将由多 Agent 系统驱动。多 Agent 的本质是软件工程的关注点分离原则——每个 Agent 只做一件事,通过协议连接。
协议标准化(MCP + A2A)
MCP 和 A2A 正在成为 Agent 互联网的 TCP/IP 和 HTTP。这两个协议的标准化将带来互操作性(不同厂商 Agent 可以互相通信)、工具市场(类似 App Store 的 Agent 工具/技能市场)和Agent 发现(通过 AgentCard 自动发现和调用其他 Agent 的能力)。
Agentic RAG
传统 RAG 是被动的——"用户提问 → 检索 → 生成"。Agentic RAG 让 Agent 自主决定是否需要检索、检索哪个知识库、如何拆分查询、检索结果是否足够。
推理时扩展(Inference-Time Scaling)
OpenAI o1/o3 和 DeepSeek-R1 开辟了新方向:不训练更大的模型,而是让模型在推理时"思考"更久。关键创新包括强化学习驱动的推理能力涌现(GRPO 算法)、模型学会自我验证和错误修正、推理与行动的深度耦合。
Agent Skills 与渐进式揭示
Anthropic 的 Agent Skills 机制代表了 Agent 能力管理的新思路——非一次性加载所有能力,而是按需发现和加载。这种"渐进式揭示"使得 Agent 可以在不膨胀上下文的情况下管理数百种专业能力。
AgentOps(Agent 运维)
Agent 从原型走向生产的必要条件,涵盖可观测性(OpenTelemetry 追踪)、评估体系(LLM-as-Judge)、安全治理(护栏、权限控制)和持续优化(反馈循环、A/B 测试)。
具身智能
从数字世界走向物理世界。2026-2030 年,Agent 将与机器人深度融合——特斯拉 Optimus、波士顿动力 Atlas 等通用机器人平台,家用 Agent "帮我打扫房间、做饭、遛狗",工业 Agent 自主生产线调度。
经济影响预测
| 预测来源 | 内容 |
|---|---|
| PwC | AI Agent 可为全球 GDP 贡献 15 万亿美元 |
| Forrester | 到 2027 年,70% 企业将使用 AI Agent 进行决策支持 |
| Gartner | 到 2028 年,70% 的 AI 应用将由多 Agent 系统驱动 |
| McKinsey | 客户服务场景响应时间可减少 70% |
如何构建 Agent
五大核心原则
原则一:从简单开始,渐进式扩展
Step 1: 单个 LLM + 一个工具 → 验证可行性 Step 2: 加入 Memory → 验证持续性 Step 3: 加入 Planning → 验证多步推理 Step 4: 加入 Reflection → 验证容错能力 Step 5: 引入多 Agent → 验证复杂任务协作
不要一开始就设计完美的架构——先跑通最小闭环,再逐步叠加。
原则二:职责分离(Separation of Concerns)
编排 Agent 只负责全局规划和任务分发,工具权限应狭窄;子 Agent 每个只负责一个明确的任务(写测试、调 API、做审查);管道式 对于确定性流程,用管道而非自主 Agent。
最稳定的 Agent 遵循一个简单规则——给每个子 Agent 分配一个职责,让编排者协调。
原则三:最小权限
基线拒绝一切权限按需开启;敏感操作要求显式确认(git push、基础设施变更);危险命令直接阻止(rm -rf、sudo);密钥管理通过安全环境变量注入短期 token,绝不将密钥放入 Agent 可见上下文。
原则四:先测试,再执行
1. 测试 Agent 写测试 → 确认测试失败 2. 实现 Agent 让测试通过(不修改测试) 3. 审查 Agent 检查代码质量和安全性 4. 人类审查门控:合并/部署前的必要环节
原则五:可观测性优先
自主性越高,可观测性越重要——捕获 OpenTelemetry 全链路追踪、记录每一次 Prompt/工具调用/token 消耗、在子 Agent 间传递关联 ID、建立异常告警和回滚机制。
技术选型建议
| 你的角色 | 推荐路径 |
|---|---|
| 初学者 | Dify/Coze 低代码平台 → CrewAI → LangChain |
| 原型快速验证 | CrewAI 或 AutoGPT |
| 生产系统开发 | LangChain + LangGraph |
| 微软技术栈 | AutoGen |
| OpenAI 生态 | OpenAI Agents SDK |
| Anthropic 生态 | Claude Agent SDK |
关键工程实践
上下文管理
使用 CLAUDE.md 或类似文件定义项目规范;定期裁剪/重置上下文,用总结替代历史日志;子 Agent 间严格上下文隔离。
工具设计
{
"name": "search_flights",
"description": "搜索指定日期和城市的航班。返回航班号、价格和时间。",
"parameters": {
"origin": {"type": "string", "description": "出发城市三字代码,如 PEK"},
"destination": {"type": "string", "description": "到达城市三字代码,如 SHA"},
"date": {"type": "string", "description": "出发日期,格式 YYYY-MM-DD"}
}
}
关键:description 的质量决定了 Agent 是否能正确使用你的工具——这是"写给 AI 的文档"。
护栏设计
| 层级 | 措施 |
|---|---|
| 输入层 | 敏感词过滤、注入检测 |
| 推理层 | 输出结构化 Schema 校验 |
| 工具调用层 | PreToolUse 钩子拦截高风险操作 |
| 输出层 | 内容安全审核、事实性校验 |
评估体系
Agent 的评估比传统 ML 模型复杂得多——它涉及非确定性和长周期信用分配。建议采用:
| 评估维度 | 方法 |
|---|---|
| 任务成功率 | 端到端任务的完成比例 |
| 工具调用准确率 | 每次工具调用的参数正确率 |
| 路径效率 | 完成任务所需的步数/时间(越少越好) |
| 错误恢复率 | 首次失败后能否成功修正 |
| 成本 | Token 消耗、API 调用费用 |
建议工具:WebArena, SWE-bench, GAIA, ToolBench 等 Agent 专用基准测试。
参考资料
核心论文
| 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|
| Attention Is All You Need | Vaswani et al. (Google) | 2017 | Transformer 架构,现代 LLM 的基础 |
| Chain-of-Thought Prompting | Wei et al. (Google) | 2022 | 思维链提示,展示 LLM 逐步推理能力 |
| ReAct | Yao et al. (Google) | 2022 | 推理-行动交错范式,Agent 核心方法论 |
| Reflexion | Shinn et al. | 2023 | 基于语言反馈的自我反思机制 |
| Tree of Thoughts | Yao et al. | 2023 | 思维树搜索,多路径推理探索 |
| Voyager | Wang et al. (NVIDIA) | 2023 | 首个 LLM 驱动的终身学习具身 Agent |
| Generative Agents | Park et al. (Stanford) | 2023 | 生成式 Agent 里程碑——模拟小镇 |
| DeepSeek-R1 | DeepSeek-AI | 2025 | 通过纯 RL 激发推理能力的开创性工作 |
重要项目与平台
| 项目 | 简介 |
|---|---|
| LangChain | 最成熟的 LLM 应用开发框架 |
| AutoGPT | 自主目标驱动 Agent |
| CrewAI | 角色驱动的多 Agent 协作框架 |
| AutoGen | 微软多 Agent 通信框架 |
| OpenAI Agents SDK | OpenAI 官方 Agent 开发工具 |
| MCP 协议 | Anthropic 提出的 Agent-工具标准协议 |
| Dify | 低代码 AI 应用开发平台 |
推荐阅读
- Building effective agents — Anthropic 工程团队的 Agent 构建指南
- Effective harnesses for long-running agents — 长运行时间 Agent 的工程实践
- Equipping agents for the real world with Agent Skills — Agent Skills 渐进式揭示机制
- 从 Prompt 到上下文工程构建 AI Agent — 万字长文系统性指南
基准测试
| 基准 | 简介 |
|---|---|
| SWE-bench | 真实 GitHub Issue 的软件开发任务测试 |
| WebArena | 模拟真实网站的交互式 Agent 测试 |
| GAIA | 面向通用 AI 助手的多步推理测试 |
| ToolBench | 大规模工具使用能力测试 |
| AgentBench | 多维度的 Agent 能力评估平台 |