AI Agent 架构的进化之路

0 评论 554 浏览 1 收藏 8 分钟

AI Agent的发展经历了从单Agent到多智能体协作,再到Puppeteer架构的三次关键迭代,每一次迭代都在解决上一代的痛点,逐步走向自我进化。

在 AI Agent 的发展历程中,我们一直在试图解决一个核心问题:如何让 AI 稳定、高效地完成复杂任务?

为了回答这个问题,Agent 架构经历了几次关键的迭代。每一次迭代,本质上都是为了解决上一代的痛点。现在,站在 2025 年的尾巴上,让我们回望这条进化之路,看看我们是如何从“手写规则”走向“自我进化”的。

第一阶段:单 Agent

这是 Agent 概念刚爆发时的形态。那时,我们试图把所有的希望都寄托在一个 LLM 身上。我们给它挂载了一堆工具(Tools),让它自己去规划、去执行。

在这一阶段,一次任务所有的 Context(上下文)、Memory(记忆)、Reasoning(推理)Tool Execution(工具执行) 都发生在一个巨大的推理循环(Loop)里。

因此,它的局限性非常明显:

  1. 上下文遗忘: 随着任务步骤变长,上下文窗口迅速被填满,模型开始“遗忘”最初的目标。
  2. 注意力分散: 让同一个模型既负责写代码,又负责写文案,还负责查资料,模型的注意力机制难以在长序列中保持聚焦,导致幻觉频发。
  3. 容错率低: 一步错,步步错。中间任何一个环节卡住,整个任务链条直接断裂。

这就像是一个“苦逼的自由职业者”。他一个人就是一家公司,既要跑业务,又要写代码,还要管财务,最后还得自己倒垃圾。虽然他很全能,但一旦活儿多了,他不仅会累死,还容易精神错乱。

第二阶段:多智能体协作

为了解决单体架构“脑容量不够”和“容易乱”的问题,我们引入了 Orchestrator-Worker(调度员-执行者) 架构。

这套架构的核心思想是分工。我们设立一个“主智能体”(Orchestrator)作为调度中心,负责任务分解、资源协调和结果整合;然后按场景维度拆分出多个“子智能体”(Workers)来做具体的执行。目前商业化落地比较成功的 Agent,比如 Cursor、Claude Code 等,底层逻辑多是基于这套架构。

虽然分工明确了,但它依然依赖于显式的规则。每次解决问题,主智能体都需要重新分析用户需求,重新规划路径。结果就是大量 Token 消耗在重复的规划上以及一旦遇到手册里没写的突发情况,他就死机了。

这就像是一个“照本宣科的项目经理”。想象一下,你有一个项目经理,他非常守规矩,但不懂变通。哪怕是“给客户发个周报”这种重复了无数次的任务,他每次都要把你拉进会议室,一本正经地打开《员工手册》,重新画一遍甘特图,重新分配一遍任务:“小王你去打开文档,小李你去打字,小张你去点发送”。

第三阶段:Puppeteer 架构

这是 2025 年出现的新范式,代表性研究是《Multi-Agent Collaboration via Evolving Orchestration》(arXiv:2505.19591)。它提出的 Puppeteer(提线木偶)架构,旨在让 Agent 学会“自我进化”。标志着 Agent 开发从 Prompt Engineering(提示词工程) 转向了 Data-Driven Policy(数据驱动策略)

Puppeteer 架构不再依赖人类预设的静态工作流(Static Workflow),而是引入了一个基于学习的策略网络(Learning-Based Policy)

  • 隐式直觉:它不再需要你告诉它“第一步做A,第二步做B”,而是通过离线强化学习(Offline RL),利用大量的 Trajectory Data(轨迹数据) 进行训练。
  • 动态编排:模型学习的是一个价值函数(Value Function)——在当前状态下,调用哪个 Agent、使用哪种拓扑结构(串行、并行还是环形)能获得最大的 Reward(奖励)。
  • 结构剪枝:在训练过程中,它会自动发现:“哦,原来处理这类任务,只需要 Agent A 和 Agent B 配合就够了,Agent C 是多余的。” 从而自动进化出最精简、高效的协作路径。

这就像那个死板的项目经理终于熬成了“行业老炮儿”。他现在办事已经不看《员工手册》了,遇到突发状况,他不需要你告诉他怎么做。他脑子里闪过的是过去十年几千次项目的成败经验。比如看到程序员卡住了,他凭直觉就知道这次不能硬催,得先找个技术大牛来救火。这种“只可意会不可言传”的决策能力,就是通过学习得来的。

三代架构大比拼

总结

回顾这短短几年的进化史,我们可以清晰地看到一条主线:

  • 1.0 时代:我们试图让一个 AI 像人一样“全能”,结果发现它容易累死(幻觉)。
  • 2.0 时代:我们试图用规则教 AI “守规矩”,结果发现它太死板,且不仅费钱还费时。
  • 3.0 时代:我们开始通过数据训练 AI 的“直觉”,让它真正成为能应对不确定性的专家。

未来的 Agent 开发,竞争壁垒将不再是比拼谁的 Prompt 写得更花哨,而是比拼谁手里拥有更多高质量的“成功经验数据”(Trajectories)。

因为在 AI 的世界里,经验(Data)即直觉,直觉即智能。

本文由 @别惹CC 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Pexels,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!