Agent 开始自己进化了,产品经理的设计假设要变了

0 评论 157 浏览 0 收藏 9 分钟

AI产品的设计逻辑正在被开源社区的革命性探索彻底颠覆。从Meta到阿里巴巴,六种让Agent实现自我进化的创新机制正在崛起——它们不仅突破传统'模型固定'的假设,更将用户行为转化为产品能力的进化燃料,重塑了产品经理对护城河与时间优势的认知。

我们设计 AI 产品,一直有一个没人明说的假设:

模型是固定的。它今天什么水平,明天还是那个水平。变化来自我们——我们改 prompt,我们迭代功能,我们调整产品逻辑。Agent 是工具,进化的主体是人。

但过去一年,这个假设正在被一批开源项目悄悄拆掉。

不是在论文里,不是在 demo 里——是在 GitHub 上,有代码,有 star,有真实跑通的实验结果。Meta、阿里巴巴、斯坦福、Nous Research,至少十几个方向在同时探路,回答同一个问题:怎么让 Agent 在不重新训练的情况下,越用越强。

他们已经找到了六种答案。

六种机制,从当次变好到进化方法本身也在进化

01 输出自审:当次变好

Agent 生成回答后不直接输出,先交给另一个 Agent 审查,有问题就打回重来,循环直到通过。

本质是把”做完”和”做好”拆成两个角色。LangGraph Reflection 是这个模式的标准实现。

但它有一个硬限制:对话结束,改进清零。它不记得上次犯过什么错。

02 持久记忆:跨次变好

把 Agent 的状态从对话级提升到 Agent 级——对话可以结束,知识不清零。

Hermes Agent 做得最完整。任务完成后自动把操作步骤提炼成可复用的技能文档,哪怕用户没发起对话,Agent 也会定期自己复盘,把有用的经验主动存下来。

它解决了一个真实的产品问题:很多有价值的经验出现在对话中途,用户不会刻意保存,但 Agent 会。

03 进化搜索:系统性变好

记住经验还不够。如果 Agent 的 prompt 写法、工具配置、工作流结构本身就有优化空间呢?

EvoAgentX 用进化算法同时优化三条线:prompt 文本、工作流拓扑、配置参数。阿里的 AgentEvolver 做得更细,能分析每一步操作的因果贡献——第3步帮了多少,第7步拖了多少后腿。

结果是:一个 7B 小模型经过自我进化,在特定任务上从 1.8% 跳到 32.4%。

04 对抗训练:没有数据也能变好

前三种都需要评估环境来打分。但如果连训练数据都没有呢?

Agent0 的方案是双 Agent 对抗:一个负责出题,一个负责解题。解题 Agent 变强了,简单题没有训练价值了,出题 Agent 就被迫生成更难的任务,倒逼对方继续进化。

竞争本身就是训练信号。基于 Qwen3-8B 的数学推理提升了 18%,超过了需要人工标注的方案。

05 自我修改:连改进方法本身也在进化

前四种有一个共同前提:改进机制本身是人设计的、固定的。

Meta 的 HyperAgents 打破了这个限制。Task Agent 负责干活,Meta Agent 负责改进——而 Meta Agent 不仅能改 Task Agent 的代码,还能改自己的代码。

实验中最让人印象深刻的现象是:系统自己发明了持久化记忆和性能追踪机制。没有人预设这些功能,Agent 判断自己需要,就写代码给自己加上了。

06 编排自优化:不改 Agent,改它外面的壳

最后一种视角最特别。改的不是 Agent 自身,而是围绕它的编排层——prompt 结构、检索策略、工具调用顺序。

斯坦福的 Meta-Harness 让 Coding Agent 来迭代优化这套脚手架。每一轮读取所有历史记录,提出新方案,跑评估,结果写回文件系统。

论文附录里有一段调试轨迹:Agent 在第3轮发现两次失败的共同原因,主动拆分变量分别测试;第7轮换了思路,只加一个环境快照,成了全局最优。这个过程和一个好的工程师调 bug 几乎一样。

这对产品设计意味着什么

六种机制读完,我想说的不是”这些工具你可以去用”。

它们加在一起,正在让产品设计的几个底层假设发生位移。

假设一:从设计静态能力,到设计成长路径

过去评估一个 AI 功能,问的是”它现在能做什么”。这个问题本身预设了能力是静态的。

但如果 Agent 会自我迭代,更关键的问题变成了:它有没有可以变强的空间?变强的速度够不够快?产品设计的对象,从一个截面变成了一条曲线。

假设二:用户行为本身,正在成为产品能力的一部分

持久记忆类的机制意味着:用户每一次使用,都在给 Agent 提供积累的素材。用户用得越多,Agent 就越懂这个用户,越懂这个领域。

产品的护城河,开始和用户的使用深度绑定在一起。

假设三:产品迭代的主体,不再只是人

过去产品变好,依赖的是产品经理发现问题、工程师改代码、重新上线。

现在有一部分迭代正在发生在这个循环之外——Agent 自己在跑,自己在改,自己在变强。这不是说产品经理可以退场,而是说设计时需要多想一层:我有没有给 Agent 留出自我改进的空间?我的产品架构支不支持这件事发生?

最后说一个判断

我不觉得所有产品团队现在都要立刻去研究这六种机制。

但有一件事值得认真对待:最先把自我迭代机制纳入产品设计的团队,会比别人积累一种很难被复制的优势。不是功能优势,而是时间优势——他们的 Agent 已经在某个垂直领域跑了半年、一年,积累了别人没有的经验库、技能库、改进轨迹。

这种优势不能靠堆资源追上来,因为它需要时间来生长。

而时间,是现在开始跑的人才有的东西。

本文由 @van ner 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!