Agent 开始自己进化了，产品经理的设计假设要变了 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

Agent 开始自己进化了，产品经理的设计假设要变了

van ner

2026-04-07

0 评论 157 浏览 0 收藏

9 分钟

AI产品的设计逻辑正在被开源社区的革命性探索彻底颠覆。从Meta到阿里巴巴，六种让Agent实现自我进化的创新机制正在崛起——它们不仅突破传统'模型固定'的假设，更将用户行为转化为产品能力的进化燃料，重塑了产品经理对护城河与时间优势的认知。

我们设计 AI 产品，一直有一个没人明说的假设：

模型是固定的。它今天什么水平，明天还是那个水平。变化来自我们——我们改 prompt，我们迭代功能，我们调整产品逻辑。Agent 是工具，进化的主体是人。

但过去一年，这个假设正在被一批开源项目悄悄拆掉。

不是在论文里，不是在 demo 里——是在 GitHub 上，有代码，有 star，有真实跑通的实验结果。Meta、阿里巴巴、斯坦福、Nous Research，至少十几个方向在同时探路，回答同一个问题：怎么让 Agent 在不重新训练的情况下，越用越强。

他们已经找到了六种答案。

六种机制，从当次变好到进化方法本身也在进化

01 输出自审：当次变好

Agent 生成回答后不直接输出，先交给另一个 Agent 审查，有问题就打回重来，循环直到通过。

本质是把”做完”和”做好”拆成两个角色。LangGraph Reflection 是这个模式的标准实现。

但它有一个硬限制：对话结束，改进清零。它不记得上次犯过什么错。

02 持久记忆：跨次变好

把 Agent 的状态从对话级提升到 Agent 级——对话可以结束，知识不清零。

Hermes Agent 做得最完整。任务完成后自动把操作步骤提炼成可复用的技能文档，哪怕用户没发起对话，Agent 也会定期自己复盘，把有用的经验主动存下来。

它解决了一个真实的产品问题：很多有价值的经验出现在对话中途，用户不会刻意保存，但 Agent 会。

03 进化搜索：系统性变好

记住经验还不够。如果 Agent 的 prompt 写法、工具配置、工作流结构本身就有优化空间呢？

EvoAgentX 用进化算法同时优化三条线：prompt 文本、工作流拓扑、配置参数。阿里的 AgentEvolver 做得更细，能分析每一步操作的因果贡献——第3步帮了多少，第7步拖了多少后腿。

结果是：一个 7B 小模型经过自我进化，在特定任务上从 1.8% 跳到 32.4%。

04 对抗训练：没有数据也能变好

前三种都需要评估环境来打分。但如果连训练数据都没有呢？

Agent0 的方案是双 Agent 对抗：一个负责出题，一个负责解题。解题 Agent 变强了，简单题没有训练价值了，出题 Agent 就被迫生成更难的任务，倒逼对方继续进化。

竞争本身就是训练信号。基于 Qwen3-8B 的数学推理提升了 18%，超过了需要人工标注的方案。

05 自我修改：连改进方法本身也在进化

前四种有一个共同前提：改进机制本身是人设计的、固定的。

Meta 的 HyperAgents 打破了这个限制。Task Agent 负责干活，Meta Agent 负责改进——而 Meta Agent 不仅能改 Task Agent 的代码，还能改自己的代码。

实验中最让人印象深刻的现象是：系统自己发明了持久化记忆和性能追踪机制。没有人预设这些功能，Agent 判断自己需要，就写代码给自己加上了。

06 编排自优化：不改 Agent，改它外面的壳

最后一种视角最特别。改的不是 Agent 自身，而是围绕它的编排层——prompt 结构、检索策略、工具调用顺序。

斯坦福的 Meta-Harness 让 Coding Agent 来迭代优化这套脚手架。每一轮读取所有历史记录，提出新方案，跑评估，结果写回文件系统。

论文附录里有一段调试轨迹：Agent 在第3轮发现两次失败的共同原因，主动拆分变量分别测试；第7轮换了思路，只加一个环境快照，成了全局最优。这个过程和一个好的工程师调 bug 几乎一样。

这对产品设计意味着什么

六种机制读完，我想说的不是”这些工具你可以去用”。

它们加在一起，正在让产品设计的几个底层假设发生位移。

假设一：从设计静态能力，到设计成长路径

过去评估一个 AI 功能，问的是”它现在能做什么”。这个问题本身预设了能力是静态的。

但如果 Agent 会自我迭代，更关键的问题变成了：它有没有可以变强的空间？变强的速度够不够快？产品设计的对象，从一个截面变成了一条曲线。

假设二：用户行为本身，正在成为产品能力的一部分

持久记忆类的机制意味着：用户每一次使用，都在给 Agent 提供积累的素材。用户用得越多，Agent 就越懂这个用户，越懂这个领域。

产品的护城河，开始和用户的使用深度绑定在一起。

假设三：产品迭代的主体，不再只是人

过去产品变好，依赖的是产品经理发现问题、工程师改代码、重新上线。

现在有一部分迭代正在发生在这个循环之外——Agent 自己在跑，自己在改，自己在变强。这不是说产品经理可以退场，而是说设计时需要多想一层：我有没有给 Agent 留出自我改进的空间？我的产品架构支不支持这件事发生？

最后说一个判断

我不觉得所有产品团队现在都要立刻去研究这六种机制。

但有一件事值得认真对待：最先把自我迭代机制纳入产品设计的团队，会比别人积累一种很难被复制的优势。不是功能优势，而是时间优势——他们的 Agent 已经在某个垂直领域跑了半年、一年，积累了别人没有的经验库、技能库、改进轨迹。

这种优势不能靠堆资源追上来，因为它需要时间来生长。

而时间，是现在开始跑的人才有的东西。

本文由 @van ner 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

van ner

什么都想知道

7篇作品 4271总阅读量

菜鸟打响阿里“6”上市第一枪，盒马会是“N”又一个吗？

09-281177 浏览

菜鸟打响阿里“6”上市第一枪，盒马会是“N”又一个吗？

一年赚20亿，小杨哥三只羊mcn&直播切片商业模式揭秘

10-2017988 浏览

一年赚20亿，小杨哥三只羊mcn&直播切片商业模式揭秘

大厂开始“去高P”

07-144804 浏览

大厂开始“去高P”

搞直播玩私域，出境游重启马不停蹄

03-187026 浏览

搞直播玩私域，出境游重启马不停蹄

短视频请回答2022：是腾讯的厂花，更是行业的希望

01-124028 浏览

短视频请回答2022：是腾讯的厂花，更是行业的希望

评论

目前还没评论，等你发挥！

集体加码直播电商，谁是今年双11的消费新主场？

11-081197 浏览
舒适不晕系统强：试用苹果 Vision Pro 后，这是我对它的看法

06-133953 浏览
蜂花们“这泼天的富贵”，不能只靠蹭来的流量

09-204757 浏览