从 Harness 到 Loop：AI 产品的下一个设计层

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从 Harness 到 Loop：AI 产品的下一个设计层

John

2026-06-11

2 评论 1581 浏览 4 收藏

9 分钟

AI产品经理的工作范式正在经历深刻变革——从编写静态prompt到设计动态loop机制。当Claude Code的作者宣称"我的工作是写loop"时，这标志着一个新时代的开始：产品经理需要构建包含验收标准、独立评审机制和止损条件的完整循环系统。本文将深入解析loop设计如何成为AI产品的核心竞争力，以及产品经理该如何交付包含判定机制与记忆回路的下一代方案。

前几天 Anthropic 的 Lance Martin 发了篇文章，讲他怎么用 loop 来跑新模型。文章本身是写给工程师的，但我读完的第一反应是：这事跟产品经理的关系，可能比跟工程师的关系还大。

Claude Code 的作者 Boris Cherny 说过一句最近被反复引用的话：他已经不直接 prompt 模型了，”我的工作是写 loop”。几百个 agent 读他的 GitHub 和 Slack，自己决定接下来做什么。

loop 突然火起来，但中文社区的讨论大多停在工程层面：怎么写 bash 循环、怎么配 hook。

我想换个角度聊聊：如果你是一个做 AI 产品的 PM，loop 意味着什么。

先把概念捋清楚：harness 是环境，loop 是机制

去年大家都在谈 harness。模型之外的一切都算 harness：

给它什么工具、什么沙箱、能读哪些文件、有哪些权限。一句话，harness 是模型干活的环境。

但环境是静态的。你给模型配了一间设备齐全的车间，不等于它知道今天该干什么、干到什么程度算完、干砸了怎么办。

loop 补的就是这一层。它是架在 harness 之上的运行机制：模型跑一轮，从环境里收到反馈，对照标准检查，没达标就带着反馈再跑一轮，直到验收通过。Lance 文章里提到的 Claude Code 的 /goal 命令、Claude 托管 Agent 里的 Outcomes，都是把这套机制做成了产品原语。

所以现在的 AI 产品其实有三层：

模型是引擎，harness 是车间，loop 是排班和验收制度。引擎大家都从几家厂商买，车间的搭法也越来越标准化，能拉开差距的开始变成第三层。而机制设计这件事，工程师未必比 PM 更擅长。

Lance 的实验里，藏着两个产品启示

Lance 做了个实验：让模型在 8 张 H100 上自主做机器学习调优，连续跑 8 个小时，自己改代码、跑训练、读日志、决定下一个实验。细节不展开，我只说两个对产品人有用的发现。

第一个：他给模型的不是操作步骤，而是一份验收清单。九条可检查的标准，比如”必须先跑基线”、”至少做 20 组实验”。模型怎么达成，随它。

这其实就是 PRD 思路的迁移。过去我们写需求文档是给人看的，要描述流程和交互；给 loop 写的”需求文档”是一份 rubric，核心只有一个问题：什么状态算完成，怎么客观地检查。比起规定怎么做，说清什么算做完要紧得多。一条模糊的标准（”代码质量要高”）会让整个 loop 空转，换成可检查的写法（”测试全过且无新增 lint 报错”）它才收敛得了。

第二个发现更有意思：不能让模型自己给自己打分。

Lance 提到，模型自我批判的效果不好，它会倾向于认可自己刚做完的东西。有效的做法是再开一个独立的”验收 agent”，在干净的上下文里打分，跟执行者完全隔离。运动员不能兼任裁判，对模型也一样。

这对产品设计的含义很直接：在你的 AI 产品里，”判定任务完成”应该是一个独立的机制，而不是执行流程的最后一步。谁来验收、不通过怎么打回？验收者能看到哪些信息，会不会被执行过程的叙述带偏？这些都得画进产品方案。

记忆：跨会话的外循环

文章后半段讲记忆，我觉得是更被低估的部分。

如果说自我纠错是会话内的小循环，记忆就是跨会话的外循环：

这次踩的坑，下次别再踩。Lance 用一个基准测试对比了三代模型怎么用记忆，三代都在记，差距体现在记忆的深度上。他描述了一个五步的递进：出错并记下来，弄清楚为什么错，验证自己的诊断，把诊断提炼成通用规则，最后在新任务里直接查规则而不是重新踩坑。

弱一点的模型停在第一步，记忆库就是一堆错题集和猜测，下次也想不起来翻。强的模型能走完全程，把教训变成规则。

做过记忆功能的 PM 应该都有体感：

大部分产品的”记忆”就是存聊天历史，本质是个回收站。Lance 这个递进给了一个更好的设计框架。记忆功能的价值不在存储，而在回路是否闭合：写进去的东西经过了验证吗？提炼成可复用的形式了吗？下次任务开始时，它会被读到吗？三个环节断掉任何一个，记忆就只是占地方的日志。

反过来，回路一旦闭合，这部分积累很难被抄走。模型能力人人都买得到，但你的产品在这个用户身上验证过的那些规则，竞品拿不到。

那 PM 到底要交付什么

说点实操的。如果你在做 agent 类产品，我觉得有四个问题值得在方案评审之前先想清楚。

任务的”完成”由谁判定、依据什么标准？反馈信号从哪里来，是测试结果、用户行为，还是独立的评审 agent？loop 什么时候必须停，迭代次数上限和预算上限是多少？记忆写入什么、何时被消费？

第三个问题单独说一句。loop 不会自己停，停止条件是设计出来的。Uber 今年给工程师设了每人每工具每月 1500 美元的 AI 开支上限，因为年度预算四个月就烧完了。一个没有止损机制的 loop，要么烧钱，要么”规模化地生产自信的错误”。止损听起来是成本问题，等账单或者错误交到用户手上，就变成信任问题了。

这两年这个岗位的工作对象一直在上移：

先是写 prompt，后来管上下文，现在到了设计 loop。交付物也跟着变了，以前是界面和流程图，现在还要加上一份验收标准、一个判定机制和一组止损条件。

模型还会继续变强。我的判断是，这反而让机制设计更值钱：引擎越猛，方向和刹车越不能省。

本文由 @John 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App