从 Harness 到 Loop:AI 产品的下一个设计层
AI产品经理的工作范式正在经历深刻变革——从编写静态prompt到设计动态loop机制。当Claude Code的作者宣称"我的工作是写loop"时,这标志着一个新时代的开始:产品经理需要构建包含验收标准、独立评审机制和止损条件的完整循环系统。本文将深入解析loop设计如何成为AI产品的核心竞争力,以及产品经理该如何交付包含判定机制与记忆回路的下一代方案。

前几天 Anthropic 的 Lance Martin 发了篇文章,讲他怎么用 loop 来跑新模型。文章本身是写给工程师的,但我读完的第一反应是:这事跟产品经理的关系,可能比跟工程师的关系还大。
Claude Code 的作者 Boris Cherny 说过一句最近被反复引用的话:他已经不直接 prompt 模型了,”我的工作是写 loop”。几百个 agent 读他的 GitHub 和 Slack,自己决定接下来做什么。
loop 突然火起来,但中文社区的讨论大多停在工程层面:怎么写 bash 循环、怎么配 hook。
我想换个角度聊聊:如果你是一个做 AI 产品的 PM,loop 意味着什么。
先把概念捋清楚:harness 是环境,loop 是机制
去年大家都在谈 harness。模型之外的一切都算 harness:
给它什么工具、什么沙箱、能读哪些文件、有哪些权限。一句话,harness 是模型干活的环境。
但环境是静态的。你给模型配了一间设备齐全的车间,不等于它知道今天该干什么、干到什么程度算完、干砸了怎么办。
loop 补的就是这一层。它是架在 harness 之上的运行机制:模型跑一轮,从环境里收到反馈,对照标准检查,没达标就带着反馈再跑一轮,直到验收通过。Lance 文章里提到的 Claude Code 的 /goal 命令、Claude 托管 Agent 里的 Outcomes,都是把这套机制做成了产品原语。
所以现在的 AI 产品其实有三层:
模型是引擎,harness 是车间,loop 是排班和验收制度。引擎大家都从几家厂商买,车间的搭法也越来越标准化,能拉开差距的开始变成第三层。而机制设计这件事,工程师未必比 PM 更擅长。
Lance 的实验里,藏着两个产品启示
Lance 做了个实验:让模型在 8 张 H100 上自主做机器学习调优,连续跑 8 个小时,自己改代码、跑训练、读日志、决定下一个实验。细节不展开,我只说两个对产品人有用的发现。
第一个:他给模型的不是操作步骤,而是一份验收清单。九条可检查的标准,比如”必须先跑基线”、”至少做 20 组实验”。模型怎么达成,随它。
这其实就是 PRD 思路的迁移。过去我们写需求文档是给人看的,要描述流程和交互;给 loop 写的”需求文档”是一份 rubric,核心只有一个问题:什么状态算完成,怎么客观地检查。比起规定怎么做,说清什么算做完要紧得多。一条模糊的标准(”代码质量要高”)会让整个 loop 空转,换成可检查的写法(”测试全过且无新增 lint 报错”)它才收敛得了。
第二个发现更有意思:不能让模型自己给自己打分。
Lance 提到,模型自我批判的效果不好,它会倾向于认可自己刚做完的东西。有效的做法是再开一个独立的”验收 agent”,在干净的上下文里打分,跟执行者完全隔离。运动员不能兼任裁判,对模型也一样。
这对产品设计的含义很直接:在你的 AI 产品里,”判定任务完成”应该是一个独立的机制,而不是执行流程的最后一步。谁来验收、不通过怎么打回?验收者能看到哪些信息,会不会被执行过程的叙述带偏?这些都得画进产品方案。
记忆:跨会话的外循环
文章后半段讲记忆,我觉得是更被低估的部分。
如果说自我纠错是会话内的小循环,记忆就是跨会话的外循环:
这次踩的坑,下次别再踩。Lance 用一个基准测试对比了三代模型怎么用记忆,三代都在记,差距体现在记忆的深度上。他描述了一个五步的递进:出错并记下来,弄清楚为什么错,验证自己的诊断,把诊断提炼成通用规则,最后在新任务里直接查规则而不是重新踩坑。
弱一点的模型停在第一步,记忆库就是一堆错题集和猜测,下次也想不起来翻。强的模型能走完全程,把教训变成规则。
做过记忆功能的 PM 应该都有体感:
大部分产品的”记忆”就是存聊天历史,本质是个回收站。Lance 这个递进给了一个更好的设计框架。记忆功能的价值不在存储,而在回路是否闭合:写进去的东西经过了验证吗?提炼成可复用的形式了吗?下次任务开始时,它会被读到吗?三个环节断掉任何一个,记忆就只是占地方的日志。
反过来,回路一旦闭合,这部分积累很难被抄走。模型能力人人都买得到,但你的产品在这个用户身上验证过的那些规则,竞品拿不到。
那 PM 到底要交付什么
说点实操的。如果你在做 agent 类产品,我觉得有四个问题值得在方案评审之前先想清楚。
任务的”完成”由谁判定、依据什么标准?反馈信号从哪里来,是测试结果、用户行为,还是独立的评审 agent?loop 什么时候必须停,迭代次数上限和预算上限是多少?记忆写入什么、何时被消费?
第三个问题单独说一句。loop 不会自己停,停止条件是设计出来的。Uber 今年给工程师设了每人每工具每月 1500 美元的 AI 开支上限,因为年度预算四个月就烧完了。一个没有止损机制的 loop,要么烧钱,要么”规模化地生产自信的错误”。止损听起来是成本问题,等账单或者错误交到用户手上,就变成信任问题了。
这两年这个岗位的工作对象一直在上移:
先是写 prompt,后来管上下文,现在到了设计 loop。交付物也跟着变了,以前是界面和流程图,现在还要加上一份验收标准、一个判定机制和一组止损条件。
模型还会继续变强。我的判断是,这反而让机制设计更值钱:引擎越猛,方向和刹车越不能省。
本文由 @John 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议

起点课堂会员权益





定义loop是否有效,关键指标可以是任务完成率、迭代次数和平均每次反馈的成本,三者需要平衡。
独立评审agent虽好,但会增加系统复杂度和延迟,对于实时性要求高的场景(如智能客服),可能需要折中方案而非完全隔离。