别只盯着 Harness 了,多 Agent 真正缺的是“治理系统”

CW3
0 评论 431 浏览 3 收藏 16 分钟

随着AI从单一执行者演变为多Agent协作团队,Harness Engineering已不足以应对复杂系统的管理挑战。本文提出Governance Engineering概念,揭示如何在AI团队中建立目标设定、冲突仲裁、迭代边界和风险追溯的顶层机制,为产品经理提供应对AI组织化协作的治理框架。

最近一段时间,Harness Engineering 被讨论得很多。

这不奇怪。

过去几年,我们和 AI 打交道的方式确实变了好几轮。最早大家研究 Prompt,重点是怎么把一句话说清楚。后来开始讲 Context,发现只会提问不够,还得把业务背景、数据、约束一起给到模型。再往后,Agent 能调用工具、能执行任务,大家又开始关心 Harness,也就是怎么给 AI 设流程、设边界、设校验。

这些东西都重要。

但我有一个感觉:如果 AI 产品继续往多 Agent 协同走,只讨论 Harness 可能不够了。

Harness 更像是给每个 Agent 写岗位说明书。这个角色能做什么,不能做什么,做到哪一步要停下来,哪些动作必须人工确认,结果怎么验收。

如果是单个 Agent,这套方法挺有效。比如一个写代码 Agent、一个客服 Agent、一个内容生成 Agent,只要任务边界比较稳定,规则写清楚,基本能跑起来。

麻烦出现在多 Agent 协同之后。

产品 Agent 想把体验做完整,开发 Agent 想控制复杂度,测试 Agent 提醒上线风险,运营 Agent 又盯着活动窗口期。每个角色单独看都没错,但放在一个系统里,事情就开始变复杂。

这时问题已经不是“某个 Agent 的 SOP 写得不够细”,而是整个 AI 团队缺少一套更上层的管理制度。

我暂时把它叫做 Governance Engineering。

这个词听起来有点重,但说白了,就是给 AI 团队设计一套“公司制度”:目标怎么定,冲突谁来判,哪些风险不能碰,出了问题怎么追溯,规则自己更新时又不能越过哪些边界。

一、Prompt、Context、Harness,其实都是管理方式的变化

很多技术词一流行,就容易被讲得很玄。

但如果换成产品经理熟悉的场景,它们并不陌生。

Prompt Engineering 解决的是“怎么把需求说清楚”。

这就像你带一个刚入职的实习生。你只说“帮我做个活动方案”,对方大概率会给你一份没什么特色的模板。但如果你说清楚目标用户、活动目的、预算限制、交付格式和判断标准,结果通常会靠谱很多。

所以 Prompt 的本质,不是黑话,而是需求表达能力。

Context Engineering 解决的是“怎么把背景给完整”。

很多时候,AI 不是不聪明,而是不知道现场发生了什么。你让它写运营方案,如果只给一句“提升复购”,它只能给你一套通用动作。但如果你补充用户分层、历史活动数据、预算、人群限制、渠道情况,它才可能写出更接近业务现场的东西。

这和产品经理写需求一样。PRD 里只有功能描述是不够的,还要讲清楚业务背景、用户场景、边界条件和历史包袱。

Harness Engineering 解决的是“怎么让 Agent 按规则干活”。

当 AI 不只是回答问题,而是能调用工具、执行任务、串流程时,就必须加边界。哪些操作可以自动完成,哪些必须人工确认,哪些数据不能碰,失败后怎么回滚,这些都是 Harness 要解决的问题。

所以这几次变化,本质上不是技术名词换了一轮,而是我们管理 AI 的方式在变:

从管一句话,到管上下文,再到管一个执行角色。

但现在的问题是,AI 正在从“一个执行角色”变成“多个角色组成的小团队”。

团队一旦出现,就不能只靠岗位 SOP 了。

二、Harness 解决不了多 Agent 的组织问题

假设你做了一个 AI 产品研发系统,里面有产品 Agent、开发 Agent、测试 Agent、运维 Agent。

你当然可以给每个 Agent 写 Harness。

  • 产品 Agent 负责拆需求。
  • 开发 Agent 负责写代码。
  • 测试 Agent 负责找问题。
  • 运维 Agent 负责部署和监控。

看起来很完整。

但真正跑起来以后,问题往往不出在单个角色身上,而是出在角色之间。

比如产品 Agent 认为某个功能是核心体验,必须做;开发 Agent 认为实现成本太高,建议砍掉;测试 Agent 发现边界风险,要求延期;运营 Agent 又觉得活动窗口期不能错过。

这时候谁说了算?

如果没有上层目标和仲裁规则,系统就会变成一种很尴尬的状态:每个 Agent 都在认真工作,但整体方向越来越乱。

还有一种情况也很常见。

你最开始的目标是提升 7 日留存,所以给各个 Agent 配了一套流程。过两周业务目标变成提升 30 日复购,原来的规则就不太适用了。

如果每次目标变化,都要重新改一遍每个 Agent 的 SOP,那 Harness 很快就会变成新的维护负担。

更麻烦的是追责。

线上出了问题,产品 Agent 说需求没错,开发 Agent 说我是按需求实现的,测试 Agent 说这个边界没被覆盖到。每个环节似乎都有理由,但系统层面就是出事了。

这类问题,靠“把单个 Agent 的规则写得更细”很难解决。

因为它们不是岗位问题,而是组织问题。

三、Governance 到底要管什么?

我理解的 Governance Engineering,不是再造一个更复杂的流程,也不是给产品套一个新概念。

它真正要解决的,是四件很朴素的事。

第一,顶层目标。

一个 AI 系统必须知道自己最终服务什么目标。

比如一个电商运营系统,目标不是“多发几条营销内容”,而是提升复购,同时不能虚假宣传,不能过度打扰用户,不能越过预算和数据合规红线。

如果目标不写在系统最上层,下面每个 Agent 都可能优化局部指标,最后反而伤害整体结果。

第二,冲突仲裁。

多 Agent 协同一定会有冲突。产品体验、开发成本、合规要求、运营效率,本来就经常互相拉扯。

Governance 要做的,不是消灭冲突,而是提前定义冲突出现时怎么判断。

比如用户安全高于转化效率,合规要求高于增长目标,预算确认高于自动执行。

这样系统遇到冲突时,不至于每次都重新猜。

第三,迭代边界。

现在很多 Agent 已经可以复盘自己的执行结果,甚至生成新的策略。这个能力很有价值,但也很危险。

一个运营 Agent 可能发现某种触达方式转化更高,于是自动提高触达频率。短期看,指标可能变好;长期看,可能变成骚扰用户,甚至触碰平台规则。

所以 Governance 不是不让 AI 自我优化,而是规定:你可以优化,但不能突破哪些边界;你可以生成新规则,但哪些规则必须经过校验;你可以自动执行,但哪些动作必须留痕。

第四,风险和追责。

企业级 AI 系统最怕的不是出错,而是出错后不知道为什么错、谁触发的、影响范围多大、怎么停下来。

Governance 必须让关键行为可追溯:哪个 Agent 做了什么判断,基于什么数据,调用了什么工具,影响了哪些用户,是否经过确认。

没有这层机制,AI 系统越自动化,风险反而越难控制。

四、几个常见场景,其实已经在靠治理能力兜底

Governance 听起来像一个新词,但它对应的问题并不新。

比如 AI 参与产品研发。

一个多 Agent 研发系统,不只是让产品 Agent 写需求、开发 Agent 写代码、测试 Agent 跑用例这么简单。真正麻烦的是:需求变了,流程怎么调整?开发和产品冲突时,谁来判?代码能不能直接上线?高风险改动要不要人工确认?

这些都不是单个 Agent 的能力问题,而是系统治理问题。

再比如 AI 做用户运营。

大促期间要转化,日常运营要留存,新品发布要拉新。运营目标一直在变,如果只靠固定 SOP,每次活动都要重新配置一遍规则。

更好的方式是先定清楚顶层约束:不能违规营销,不能过度打扰用户,不能泄露用户数据,涉及预算必须人工确认。然后再让不同 Agent 在这个边界内调整策略。

内容生产也是一样。

很多团队已经让 AI 参与选题、写稿、审核和发布。但真正决定系统能不能长期跑下去的,不是某个写稿 Agent 文笔有多好,而是有没有原创性校验、品牌调性校验、敏感内容拦截、人工终审和责任留痕。

这些机制放在一起,才是内容 AI 系统真正的安全感。

所以 Governance 不是一个离业务很远的抽象概念。它其实就是把产品经理过去做的目标管理、流程管理、风险管理,放到了 AI 系统里。

五、别急着堆 Agent,先把约束想清楚

很多团队做 AI 产品时,容易有一个误区:觉得角色越多、工具越多、流程越复杂,产品就越高级。

但真实情况往往相反。

AI 系统越复杂,越需要先把约束放在前面。就像我们做一个普通产品,不会一上来就堆功能,而是先想清楚:这个产品解决谁的问题,边界在哪里,哪些事情不能做,出了问题怎么兜底。

做 AI 产品也是一样。

你不一定要一开始就搭一个很复杂的多 Agent 系统。更重要的是先回答几个问题:

  • 这个 AI 系统的最高目标是什么?
  • 哪些操作必须人工确认?
  • 哪些风险一旦出现要立刻熔断?
  • 规则可以自动迭代到什么程度?
  • 出了问题以后,能不能追溯到具体决策链路?

这些问题想不清楚,Agent 越多,失控越快。

所以 Governance 的核心不是“管得更细”,而是“先把边界定清楚”。先有顶层目标、核心规则和风险闭环,再往里面填 AI 能力,系统才有可能稳定运行。

六、产品人的能力,只是换了一个使用场景

很多产品人会担心,AI 会不会取代产品经理。

我觉得这个问题要拆开看。

如果一个产品经理的工作只是整理需求、写文档、跟进排期,那确实会被 AI 影响。因为这些动作里,有很大一部分会被工具加速,甚至被自动化。

但如果一个产品经理真正负责的是判断目标、做取舍、协调资源、控制风险,那他的价值反而会更明显。

因为多 Agent 系统越复杂,越需要有人回答这些问题:

  • 这个业务目标到底值不值得做?
  • 增长、体验、成本和合规冲突时,优先级怎么排?
  • 哪些风险宁可牺牲效率也不能碰?
  • 哪些决策可以交给 AI,哪些必须留在人手里?
  • 这个系统出了问题以后,谁能解释清楚发生了什么?

这些问题,不是写几个 Prompt 就能解决的。

过去产品经理管理的是用户需求、业务流程、研发资源和项目节奏。接下来,只是管理对象变了:从“人和系统”,变成“人、AI 和业务生态”。

所以产品经理不一定要把自己变成算法工程师,也没必要追着每一个新概念跑。更重要的是,把原来做产品规划、用户研究、项目管理、合规风控的能力,迁移到 AI 系统治理里。

这可能才是 AI 时代产品经理更值得投入的方向。

结尾

从 Prompt 到 Context,再到 Harness,本质上都是一件事:我们在学习如何驾驭一个越来越自主的系统。

  • Prompt 让 AI 听懂单次需求。
  • Context 让 AI 进入真实业务背景。
  • Harness 让 AI 按规则完成任务。

而 Governance 要解决的是,当多个 AI 开始协作时,整个系统如何不跑偏、不失控、可追责。

所以,Harness 的流行不是终点。它更像是一个信号:AI 产品已经走到“组织化协作”的阶段了。

接下来,真正值得产品人关注的,不只是某个 Agent 能不能完成任务,而是一群 Agent 如何围绕同一个目标,长期、稳定、可控地运转。

能把这件事设计好的人,不一定是最懂模型的人,但一定要懂业务、懂取舍、懂风险,也懂系统如何被管理。

这件事听起来新,其实产品经理并不陌生。我们过去一直在做类似的事,只是这一次,团队里多了一批不会喊累、也更容易失控的 AI。

本文由 @CW3 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自作者提供

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!