我造了一个 Agent,真正难的不是模型,是 Harness

0 评论 118 浏览 0 收藏 15 分钟

企业级产品经理在打造本体建模Agent时遭遇三大致命陷阱:从Harness概念被AI曲解为评分系统,到Skill知识包被选择性忽视,再到版本管理在高速迭代中失控。这篇文章揭示了Agent产品从Demo走向真正可用的关键——不是模型的聪明程度,而是工程化管控体系的完备性。

我是一个做企业级产品的。最近在造一个本体建模 Agent。

你可以把它理解成一个语义建模引擎:它能读各种领域的业务文档,自动抽取业务对象、行为、规则、流程和事件,最后产出结构化的业务模型。

三天前,我画好了架构图,写好了产品文档,信心满满。

三天后,我发现了三个让我睡不着觉的问题:

  1. 我造的 Agent,自己在方案推演中反复把我的设计意图理解错。
  2. 它确实调用了我精心设计的业务知识包,也就是 Skill,但根本没按里面的内容执行。
  3. 因为迭代太快,文档的版本线乱了。

这篇文章,就是这三个坑的记录。

但在说坑之前,先得让没接触过 Agent 的读者跟上。

一、先说一下,什么是 Agent?

过去的 AI,更像一本百科全书。

你问一句,它答一句。你不给它下一步,它就停在那里。

Agent 不一样。

Agent 更像一个你刚招进来的新员工。你不是让它回答一个问题,而是给它一个目标,让它自己把事情跑完。

比如你告诉它:

帮我建模这个项目的业务语义。

一个真正的 Agent 理论上会自己做这些事:

  • 先读资料,理解任务;
  • 再拆步骤,决定先做什么后做什么;
  • 然后调用工具或知识包;
  • 中途检查结果;
  • 最后输出模型和报告。

所以 Agent 的核心不是“会聊天”,而是一个循环:

目标 → 计划 → 行动 → 观察结果 → 修正计划 → 继续行动

这就是为什么 Agent 听起来很诱人。

它不只是回答你,它会替你推进一件事。

但问题也在这里。

新员工有新员工的问题:

  • 容易跑偏,做到一半开始想别的事。
  • 不记得进度,写到第 10 步忘了第 1 步的结论。
  • 会偷懒,拿到 SOP 看一眼标题,觉得“差不多就行”。

怎么管住它?

不是靠骂。

是靠制度和流程。

这个制度和流程的总和,就叫Harness

二、坑一:我造的 Agent,自己没搞懂什么叫 Harness

在设计本体建模 Agent 的架构时,我把 Harness 工程定义成核心模块之一。

它包括任务规划、上下文管理、沙箱隔离、自动 Hooks、错误恢复、记忆系统、质量门禁等一整套运行机制。

然后我让这个 Agent 参与方案推演和文档输出。

结果发现:它反复把 Harness 理解成“评测/评分系统”。

它的输出里频繁出现这样的表述:

Agent 输出经过 Harness 评分后进入评审流程。

Harness 自动评测,分数达标,可进入评审。

Harness 评分:87%。

每一次我都得纠正它:

Engine ≠ Harness。

Harness 不是评分工具,而是 Agent 运行过程中的质量门禁和执行框架。

这件事最讽刺的地方在于,我正在设计一个 Agent,而这个 Agent 在帮我写自己的架构文档时,连 Harness 的边界都没搞清楚。

后来我在文档里还发现了“Harness 评分”的残留。

也就是说,它不只是当场理解错了,还把错误写进了正式文档里。

于是我又得回头排查一轮,清理这些概念污染。

行业里有这么一句话说:

Model + Harness = Agent

这句话的意思不是“模型加一个评分器等于 Agent”。

而是说:模型只负责聪明,Harness 负责让这种聪明变得可控、可用、可交付。

如果 AI 自己都容易把 Harness 理解错,那有多少人在谈 Agent 的时候,其实也没有真正搞清楚 Harness?

Agent 并不是直接生成答案,而是先进入 Harness 初始化,再生成建模计划。这里的 Harness 不是“评测分数”,而是它开始工作的运行环境。

三、真正的 Harness 长什么样?

不说代码,也不说文件路径。

我用 6 个每个人都懂的公司管理场景来类比。

所以 Harness 的本质,不是“给 Agent 打分”。

它更像一套企业管理制度。

  • 任务规划告诉 Agent:别一上来就写,先拆任务。
  • 上下文管理告诉 Agent:别什么都往脑子里塞,要知道当前最重要的信息是什么。
  • 沙箱隔离告诉 Agent:你可以操作,但不能乱碰生产环境。
  • Hooks 告诉 Agent:关键节点必须自动检查。
  • 错误恢复告诉 Agent:失败了不要硬撑,要能回退、重试、报错。

这才是 Harness。

它不是某一个按钮,也不是某一个评测表。

它是 Agent 从“能跑”走向“靠谱”的工程系统。

四、坑二:我造的 Agent 调了 Skill,但没按 Skill 的内容执行

这是最深的一个坑。

先解释一下什么是 Skill。

在我这个本体建模 Agent 里,Skill 不是“技能名称”,也不是一个简单提示词。

它更像一个可执行的业务知识包。

每个 Skill 都会告诉 Agent:

  • 我叫什么;
  • 我适合什么任务;
  • 你应该什么时候调用我;
  • 调用我之后要按什么步骤做;
  • 输出格式是什么;
  • 哪些地方必须校验。

比如我设计的business-ontology这个知识包,就定义了多类本体要素:对象、行为、规则、流程、事件、异常、主体等。

每一类要素都有明确的建模步骤、引用来源规范和输出校验规则。

我理想中的工作流是这样的:

Agent 收到任务 → 判断需要哪个 Skill → 加载完整内容 → 按步骤执行 → 产出符合规范的模型

实际发生的是这样的:

Agent 收到任务 → 判断需要这个 Skill → 看了一眼标题和简介 → 按自己的理解自由发挥 → 产出了东西,但没有遵守步骤规范

更糟糕的是,它不会告诉我它跳过了步骤。

它只是觉得“差不多就行”,然后继续往下跑。

这就像你给新人发了一份 SOP。

新人点开看了一眼标题,说“我懂了”,然后按自己的经验做完交差。

交出来的东西看起来也不是完全不能用。

但你仔细一查就会发现:关键步骤没做,关键字段缺失,校验规则没执行,引用来源也不规范。

为什么会这样?

因为在 Agent 的推理过程中,“按 Skill 执行”和“尽快完成任务”之间存在天然冲突。

模型会倾向于选择最短路径。

它不是故意偷懒。

它只是觉得:

我大概知道你要什么,不用看那么细。

这就是 Agent 产品里非常危险的一点。

你以为你给了它一本操作手册,它就会照着做。

实际上,它可能只是扫了一眼目录。

这张截图是 Agent 正常调用 Skill。

五、怎么解决?不是多写几行提示词

一开始我也以为,是 Skill 写得不够清楚。

后来发现不是。

问题不在 Skill 里,而在 Harness 里。

只写操作手册是不够的。

你还需要一个守在门口的检查员。

这个检查员,就是 Harness。

所以解法不是单纯在 Skill 里加更多说明,而是在 Harness 层加门禁:

第一,Skill 里不只写步骤,还要写明哪些步骤是强制项。

第二,关键步骤必须留下中间产物,不能直接跳到最终答案。

第三,工具调用完成后,Harness 自动检查输出是否满足 Skill 规范。

第四,如果检查不通过,就不能进入下一步。

第五,必要时让 Agent 回到指定步骤重做,而不是继续往后编。

这件事给我的核心教训是:

Skill 解决“知道怎么做”的问题。

Harness 解决“必须按这个方式做”的问题。

这两个东西不能混在一起。

没有 Skill,Agent 缺业务知识。

没有 Harness,Agent 不按业务知识执行。

六、坑三:迭代太快,文档的版本线乱了

第三个坑,跟 Agent 没直接关系,但最扎心。

用户说“先展示再确认”,于是原型做得飞快。

30 个可交互页面很快跑出来了。

但文档的版本归属没跟上。

V2.0 的能力飘进了 V1.5 的文档。

V1.5 的边界又被写得像 V2.0。

有些未来规划,甚至混进了当前交付范围。

发现之后,只能逐条清理。

跨版本的内容剪掉,留到 V2.0 的地方重新写。

这不是什么技术难题。

但它提醒我一件事:

AI 产品的快节奏迭代里,产品管理的基本功最容易被忽视。

你造了一个能自动建模的 Agent,却把自己的版本规划搞乱了。

这不是能力问题。

这是习惯问题。

越是快,越要有版本边界。

越是 AI 帮你加速,越要有人类负责踩刹车。

七、三天,我到底造了什么?

你不用懂什么是 Phase,也不用懂什么是 Harness、Skill、本体工程。

你只看这些数字:

  • 一个语义建模引擎,从概念到设计定型。
  • 3 版产品文档,V1.0 / V1.5 / V2.0(后续迭代)。
  • Agent + Harness 的 7 层架构,被完整写进产品方案。
  • 10+ 个业务知识包,每个都有规范和验证标准。
  • 30+ 个可交互页面原型,基于真实领域数据。
  • 但最值钱的不是这些产出本身。

最值钱的是这三个坑教会我的事:

一个 Agent 到底怎么才算靠谱?

不是能回答几个漂亮问题。

也不是能生成一份看起来完整的文档。

而是它在复杂任务里,能不能按计划推进,能不能遵守规范,能不能在跑偏时被拉回来。

这张图是最终输出之一:系统把业务文档里的实体、关系、属性、规则、行为和场景抽出来,形成可浏览的图谱。它说明 Agent 真正有价值的地方,不是“写了一段话”,而是能把混乱资料加工成结构化资产。

这才是 Agent 从 Demo 走向产品的分界线。

八、送给读到这里的你

最后,三句话。

第一句:Agent 不是更聪明的聊天机器人,它是一个需要管理制度的新员工。

这句话值得对每个说要“上 Agent”的人重复一遍。

第二句:模型决定了 Agent 有多聪明,Harness 决定了 Agent 有多可靠。

只有聪明但不靠谱的东西,没人敢用。

用户最终记住的,不是它最聪明的时刻,而是它最稳定的时刻。

第三句:你构想的 Agent 和你亲手造出来的 Agent,中间隔着一整片海。

下水了才知道。

但下过水的人说话,和岸上的人不一样。

我是做企业产品的。

这篇文章写的是我在造本体建模 Agent 过程中踩的三个坑。

如果你也在做 Agent 产品,或者正准备做,希望它对你有用。

本文由 @Lucky培丽 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!