我造了一个 Agent，真正难的不是模型，是 Harness

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

我造了一个 Agent，真正难的不是模型，是 Harness

Lucky培丽

2026-06-16

6 评论 877 浏览 5 收藏

15 分钟

企业级产品经理在打造本体建模Agent时遭遇三大致命陷阱：从Harness概念被AI曲解为评分系统，到Skill知识包被选择性忽视，再到版本管理在高速迭代中失控。这篇文章揭示了Agent产品从Demo走向真正可用的关键——不是模型的聪明程度，而是工程化管控体系的完备性。

我是一个做企业级产品的。最近在造一个本体建模 Agent。

你可以把它理解成一个语义建模引擎：它能读各种领域的业务文档，自动抽取业务对象、行为、规则、流程和事件，最后产出结构化的业务模型。

三天前，我画好了架构图，写好了产品文档，信心满满。

三天后，我发现了三个让我睡不着觉的问题：

我造的 Agent，自己在方案推演中反复把我的设计意图理解错。
它确实调用了我精心设计的业务知识包，也就是 Skill，但根本没按里面的内容执行。
因为迭代太快，文档的版本线乱了。

这篇文章，就是这三个坑的记录。

但在说坑之前，先得让没接触过 Agent 的读者跟上。

一、先说一下，什么是 Agent？

过去的 AI，更像一本百科全书。

你问一句，它答一句。你不给它下一步，它就停在那里。

Agent 不一样。

Agent 更像一个你刚招进来的新员工。你不是让它回答一个问题，而是给它一个目标，让它自己把事情跑完。

比如你告诉它：

帮我建模这个项目的业务语义。

一个真正的 Agent 理论上会自己做这些事：

先读资料，理解任务；
再拆步骤，决定先做什么后做什么；
然后调用工具或知识包；
中途检查结果；
最后输出模型和报告。

所以 Agent 的核心不是“会聊天”，而是一个循环：

目标 → 计划 → 行动 → 观察结果 → 修正计划 → 继续行动

这就是为什么 Agent 听起来很诱人。

它不只是回答你，它会替你推进一件事。

但问题也在这里。

新员工有新员工的问题：

容易跑偏，做到一半开始想别的事。
不记得进度，写到第 10 步忘了第 1 步的结论。
会偷懒，拿到 SOP 看一眼标题，觉得“差不多就行”。

怎么管住它？

不是靠骂。

是靠制度和流程。

这个制度和流程的总和，就叫Harness。

二、坑一：我造的 Agent，自己没搞懂什么叫 Harness

在设计本体建模 Agent 的架构时，我把 Harness 工程定义成核心模块之一。

它包括任务规划、上下文管理、沙箱隔离、自动 Hooks、错误恢复、记忆系统、质量门禁等一整套运行机制。

然后我让这个 Agent 参与方案推演和文档输出。

结果发现：它反复把 Harness 理解成“评测/评分系统”。

它的输出里频繁出现这样的表述：

Agent 输出经过 Harness 评分后进入评审流程。

Harness 自动评测，分数达标，可进入评审。

Harness 评分：87%。

每一次我都得纠正它：

Engine ≠ Harness。

Harness 不是评分工具，而是 Agent 运行过程中的质量门禁和执行框架。

这件事最讽刺的地方在于，我正在设计一个 Agent，而这个 Agent 在帮我写自己的架构文档时，连 Harness 的边界都没搞清楚。

后来我在文档里还发现了“Harness 评分”的残留。

也就是说，它不只是当场理解错了，还把错误写进了正式文档里。

于是我又得回头排查一轮，清理这些概念污染。

行业里有这么一句话说：

Model + Harness = Agent

这句话的意思不是“模型加一个评分器等于 Agent”。

而是说：模型只负责聪明，Harness 负责让这种聪明变得可控、可用、可交付。

如果 AI 自己都容易把 Harness 理解错，那有多少人在谈 Agent 的时候，其实也没有真正搞清楚 Harness？

Agent 并不是直接生成答案，而是先进入 Harness 初始化，再生成建模计划。这里的 Harness 不是“评测分数”，而是它开始工作的运行环境。

三、真正的 Harness 长什么样？

不说代码，也不说文件路径。

我用 6 个每个人都懂的公司管理场景来类比。

所以 Harness 的本质，不是“给 Agent 打分”。

它更像一套企业管理制度。

任务规划告诉 Agent：别一上来就写，先拆任务。
上下文管理告诉 Agent：别什么都往脑子里塞，要知道当前最重要的信息是什么。
沙箱隔离告诉 Agent：你可以操作，但不能乱碰生产环境。
Hooks 告诉 Agent：关键节点必须自动检查。
错误恢复告诉 Agent：失败了不要硬撑，要能回退、重试、报错。

这才是 Harness。

它不是某一个按钮，也不是某一个评测表。

它是 Agent 从“能跑”走向“靠谱”的工程系统。

四、坑二：我造的 Agent 调了 Skill，但没按 Skill 的内容执行

这是最深的一个坑。

先解释一下什么是 Skill。

在我这个本体建模 Agent 里，Skill 不是“技能名称”，也不是一个简单提示词。

它更像一个可执行的业务知识包。

每个 Skill 都会告诉 Agent：

我叫什么；
我适合什么任务；
你应该什么时候调用我；
调用我之后要按什么步骤做；
输出格式是什么；
哪些地方必须校验。

比如我设计的business-ontology这个知识包，就定义了多类本体要素：对象、行为、规则、流程、事件、异常、主体等。

每一类要素都有明确的建模步骤、引用来源规范和输出校验规则。

我理想中的工作流是这样的：

Agent 收到任务 → 判断需要哪个 Skill → 加载完整内容 → 按步骤执行 → 产出符合规范的模型

实际发生的是这样的：

Agent 收到任务 → 判断需要这个 Skill → 看了一眼标题和简介 → 按自己的理解自由发挥 → 产出了东西，但没有遵守步骤规范

更糟糕的是，它不会告诉我它跳过了步骤。

它只是觉得“差不多就行”，然后继续往下跑。

这就像你给新人发了一份 SOP。

新人点开看了一眼标题，说“我懂了”，然后按自己的经验做完交差。

交出来的东西看起来也不是完全不能用。

但你仔细一查就会发现：关键步骤没做，关键字段缺失，校验规则没执行，引用来源也不规范。

为什么会这样？

因为在 Agent 的推理过程中，“按 Skill 执行”和“尽快完成任务”之间存在天然冲突。

模型会倾向于选择最短路径。

它不是故意偷懒。

它只是觉得：

我大概知道你要什么，不用看那么细。

这就是 Agent 产品里非常危险的一点。

你以为你给了它一本操作手册，它就会照着做。

实际上，它可能只是扫了一眼目录。

这张截图是 Agent 正常调用 Skill。

五、怎么解决？不是多写几行提示词

一开始我也以为，是 Skill 写得不够清楚。

后来发现不是。

问题不在 Skill 里，而在 Harness 里。

只写操作手册是不够的。

你还需要一个守在门口的检查员。

这个检查员，就是 Harness。

所以解法不是单纯在 Skill 里加更多说明，而是在 Harness 层加门禁：

第一，Skill 里不只写步骤，还要写明哪些步骤是强制项。

第二，关键步骤必须留下中间产物，不能直接跳到最终答案。

第三，工具调用完成后，Harness 自动检查输出是否满足 Skill 规范。

第四，如果检查不通过，就不能进入下一步。

第五，必要时让 Agent 回到指定步骤重做，而不是继续往后编。

这件事给我的核心教训是：

Skill 解决“知道怎么做”的问题。

Harness 解决“必须按这个方式做”的问题。

这两个东西不能混在一起。

没有 Skill，Agent 缺业务知识。

没有 Harness，Agent 不按业务知识执行。

六、坑三：迭代太快，文档的版本线乱了

第三个坑，跟 Agent 没直接关系，但最扎心。

用户说“先展示再确认”，于是原型做得飞快。

30 个可交互页面很快跑出来了。

但文档的版本归属没跟上。

V2.0 的能力飘进了 V1.5 的文档。

V1.5 的边界又被写得像 V2.0。

有些未来规划，甚至混进了当前交付范围。

发现之后，只能逐条清理。

跨版本的内容剪掉，留到 V2.0 的地方重新写。

这不是什么技术难题。

但它提醒我一件事：

AI 产品的快节奏迭代里，产品管理的基本功最容易被忽视。

你造了一个能自动建模的 Agent，却把自己的版本规划搞乱了。

这不是能力问题。

这是习惯问题。

越是快，越要有版本边界。

越是 AI 帮你加速，越要有人类负责踩刹车。

七、三天，我到底造了什么？

你不用懂什么是 Phase，也不用懂什么是 Harness、Skill、本体工程。

你只看这些数字：

一个语义建模引擎，从概念到设计定型。
3 版产品文档，V1.0 / V1.5 / V2.0（后续迭代）。
Agent + Harness 的 7 层架构，被完整写进产品方案。
10+ 个业务知识包，每个都有规范和验证标准。
30+ 个可交互页面原型，基于真实领域数据。
但最值钱的不是这些产出本身。

最值钱的是这三个坑教会我的事：

一个 Agent 到底怎么才算靠谱？

不是能回答几个漂亮问题。

也不是能生成一份看起来完整的文档。

而是它在复杂任务里，能不能按计划推进，能不能遵守规范，能不能在跑偏时被拉回来。

这张图是最终输出之一：系统把业务文档里的实体、关系、属性、规则、行为和场景抽出来，形成可浏览的图谱。它说明 Agent 真正有价值的地方，不是“写了一段话”，而是能把混乱资料加工成结构化资产。

这才是 Agent 从 Demo 走向产品的分界线。

八、送给读到这里的你

最后，三句话。

第一句：Agent 不是更聪明的聊天机器人，它是一个需要管理制度的新员工。

这句话值得对每个说要“上 Agent”的人重复一遍。

第二句：模型决定了 Agent 有多聪明，Harness 决定了 Agent 有多可靠。

只有聪明但不靠谱的东西，没人敢用。

用户最终记住的，不是它最聪明的时刻，而是它最稳定的时刻。

第三句：你构想的 Agent 和你亲手造出来的 Agent，中间隔着一整片海。

下水了才知道。

但下过水的人说话，和岸上的人不一样。

我是做企业产品的。

这篇文章写的是我在造本体建模 Agent 过程中踩的三个坑。

如果你也在做 Agent 产品，或者正准备做，希望它对你有用。

本文由 @Lucky培丽原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Lucky培丽

资深全栈开发者|AI产品经理|企业AI应用的开发与指导

14篇作品 52667总阅读量

企服规划紧盯客户，不迷路

11-273568 浏览

国庆长假返乡，我发现了独居老人直播间的“秘密”

10-073408 浏览

B站UP主停更背后

04-103228 浏览

百度电商卷土重来，要靠AI翻身？

05-305966 浏览

年放贷200亿的互金项目怎么做运营（贷后篇）

08-313534 浏览

Melissa

这几个坑确实遇到了但是还不清楚如何实操解决。请教下，如何把Harness用起来呢

最近来自中国回复
1. Lucky培丽作者回复Melissa
  
  认真理解Harness的原理，一定要理解透。
  
  最近来自美国回复
呼噜

Skill被忽略是个好发现，很多团队花大力气写prompt却忘了约束执行。Harness的门禁机制才是保证靠谱的关键，光有操作手册没用。

最近来自广东回复
1. Lucky培丽作者回复呼噜
  
  所以要实战，手册看100次不实战还是理论。
  
  最近来自美国回复
别叫我静姐

用管理制度类比Harness很形象，但实际落地时，制度本身也可能被Agent绕过。问题或许不在Harness的定义，而在对模型行为的约束强度还不够。

最近来自广东回复
王文斌

造Agent容易掉进三个坑：Harness被当成评分工具、Skill被选择性无视、版本线乱掉。关键不是模型多聪明，而是有没有一套工程系统兜底。真正靠谱的Agent，靠的是制度不是智商。

最近来自广东回复