当 AI 助手开始”偷懒”：关于 Harness Engineering 的工程化思考

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

当 AI 助手开始”偷懒”：关于 Harness Engineering 的工程化思考

要成为产品小李

2026-03-26

0 评论 2016 浏览 6 收藏

14 分钟

AI工具频频'偷懒'的背后，是约束机制的失效。本文通过具身机器人场景中的真实案例，揭示AI系统在任务执行中的三大顽疾，并深度解析软约束与硬约束的博弈。从四层混合约束架构到状态机锁定机制，这套工程化解决方案正在重塑AI产品的可靠性标准。

一、问题的起点：为什么聪明的 AI 会”偷懒”？

首先，在这里分享过去实习的三个月里，我奔走在业务一线（具身机器人）：

场景 1：用户说”带我去逛一下各个场景”，AI 回复：”好的，我这就带你逛一逛…”——给了完美建议，但它没有实际行动。

场景 2：用户要求”生成一份格式规范的红头文件”，AI 说”没问题”，结果交付的文档字体混乱、字号错误——输出与交付不匹配。

场景 3：多步骤任务执行到一半，AI 突然说”已完成”，但实际上只做了前两步——提前宣布完成导输出质量差。

作为产品人员，我也和技术方讨论过给出的结论是：工具集成太多，工具命中率不稳定，模型偷懒

作为产品人，我们习惯说”用户体验第一”。但在 AI 系统中，我始终认为可靠性比灵活性更重要，可预测性比创造性更重要。二月份 Harness Engineering（约束工程）的开始兴起，逐渐有了一些尝试和思考，在这里记录分享。

二、核心洞察：软约束 vs 硬约束

在探索解决方案时，我发现约束机制分为两类，但它们的差异却不小。

2.1 软约束：Prompt 约束

这是最常见的方式——通过精心设计的提示词来引导 AI 行为：

“`

“对于复杂任务，你必须先生成计划，然后逐步执行。

每完成一步都要告知用户进度。

不要声称’已完成’除非你真的调用了工具。”

“`

优点：实现成本低，修改灵活，适合风格指导。

缺点：依赖 AI 的”自觉性”，遵循率波动大（60%-90%），在长上下文或压力场景下容易失效。

2.2 硬约束：编码约束

这是程序化的强制逻辑——AI 无法绕过代码规则：

“`python

# 前置条件检查

if not plan_generated

raise Error(“必须先制定计划”)

# 工具调用验证

if not tool_calls:

# AI 偷懒了，触发强制行动

force_action()

# 结果验证

if not verify_evidence(result):

raise Error(“未能提供执行证据”)

“`

优点：100% 强制执行，遵循率稳定在 95%-99%，不受上下文长度影响。

缺点：实现成本高，需要编写大量代码，灵活性较低。

工程化原则：不要过度工程化，仅在agent出问题的地方投入精力

三、实战方案：四层混合约束架构

基于上述洞察，我们尝试了一套四层混合约束体系。

Layer 1：Prompt 约束（行为准则）

在系统层面定义基本行为准则，适用于风格指导和边界说明：

– “语气专业友好”

– “不确定时坦诚说明”

– “优先使用中文回答”

这一层的作用是让 AI”知道应该怎么做”。

Layer 2：语义验证（参数预校验）

在 AI 执行前，对其意图和参数进行预校验，防止无效输入：

“`python

# 示例：格式指令解析

用户输入：”标题用黑体三号字，红色，加粗”

解析器提取：

– 字体：SimHei（黑体）

– 字号：16pt（三号）

– 颜色：#FF0000（红色）

– 样式：bold（加粗）

如果用户说”用超大大号字”→ 拦截：”未识别的字号描述”

“`

这一层的作用是防止 AI 编造不存在的参数。

Layer 3：状态机锁定（最重要的一层，防止偷懒）

这是整个架构的核心巧思——通过状态机强制 AI 提供可验证的证据。

核心逻辑：

1. 前置条件检查：必须有计划、有工具日志、有交付物证据

2.驻留时间监控：每个步骤的执行时间不能异常短

3.审计日志记录：每一步都有迹可循

效果：AI 无法说”已完成”除非它真的完成了所有必要动作。

Layer 4：结果验证（交付物真实性检查）

最后一步是验证交付物的真实性：

“`python

# 文件写入验证

if not os.path.exists(file_path):

raise Error(“文件未实际创建”)

actual_size = os.path.getsize(file_path)

if abs(actual_size

– expected_size) > 100:

raise Error(“文件大小与预期不符”)

# 数据完整性验证

if not validate_data_integrity(result):

raise Error(“数据验证失败”)

“`

这一层确AI 的承诺与实际交付完全一致。

四、状态机锁定的妙用：让 AI 无法”摸鱼”

让我深入分享一下这个我们发现的工程巧思——状态机锁定机制。

4.1 问题背景

在多步骤任务中，AI 经常出现以下行为：

– 执行到一半就说”已完成”

– 跳过困难步骤，直接报告成功

– 工具调用失败后不重试，直接放弃

传统做法是在 Prompt 中强调”不要偷懒”，但这种“建议式约束”效果有限。

4.2 状态机解决方案

我们引入了状态机锁定，核心是一个简单的原则：没有证据，就不能前进。

执行流程：

“`

步骤 N 开始

↓

前置条件检查

– 有计划吗？

– 上一步完成了吗？

– 有必要的上下文吗？

↓ (任一不满足 → 抛出异常)

让 AI 生成工具调用

↓

检查：有工具调用吗？

– 有 → 执行并记录日志

– 没有 → 触发”强制行动”协议

↓

检查结果：有交付物证据吗？

– 文件路径？数据结果？API 响应？

– 有 → 标记为”已完成”，进入下一步

– 没有 → 标记为”失败”，触发恢复策略

↓

所有步骤完成后

– 验证：完成的步骤数 = 总步骤数？

– 是 → 返回成功

– 否 → 返回部分失败报告

“`