踏马的 Agent

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

赛博禅心

2026-04-15

0 评论 999 浏览 2 收藏

11 分钟

从Prompt Engineering到Context Engineering，再到Harness Engineering——AI圈三次能力跃迁，瓶颈始终在人。不会说话、不会选信息、不会指挥Agent。本文用“马具”隐喻拆解：人从写指令退到设边界，角色持续后撤，但从未离场。

先解释一下标题。Harness 这个词最近在 AI 圈很火，本意是马具，套在马身上让它好好干活

Agent with harness，也是很踏马的

踏马的Agent

这篇文章想聊的事情很简单。过去三年，AI 圈先后流行了三个带「Engineering」的词：Prompt Engineering、Context Engineering、Harness Engineering。每一个新词出来的时候，上一个词就显得不够用了

这三次变化背后有一条线，顺着捋一遍，会发现一些有意思的东西

先学说话

2023 年 ChatGPT 刚火的时候，大家遇到的问题特别朴素：我们其实不太会跟 AI 说话

你随便问它一个问题，它给你一个回答，质量忽高忽低。后来有人发现，你在提示词末尾加一句 let’s think step by step，模型的推理能力就能明显提升。给几个示例（few-shot），输出格式就能稳定下来。再后来有人总结了一整套方法论，按场景分类，每种场景配一套模板

那个阶段的隐含假设很简单：模型够聪明，你不会问而已

在简单任务上，这个假设完全成立。你问一个问题，模型答一个问题，一轮结束。Prompt 写得好就好，写得差就差

但你让模型写一个完整的项目，这套逻辑就开始松了。模型需要知道项目结构、依赖关系、技术栈偏好、现有代码长什么样。这些东西塞不进一句提示词里

会说话是第一课。但光会说话，确实走不太远

然后学选信息

2025 年 9 月，Anthropic 发了一篇工程博客，标题叫「Effective context engineering for AI agents」。开头有一句话说得挺直接：构建 AI 应用，越来越不在于找到正确的措辞，越来越在于回答一个更大的问题：什么样的上下文配置，最可能让模型产生你想要的行为

这就是从 Prompt 到 Context 的换挡

Prompt Engineering 关注的是怎么写指令。Context Engineering 关注的是怎么管理模型在推理时能看到的全部信息：系统指令、工具定义、外部数据、对话历史、MCP 接入的各种服务

模型能力在涨。上下文窗口从 4K 到 128K 再到百万 token。RAG 来了，工具调用来了，MCP 来了。模型能接收的信息量大了好几个数量级。相应的，你能塞给它的东西也多了好几个数量级

你会说话了，但给多了它消化不动，给少了它缺信息，给错了更糟糕

给错了是最要命的。模型会非常认真地基于错误的上下文，产出一个看起来很对、实际上离谱的结果。它不会告诉你「你给我的信息有问题」，它只会老老实实地用错误的前提推出一个自洽的结论

Anthropic 在那篇博客里说，context 是一种有限资源，每一个 token 都有成本。Context Engineering 就是在这个有限窗口里，塞进信号最强的那部分，同时把噪音挡在外面

这个阶段的瓶颈很明确：人不知道该给什么信息

Anthropic 的 Context Engineering 博客，2025 年 9 月

再然后，发现人才是问题

2025 年 11 月，还是 Anthropic，又发了一篇博客，叫「Effective harnesses for long-running agents」。这篇文章记录了一个有点扎心的发现：即使用他们最好的模型 Opus 4.5，配上了上下文管理能力（compaction），让 Agent 在多个上下文窗口里跑长任务，结果还是会出问题。模型要么试图一次性做完所有事，要么跑到一半就觉得「差不多了」提前收工

信息给对了，还是不行

2026 年 2 月，OpenAI 发了一组博客讲 Harness Engineering。他们在内部做了个实验：一个小团队完全不手写代码，靠 Codex Agent 交付了一个大约一百万行代码的产品。工程师干的活从写代码变成了别的东西

一开始他们用一个超长的 AGENTS.md 文件，把所有规则都写进去告诉 Agent。很快就发现不行。上下文窗口有限，一个大文件把任务本身的空间都挤没了。当所有规则都「重要」的时候，Agent 对哪条规则都不上心

文件很快过时，没人维护，Agent 开始被一堆不再成立的规则误导

后来改了。AGENTS.md 缩到 100 行，只当一个目录。架构文档、设计决策、技术规范，全部拆成独立文件，Agent 需要什么就加载什么

但最有意思的变化是思路上的

OpenAI 给 Agent 的代码库设了极其严格的分层依赖规则。业务代码只能单向调用，越界就被系统切断，合并都合并不进去。Anthropic 在 Harness 里设了三个角色：规划师拆需求，生成器写代码，评估器做验收。评估器直接打开产品去点击测试，发现不对直接打回

这些约束有一个共同的特点：人没有告诉 Agent 应该怎么做，人只告诉它哪里不能做

想想看，这个转变其实挺微妙的。从「你应该这样写代码」到「你随便写，但这条线不能碰」。从主动指导变成被动约束。原因说白了就是，人也不知道 Agent 具体每一步应该怎么做，人只知道边界在哪