从一句话到一套系统：一个提示词工程的真实进化记录

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从一句话到一套系统：一个提示词工程的真实进化记录

玉子酱

2026-06-29

1 评论 600 浏览 0 收藏

12 分钟

提示词工程正在经历一场安静的范式转移。从写好一句指令，到给 AI 设计一整套运行环境，这件事的含义已经完全不同。

前段时间翻到了以前做的一份 Skill 文件。打开一看，400 多行。里面包括人设定义、写作流程、四层质检体系、禁用词清单、角色边界划分，还有一份风格样本库。在任何对话里一键调用，AI 就能按流程自动执行。

我盯着这个文件看了一会儿，想起当初做它的时候，起点只是一句提示词——”帮我写一篇有自己判断和风格的深度内容。” 就这么一句话，原以为半小时能搞定，结果越改越大、越改越复杂，改到后来，它已经完全不是一段提示词了。

借着这次翻出来的机会，我想把当时的经历理一遍——因为这个从”一句提示词”变成”一套系统”的过程，恰好对应了提示词工程这两年正在发生的变化。

一句指令能承载的东西，比你以为的少得多

最开始的问题很简单——AI 写出来的东西不像我。

格式工整，逻辑通顺，小标题和总结都有。但读起来总觉得哪里不对。开头永远是”在当今人工智能快速发展的时代”，结尾永远是”希望本文对你有所帮助”。换个主题再写一篇，还是这个壳。

我以为是指令写得不够细，于是开始加要求。语气要口语化。不要用”赋能””闭环”。要有个人判断。每段不超过五句话。指令从三行写到三十行，但没什么用。AI 会在前几段配合你，到后半段就开始”选择性遗忘”——你明确说了不要用的词，它照用不误。

这个阶段我反复改了好几版，有一阵甚至怀疑是不是模型本身的问题。后来才想明白，问题不在措辞。一句指令能承载的信息量是有上限的，不管你怎么精心打磨，它依然只是一句话。你告诉它”要像真人写”，但它不知道”真人”是谁、这个人写东西什么风格、什么是”好”什么是”不好”。

它缺的不是指令，是背景信息。

给 AI 看几篇好文章——比写一百条规则管用

转折发生在我换了个思路之后。

与其告诉 AI “好文章应该怎么写”，不如直接让它看几篇。我选了几篇高质量的文章，逐篇拆解——开头怎么写、结构怎么搭、比喻怎么用、判断怎么下——整理成一份”风格样本库”。同时做了一份”人设卡”：我的职业背景、擅长领域、写作偏好。两份文件加起来，相当于告诉 AI”你在帮一个什么样的人、写一种什么样的东西”。

效果立竿见影。AI 写出来的东西开始有了方向感。它知道了好文章大概长什么样，也知道了这个人想要什么风格。跟之前那种千篇一律的模板感比，差别很明显。

这其实就是 Context Engineering，上下文工程。Andrej Karpathy 在 2025 年给过一个被广泛引用的定义：在上下文窗口里填入恰到好处的信息。他说 LLM 是 CPU，上下文窗口是 RAM，Context Engineering 就是管理这块”工作记忆”的学问。Shopify CEO Tobi Lütke 同期也说过，这个词比 Prompt Engineering 更准确。

AI 开始”自由发挥”了

有了样本库和人设卡之后，AI 确实写得更好了，但好景不长——它开始过度模仿。样本库里有一篇文章用了”虚构人物演示”的手法，结果 AI 每篇技术文都要虚构一个”小明”出来。另一篇用了”排除法论证”，它就每篇都先否定方案A再否定方案B。样本库变成了模具。

更严重的是编造。有一次我检查初稿，发现 AI 替我写了一段”我在某公司做了一个 AI 项目的经历”。那件事从来没发生过。它还喜欢替读者下定义——”大部分人都有过这种感受”。我当时在想，你如何能代替大部分人呢？

还有一些问题也随之暴露。”就像””你发现了吗””说到底”这些连接词，每篇都出现三四次。每篇结尾都是”回到那个XX”的回环结构。一篇单独读没感觉，两篇连着读就能看出套路。

这些问题指向同一个根源：AI 有了信息，但没有规则。它知道”好文章长什么样”，但不知道什么不能做。

搭规则的过程比写文章还费脑子

举个例子。拿编造问题来说，我加了一条”真实性红线”：没有真实素材就不许假装亲历。但紧接着就遇到一个很纠结的问题——用假设人物演示通用现象算不算编造？比如”小红第一次用导航走了一条陌生的路，结果被带到了断头路”，小红不是真人，但被导航坑过是很多人都有的体验。这到底算编造还是举例？光这一条边界的界定，我就反复想了很久。

类似的规则越加越多。哪些事必须我自己来、哪些可以交给 AI；写完之后怎么检查、检查不过怎么处理；哪些连接词用多了会暴露机械感、哪些句式不能篇篇重复。每加一条，都是因为踩过一次坑——不是我提前设计好的，是问题逼着我一条条补上去的。

加完这些规则之后，我看了看这个文件的体量——400 多行了。人设定义、背景资料、执行流程、质检体系、禁止行为清单、角色权限划分——怎么看都不是一段提示词了。

Mitchell Hashimoto（HashiCorp 联合创始人）在 2026 年初给过这类实践一个名字——Harness Engineering。他的核心论点是：Agent 本身不难，Harness 才难。用规则、反馈循环和验证机制去约束 Agent 的行为空间，反而能提高产出质量和可靠性。我看到这个定义的时候心想，这不就是我一直在干的事吗。

我走的路，整个行业也在走

后来我把自己的经历跟行业的发展对了一下，发现节奏几乎一致。

2023 年大家讨论的还是”怎么写好一句提示词”——那时候满屏都是提示词模板和技巧分享，所有人的注意力都在措辞上。到了 2025 年，Karpathy 和 Shopify CEO 把 Context Engineering 推到台前，讨论的焦点变了：光打磨措辞不够，你得管理 AI 的”工作记忆”。

2026 年的变化更大。Hashimoto 提出 Harness Engineering，关注点从”给什么信息”上升到”设计什么运行环境”。而最近几个月，Loop Engineering 的概念开始冒头——Claude Code 创造者 Boris Cherny 说了一句话被到处引用：”我不给 AI 写指令了，我有循环在跑，它们自己决定下一步做什么。”

从写一句话，到管理信息，到设计规则，到构建自运转系统。关注点一级级上移，人的角色也在变——从写指令的人，变成了设计系统的人。