你真的会用AI吗?/goal使用心得分享
三大AI工具Claude Code、Codex、Hermes同步推出的/goal功能,直击AI'偷懒'痛点。这个看似简单的指令背后,隐藏着从'context anxiety'到自我监督机制的智能突破。本文将深度拆解如何通过五要素任务描述和六步评分标准,把你的主观判断转化为AI可执行的规则,实现从'模糊感觉'到'精准管理'的跃迁。

Claude Code、Codex、Hermes 三家在 5 月份推出了同一个新功能:/goal。名字都一样,推出时间也几乎一样。
这个功能干嘛的?简单讲就是你打一句/goal,然后写下你想要它达成的目标,它就会自己跑下去,直到完成为止。
为什么这个功能要单独来讲?因为它解决的是我们用 AI 时都会遇到的问题——AI 会偷懒。
你一定有过这种经验:让 AI 做一件事,它做到一半就停,问你”我可以继续吗?“或者”你要 A 还是 B”。
更糟的是,明明没做完,但它跟你说做完了,写一个漂亮的总结就把球丢回给你。
一、AI 为什么会偷懒?
Anthropic 在 2025 年底发过一篇研究,直接给这种偷懒起了个名字:context anxiety(上下文焦虑)。
用大白话讲:大模型在执行任务的时候,会一边盯着自己的 context window 看还剩多少。当它感觉快满了,就开始慌,莫名其妙开始 wrap up,想快点交差完事。
二、/goal怎么解决这个问题
/goal在工作的时候,通常会有两个角色协作:
- 执行者:负责执行你的指令,产出东西
- 评审:在每一轮结束后,检查”用户给的目标完成了吗?”——只要答案是没有,评审就会点出问题,叫执行者继续往下做
就像你把一根胡萝卜吊在驴子前面。驴子只要还没吃到胡萝卜,就不会停下来。
/goal这个功能,让你不用每三分钟跑回来检查、催它、戳它。它让 AI 有能力自我督促,自己跑到你给它定好的终点。
三、怎么用好/goal?
/goal的使用方式很简单:在 Claude Code / Codex / Hermes 的对话框打/goal,然后说明你希望它完成的任务。
真正难的是:要怎么写这个提示词,才能让 AI 跑出你想要的东西——而不是另一个 AI 一本正经的废话?
反面案例
你这么写:
“把这个专案改得好一点。”
AI 会做一两个小改动,然后说”我已经让它变得更好了”,5 分钟就把任务草草收工。
为什么? 因为”好一点”是一个没有边界的目标,AI 不知道什么叫”好一点”——它只能猜,而它猜的”完成标准”你通常不会满意。
正面案例
你这么写:
“把会员秒杀活动页面的反应速度降到0.2 秒以内,用速度测试工具验证。过程中其他功能要保持完好,只能改秒杀这个区块的代码跟相关测试,别的地方不要动。每改一次,就记录下你改了什么、测出来的速度是多少、下一个最值得试的方向是什么。如果速度测试工具跑不起来,或者所有想得到的方法都试过了,那就停下来,告诉我你试过什么、卡在哪、需要我给你什么帮助才能继续。”
看出差别了吗?
一份真正适合/goal的任务描述,通常要包含五件事:
1. Outcome:任务完成后应该是什么样
不是”改得更好”,而是”秒杀页面加载速度降到 0.2 秒以内”。
2. Verification:怎么证明真的完成了
不是”我觉得差不多了”,而是”用测速工具跑一次,数字能稳定在目标值以内”。
3. Constraints:哪些地方不能动
比如只允许改秒杀模块,其他功能不能受影响。
4. Iteration policy:每次迭代要留下什么
比如每轮都要记录:改了什么、结果是什么、下一步最值得试什么。
5. Error handling:卡住时应该怎么做
不是继续硬做,也不是回来问你,而是停下来告诉你:试了什么、卡在哪、还需要什么信息。
这五件事看起来简单,但大多数人写任务时,一条都没写。
四、比会写提示词更重要的,是能把”感觉”拆成规则
写代码还好说,因为有测试、有 lint、有性能指标。
但设计、写作、内容、产品文档这些工作呢?
你很难一句话定义什么是”好”。
Anthropic 做过一个研究:让 Claude 设计一个”漂亮”的网页。
但“漂亮”是一个极度主观的词。你让 AI 自己评自己做的网页漂不漂亮,明明做得超丑,它也会给自己的设计定义成”现代感、高质感”。
所以 Anthropic把“漂亮”这个模糊概念,拆成了 4 个明确维度:
- 设计品质:网页有没有传达一个整体的设计语言?颜色、字体、排版有没有共同营造独特氛围?
- 原创性:有没有刻意的设计选择,还是用了一堆预设模板?
- 技术执行:字体阶层、间距、配色、对比——这些细节有没有整齐保持一致?
- 可用性:纯看实用性,使用者看得懂吗?找得到主要按钮吗?
更有趣的是——他们故意加重了 Claude 平时做不好的维度的权重。Claude 在”技术执行”和”可用性”上通常做得不错,但在”设计品质”和”原创性”上常常产出平庸到不行的网站。所以他们把评分权重故意往弱项偏。
这就是关键:每个模型都有自己的倾向,你的评分标准就是一把尺子,用来校正模型的默认行为,让它朝着你想要的方向前进。
Anthropic 是怎么具体做的?
他们做了几个看起来不起眼、但对结果影响极大的设计:
- 评审是看浏览器截图,不是看代码。他们用 Playwright 打开浏览器,让评审自己截图、自己打分——不是看程式码,是看使用者真的会看到的画面。
- 多样性优先于单点极致。他们一开始在 rubric 里写”请设计成博物馆等级的质感”,结果跑出来所有产出都变成博物馆风——非常单一。后来把这句删掉,改成列 11 种美学风格(brutalist / art deco / pastel / industrial / retro-futuristic 等),让 Claude 根据当下状况选一种,确保多样性。
- 不是每一轮都比上一轮好。他们跑设计实验到第 9 轮,Claude 做出了”还不错的美术馆网站”——但到第 10 轮,它突然把整个网站重新想像成一个 3D 空间体验,用 CSS 透视渲染出一个房间,艺术品像在真实画廊里挂在墙上。研究人员说这是他从来没看过、不可能从单次 prompt 产出的创意跃迁。
而这种跃迁不是线性的。第十轮可能比第十五轮更漂亮。但只要评审和执行者继续对话,复杂度会增加、野心会增加——然后在某几轮,会出现你自己都想不到的飞跃。
这件事给我最大的启发不是”模型怎么调”,而是:
真正的 AI 管理,不是你会不会写提示词,而是你能不能把脑子里模糊的“好”,写成可以执行的规则。
当你能把这些东西写出来,AI 才真的能帮你守住标准。不然它永远只能猜。
五、6 步把”你的感觉”变成 AI 评审标准(可直接套用 SOP)
那我们一般人,究竟要怎么把自己工作领域里的感觉判断,拆解成 AI 可以照着做的准则?
我使用一个月,最后收敛成了一套六个步骤的 SOP,直接分享给你。
拿内容创作举例:
第一步:先让 AI 跑一轮你的工作
不要急着写标准。先丢 5 到 10 个你想做的任务进去,让它随便跑。
这是在测你用的这个 AI 现在的基准能力。
第二步:亲自看一遍,记下所有皱眉的具体原因
每一个都看。然后去感受哪些你看了会皱眉?更重要的是,皱眉的具体原因是什么?
- 是开头没有吸引人的 hook?
- 是没有提供具体例子阐述概念?
- 是用了“在这个快速变化的时代”这种 AI 烂梗?
- 是通篇没有具体人名或数字?
把这些皱眉的理由写下来。这些就是你评分标准的雏形——AI 踩过的雷区清单。
第三步:把雷区分门别类,收敛成几个维度
就像刚才提到 Anthropic 的做法一样。你列出了 50 条皱眉理由,可能最后收敛成三大类:
- 逻辑松散:文章逻辑有断层,前文后文接不起来
- 没有人味:写出来的内容没有作者个人视角,没有具体例子,在文章中一直使用像是破折号这类人类不会使用的标点符号
- 文章开头没 hook:第一句话就让人想关掉
这三个维度就是你写作评分标准的骨架。
我们回顾一下 Anthropic 是怎么做的——他们也是先看了一堆 Claude 做的网页,把皱眉的点聚合,最后收敛出了”设计品质、原创性、技术执行、可用性”这四个维度。一模一样的动作,只是不同领域而已。
第四步:把每个维度写成具体案例当作参考(这是核心)
你不能写“避免 AI 味”这种抽象描述。要写绝对具体的反面案例,让 AI 一写就立刻违规、评审一扫就抓得到。
比如”没有人味”维度可以这么写:
- 绝对不要用破折号连接两个短句当作节奏感
- 绝对不要用“不是 A,而是 B”这种句型
- 绝对不要用“在这个快速变化的时代”“在 AI 时代”这种起手式
每一条都是评审一扫就抓得到、可以推断的标准。
第五步:用多个方向取代单一范例
Anthropic 在 blog 里自爆过一个血泪教训——他们一开始在 rubric 里写”请设计成博物馆等级的质感”,结果跑出来所有产出都变成博物馆风,非常单一且没有多样性。
后来他们把这句整个删掉,改成在文件里列出 11 种美学风格(brutalist / art deco / pastel / industrial / retro-futuristic 等等),然后让 Claude 在设计时根据当下状况选择其中一种,确保产出的多样性。
有实作经验的朋友应该都知道:AI 很容易因为你给的范例而 overfitting。所以你要写多个方向才能确保多样性,激发 AI 创意。
第六步:喂给评审 agent,跑起来,然后人工校准
把你的评分标准喂给评审 agent,直接跑跑看产出如何。
如果前面五步做得扎实,这时你应该已经有一份相当扎实的评分标准。下一步理所当然的就是把这份评分标准放进你的 goal prompt 里面,跟你的 AI 说这些就是他要遵循的审核标准,请确保在以上评分标准没有达成之前持续迭代,不要停下。
但这边有个注意事项:刚开始跑的时候还是要人工检查一下——看看 AI 执行每一轮后的产出,确保评审判断的结果跟你亲眼看的结果一致。
如果不一致,大概率是你的评分标准还没抓到你内心真正渴望的那个感觉标准。这时候你要做的事情就是回去改评分标准,跑个三四轮之后,你会发现你心里”做得好”的定义正在被你一条一条梳理出来。
当你有这种感觉的那一刻,你就不是 AI 的协作者了——你是能够定义自己感觉标准的 AI 管理者。
写在最后
这是整篇文章最想跟你分享的事。
写评分标准表面上是给 AI 用的。
但实际上,它在逼你把那些一直以来只存在你脑袋里的“模糊感觉”具体写成文字。
一旦写成文字,AI 就可以帮你守住它、帮你大规模执行它。
当你能把这件事说清楚,AI 就是你的工具。
当你说不清,AI 就会替你做决定。那时候,AI 就不再是你的工具
本文由 @流窜AI 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议

起点课堂会员权益





五要素写法确实比单纯写“做好一点”靠谱得多,尤其是Error handling那一条,很多人会忽略。加上“卡住时停下来告诉我”比让AI硬撑或乱猜高效十倍。