你真的会用AI吗?/goal使用心得分享

1 评论 842 浏览 2 收藏 15 分钟

三大AI工具Claude Code、Codex、Hermes同步推出的/goal功能,直击AI'偷懒'痛点。这个看似简单的指令背后,隐藏着从'context anxiety'到自我监督机制的智能突破。本文将深度拆解如何通过五要素任务描述和六步评分标准,把你的主观判断转化为AI可执行的规则,实现从'模糊感觉'到'精准管理'的跃迁。

Claude Code、Codex、Hermes 三家在 5 月份推出了同一个新功能:/goal。名字都一样,推出时间也几乎一样。

这个功能干嘛的?简单讲就是你打一句/goal,然后写下你想要它达成的目标,它就会自己跑下去,直到完成为止。

为什么这个功能要单独来讲?因为它解决的是我们用 AI 时都会遇到的问题——AI 会偷懒

你一定有过这种经验:让 AI 做一件事,它做到一半就停,问你”我可以继续吗?“或者”你要 A 还是 B”。

更糟的是,明明没做完,但它跟你说做完了,写一个漂亮的总结就把球丢回给你。

一、AI 为什么会偷懒?

Anthropic 在 2025 年底发过一篇研究,直接给这种偷懒起了个名字:context anxiety(上下文焦虑)

用大白话讲:大模型在执行任务的时候,会一边盯着自己的 context window 看还剩多少。当它感觉快满了,就开始慌,莫名其妙开始 wrap up,想快点交差完事。

二、/goal怎么解决这个问题

/goal在工作的时候,通常会有两个角色协作:

  • 执行者:负责执行你的指令,产出东西
  • 评审:在每一轮结束后,检查”用户给的目标完成了吗?”——只要答案是没有,评审就会点出问题,叫执行者继续往下做

就像你把一根胡萝卜吊在驴子前面。驴子只要还没吃到胡萝卜,就不会停下来。

/goal这个功能,让你不用每三分钟跑回来检查、催它、戳它。它让 AI 有能力自我督促,自己跑到你给它定好的终点。

三、怎么用好/goal?

/goal的使用方式很简单:在 Claude Code / Codex / Hermes 的对话框打/goal,然后说明你希望它完成的任务。

真正难的是:要怎么写这个提示词,才能让 AI 跑出你想要的东西——而不是另一个 AI 一本正经的废话?

反面案例

你这么写:

“把这个专案改得好一点。”

AI 会做一两个小改动,然后说”我已经让它变得更好了”,5 分钟就把任务草草收工

为什么? 因为”好一点”是一个没有边界的目标,AI 不知道什么叫”好一点”——它只能猜,而它猜的”完成标准”你通常不会满意。

正面案例

你这么写:

“把会员秒杀活动页面的反应速度降到0.2 秒以内,用速度测试工具验证。过程中其他功能要保持完好,只能改秒杀这个区块的代码跟相关测试,别的地方不要动。每改一次,就记录下你改了什么、测出来的速度是多少、下一个最值得试的方向是什么。如果速度测试工具跑不起来,或者所有想得到的方法都试过了,那就停下来,告诉我你试过什么、卡在哪、需要我给你什么帮助才能继续。

看出差别了吗?

一份真正适合/goal的任务描述,通常要包含五件事

1. Outcome:任务完成后应该是什么样

不是”改得更好”,而是”秒杀页面加载速度降到 0.2 秒以内”。

2. Verification:怎么证明真的完成了

不是”我觉得差不多了”,而是”用测速工具跑一次,数字能稳定在目标值以内”。

3. Constraints:哪些地方不能动

比如只允许改秒杀模块,其他功能不能受影响。

4. Iteration policy:每次迭代要留下什么

比如每轮都要记录:改了什么、结果是什么、下一步最值得试什么。

5. Error handling:卡住时应该怎么做

不是继续硬做,也不是回来问你,而是停下来告诉你:试了什么、卡在哪、还需要什么信息。

这五件事看起来简单,但大多数人写任务时,一条都没写。

四、比会写提示词更重要的,是能把”感觉”拆成规则

写代码还好说,因为有测试、有 lint、有性能指标。

但设计、写作、内容、产品文档这些工作呢?

你很难一句话定义什么是”好”。

Anthropic 做过一个研究:让 Claude 设计一个”漂亮”的网页。

但“漂亮”是一个极度主观的词。你让 AI 自己评自己做的网页漂不漂亮,明明做得超丑,它也会给自己的设计定义成”现代感、高质感”。

所以 Anthropic把“漂亮”这个模糊概念,拆成了 4 个明确维度

  1. 设计品质:网页有没有传达一个整体的设计语言?颜色、字体、排版有没有共同营造独特氛围?
  2. 原创性:有没有刻意的设计选择,还是用了一堆预设模板?
  3. 技术执行:字体阶层、间距、配色、对比——这些细节有没有整齐保持一致?
  4. 可用性:纯看实用性,使用者看得懂吗?找得到主要按钮吗?

更有趣的是——他们故意加重了 Claude 平时做不好的维度的权重。Claude 在”技术执行”和”可用性”上通常做得不错,但在”设计品质”和”原创性”上常常产出平庸到不行的网站。所以他们把评分权重故意往弱项偏。

这就是关键:每个模型都有自己的倾向,你的评分标准就是一把尺子,用来校正模型的默认行为,让它朝着你想要的方向前进

Anthropic 是怎么具体做的?

他们做了几个看起来不起眼、但对结果影响极大的设计:

  1. 评审是看浏览器截图,不是看代码。他们用 Playwright 打开浏览器,让评审自己截图、自己打分——不是看程式码,是看使用者真的会看到的画面。
  2. 多样性优先于单点极致。他们一开始在 rubric 里写”请设计成博物馆等级的质感”,结果跑出来所有产出都变成博物馆风——非常单一。后来把这句删掉,改成列 11 种美学风格(brutalist / art deco / pastel / industrial / retro-futuristic 等),让 Claude 根据当下状况选一种,确保多样性。
  3. 不是每一轮都比上一轮好。他们跑设计实验到第 9 轮,Claude 做出了”还不错的美术馆网站”——但到第 10 轮,它突然把整个网站重新想像成一个 3D 空间体验,用 CSS 透视渲染出一个房间,艺术品像在真实画廊里挂在墙上。研究人员说这是他从来没看过、不可能从单次 prompt 产出的创意跃迁。

而这种跃迁不是线性的。第十轮可能比第十五轮更漂亮。但只要评审和执行者继续对话,复杂度会增加、野心会增加——然后在某几轮,会出现你自己都想不到的飞跃。

这件事给我最大的启发不是”模型怎么调”,而是:

真正的 AI 管理,不是你会不会写提示词,而是你能不能把脑子里模糊的“好”,写成可以执行的规则

当你能把这些东西写出来,AI 才真的能帮你守住标准。不然它永远只能猜。

五、6 步把”你的感觉”变成 AI 评审标准(可直接套用 SOP)

那我们一般人,究竟要怎么把自己工作领域里的感觉判断,拆解成 AI 可以照着做的准则

我使用一个月,最后收敛成了一套六个步骤的 SOP,直接分享给你。

拿内容创作举例:

第一步:先让 AI 跑一轮你的工作

不要急着写标准。先丢 5 到 10 个你想做的任务进去,让它随便跑。

这是在测你用的这个 AI 现在的基准能力

第二步:亲自看一遍,记下所有皱眉的具体原因

每一个都看。然后去感受哪些你看了会皱眉?更重要的是,皱眉的具体原因是什么?

  • 是开头没有吸引人的 hook?
  • 是没有提供具体例子阐述概念?
  • 是用了“在这个快速变化的时代”这种 AI 烂梗?
  • 是通篇没有具体人名或数字?

把这些皱眉的理由写下来。这些就是你评分标准的雏形——AI 踩过的雷区清单。

第三步:把雷区分门别类,收敛成几个维度

就像刚才提到 Anthropic 的做法一样。你列出了 50 条皱眉理由,可能最后收敛成三大类:

  • 逻辑松散:文章逻辑有断层,前文后文接不起来
  • 没有人味:写出来的内容没有作者个人视角,没有具体例子,在文章中一直使用像是破折号这类人类不会使用的标点符号
  • 文章开头没 hook:第一句话就让人想关掉

这三个维度就是你写作评分标准的骨架

我们回顾一下 Anthropic 是怎么做的——他们也是先看了一堆 Claude 做的网页,把皱眉的点聚合,最后收敛出了”设计品质、原创性、技术执行、可用性”这四个维度。一模一样的动作,只是不同领域而已。

第四步:把每个维度写成具体案例当作参考(这是核心)

你不能写“避免 AI 味”这种抽象描述。要写绝对具体的反面案例,让 AI 一写就立刻违规、评审一扫就抓得到。

比如”没有人味”维度可以这么写:

  • 绝对不要用破折号连接两个短句当作节奏感
  • 绝对不要用“不是 A,而是 B”这种句型
  • 绝对不要用“在这个快速变化的时代”“在 AI 时代”这种起手式

每一条都是评审一扫就抓得到、可以推断的标准。

第五步:用多个方向取代单一范例

Anthropic 在 blog 里自爆过一个血泪教训——他们一开始在 rubric 里写”请设计成博物馆等级的质感”,结果跑出来所有产出都变成博物馆风,非常单一且没有多样性。

后来他们把这句整个删掉,改成在文件里列出 11 种美学风格(brutalist / art deco / pastel / industrial / retro-futuristic 等等),然后让 Claude 在设计时根据当下状况选择其中一种,确保产出的多样性。

有实作经验的朋友应该都知道:AI 很容易因为你给的范例而 overfitting。所以你要写多个方向才能确保多样性,激发 AI 创意。

第六步:喂给评审 agent,跑起来,然后人工校准

把你的评分标准喂给评审 agent,直接跑跑看产出如何。

如果前面五步做得扎实,这时你应该已经有一份相当扎实的评分标准。下一步理所当然的就是把这份评分标准放进你的 goal prompt 里面,跟你的 AI 说这些就是他要遵循的审核标准,请确保在以上评分标准没有达成之前持续迭代,不要停下

但这边有个注意事项:刚开始跑的时候还是要人工检查一下——看看 AI 执行每一轮后的产出,确保评审判断的结果跟你亲眼看的结果一致

如果不一致,大概率是你的评分标准还没抓到你内心真正渴望的那个感觉标准。这时候你要做的事情就是回去改评分标准,跑个三四轮之后,你会发现你心里”做得好”的定义正在被你一条一条梳理出来

当你有这种感觉的那一刻,你就不是 AI 的协作者了——你是能够定义自己感觉标准的 AI 管理者。

写在最后

这是整篇文章最想跟你分享的事。

写评分标准表面上是给 AI 用的。

但实际上,它在逼你把那些一直以来只存在你脑袋里的“模糊感觉”具体写成文字。

一旦写成文字,AI 就可以帮你守住它、帮你大规模执行它。

当你能把这件事说清楚,AI 就是你的工具。

当你说不清,AI 就会替你做决定。那时候,AI 就不再是你的工具

本文由 @流窜AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 五要素写法确实比单纯写“做好一点”靠谱得多,尤其是Error handling那一条,很多人会忽略。加上“卡住时停下来告诉我”比让AI硬撑或乱猜高效十倍。

    来自广东 回复