你真的会用AI吗？/goal使用心得分享

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

你真的会用AI吗？/goal使用心得分享

流窜AI

2026-06-29

1 评论 842 浏览 2 收藏

15 分钟

三大AI工具Claude Code、Codex、Hermes同步推出的/goal功能，直击AI'偷懒'痛点。这个看似简单的指令背后，隐藏着从'context anxiety'到自我监督机制的智能突破。本文将深度拆解如何通过五要素任务描述和六步评分标准，把你的主观判断转化为AI可执行的规则，实现从'模糊感觉'到'精准管理'的跃迁。

Claude Code、Codex、Hermes 三家在 5 月份推出了同一个新功能：/goal。名字都一样，推出时间也几乎一样。

这个功能干嘛的？简单讲就是你打一句/goal，然后写下你想要它达成的目标，它就会自己跑下去，直到完成为止。

为什么这个功能要单独来讲？因为它解决的是我们用 AI 时都会遇到的问题——AI 会偷懒。

你一定有过这种经验：让 AI 做一件事，它做到一半就停，问你”我可以继续吗？“或者”你要 A 还是 B”。

更糟的是，明明没做完，但它跟你说做完了，写一个漂亮的总结就把球丢回给你。

一、AI 为什么会偷懒？

Anthropic 在 2025 年底发过一篇研究，直接给这种偷懒起了个名字：context anxiety（上下文焦虑）。

用大白话讲：大模型在执行任务的时候，会一边盯着自己的 context window 看还剩多少。当它感觉快满了，就开始慌，莫名其妙开始 wrap up，想快点交差完事。

二、/goal怎么解决这个问题

/goal在工作的时候，通常会有两个角色协作：

执行者：负责执行你的指令，产出东西
评审：在每一轮结束后，检查”用户给的目标完成了吗？”——只要答案是没有，评审就会点出问题，叫执行者继续往下做

就像你把一根胡萝卜吊在驴子前面。驴子只要还没吃到胡萝卜，就不会停下来。

/goal这个功能，让你不用每三分钟跑回来检查、催它、戳它。它让 AI 有能力自我督促，自己跑到你给它定好的终点。

三、怎么用好/goal？

/goal的使用方式很简单：在 Claude Code / Codex / Hermes 的对话框打/goal，然后说明你希望它完成的任务。

真正难的是：要怎么写这个提示词，才能让 AI 跑出你想要的东西——而不是另一个 AI 一本正经的废话？

反面案例

你这么写：

“把这个专案改得好一点。”

AI 会做一两个小改动，然后说”我已经让它变得更好了”，5 分钟就把任务草草收工。

为什么？因为”好一点”是一个没有边界的目标，AI 不知道什么叫”好一点”——它只能猜，而它猜的”完成标准”你通常不会满意。

正面案例

你这么写：

“把会员秒杀活动页面的反应速度降到0.2 秒以内，用速度测试工具验证。过程中其他功能要保持完好，只能改秒杀这个区块的代码跟相关测试，别的地方不要动。每改一次，就记录下你改了什么、测出来的速度是多少、下一个最值得试的方向是什么。如果速度测试工具跑不起来，或者所有想得到的方法都试过了，那就停下来，告诉我你试过什么、卡在哪、需要我给你什么帮助才能继续。”

看出差别了吗？

一份真正适合/goal的任务描述，通常要包含五件事：

1. Outcome：任务完成后应该是什么样

不是”改得更好”，而是”秒杀页面加载速度降到 0.2 秒以内”。

2. Verification：怎么证明真的完成了

不是”我觉得差不多了”，而是”用测速工具跑一次，数字能稳定在目标值以内”。

3. Constraints：哪些地方不能动

比如只允许改秒杀模块，其他功能不能受影响。

4. Iteration policy：每次迭代要留下什么

比如每轮都要记录：改了什么、结果是什么、下一步最值得试什么。

5. Error handling：卡住时应该怎么做

不是继续硬做，也不是回来问你，而是停下来告诉你：试了什么、卡在哪、还需要什么信息。

这五件事看起来简单，但大多数人写任务时，一条都没写。

四、比会写提示词更重要的，是能把”感觉”拆成规则

写代码还好说，因为有测试、有 lint、有性能指标。

但设计、写作、内容、产品文档这些工作呢？

你很难一句话定义什么是”好”。

Anthropic 做过一个研究：让 Claude 设计一个”漂亮”的网页。

但“漂亮”是一个极度主观的词。你让 AI 自己评自己做的网页漂不漂亮，明明做得超丑，它也会给自己的设计定义成”现代感、高质感”。

所以 Anthropic把“漂亮”这个模糊概念，拆成了 4 个明确维度：

设计品质：网页有没有传达一个整体的设计语言？颜色、字体、排版有没有共同营造独特氛围？
原创性：有没有刻意的设计选择，还是用了一堆预设模板？
技术执行：字体阶层、间距、配色、对比——这些细节有没有整齐保持一致？
可用性：纯看实用性，使用者看得懂吗？找得到主要按钮吗？

更有趣的是——他们故意加重了 Claude 平时做不好的维度的权重。Claude 在”技术执行”和”可用性”上通常做得不错，但在”设计品质”和”原创性”上常常产出平庸到不行的网站。所以他们把评分权重故意往弱项偏。

这就是关键：每个模型都有自己的倾向，你的评分标准就是一把尺子，用来校正模型的默认行为，让它朝着你想要的方向前进。

Anthropic 是怎么具体做的？

他们做了几个看起来不起眼、但对结果影响极大的设计：

评审是看浏览器截图，不是看代码。他们用 Playwright 打开浏览器，让评审自己截图、自己打分——不是看程式码，是看使用者真的会看到的画面。
多样性优先于单点极致。他们一开始在 rubric 里写”请设计成博物馆等级的质感”，结果跑出来所有产出都变成博物馆风——非常单一。后来把这句删掉，改成列 11 种美学风格（brutalist / art deco / pastel / industrial / retro-futuristic 等），让 Claude 根据当下状况选一种，确保多样性。
不是每一轮都比上一轮好。他们跑设计实验到第 9 轮，Claude 做出了”还不错的美术馆网站”——但到第 10 轮，它突然把整个网站重新想像成一个 3D 空间体验，用 CSS 透视渲染出一个房间，艺术品像在真实画廊里挂在墙上。研究人员说这是他从来没看过、不可能从单次 prompt 产出的创意跃迁。

而这种跃迁不是线性的。第十轮可能比第十五轮更漂亮。但只要评审和执行者继续对话，复杂度会增加、野心会增加——然后在某几轮，会出现你自己都想不到的飞跃。

这件事给我最大的启发不是”模型怎么调”，而是：