Agent:你不是在评估模型,你是在评估一个系统

0 评论 198 浏览 0 收藏 12 分钟

在AI产品狂热追逐最强模型的喧嚣中,真正决定成败的往往是被忽视的另一半真相。文章犀利指出,用户接触到的从来不是裸模型,而是一个由指令、上下文与模型共同构成的复杂系统。通过Chip Huyen的公式拆解,本文将带你穿透Demo的迷雾,看清从Prompt Engineering到RAG检索增强,再到系统控制层的工程化逻辑,教你如何用普通模型构建出超越顶级模型的稳定产品体验。

为什么只问“模型多强”,会看错 AI 产品

过去2年,AI 圈里最常见的问题之一,就是,

“你们用的是哪个模型?”

“是不是最强那档?”

“推理能力怎么样?”

“上下文有多长?”

这些问题当然重要。

但更大的问题是,很多人把它们当成了唯一重要的问题。

我想先讲两个场景。

第一个场景。

你看到一个 AI 产品的demo:它能做多步推理,能写复杂代码,能从长文档里精准提炼关键信息。你很兴奋,第一反应是问对方:你们用的什么模型?对方说,Opus-4.5。你愣了一下,接着就会冒出第二个问题:如果核心只是调一个别人也能调的 API,这个产品的壁垒到底在哪?

第二个场景。

你看到另一个 AI 产品,界面普通,没有令人惊叹的推理流,也没有那种“看完立刻想转发”的魔法时刻。但它在客户那里的续约率是 95%。原因不是模型有多聪明,而是它的信息检索稳定、工作流嵌入深、输出格式规范、错误可溯源。总之,它好用。

这两个场景暴露的是同一个问题:我们评价大模型应用的方式,出了系统性偏差。

今天太多人仍然习惯用“模型多聪明”去判断一个 AI 产品的好坏。模型当然重要,但用户真正接触到的,从来不是一个裸模型,而是一个完整系统。前者让人惊叹模型,后者才真正说明系统成立。

所以,问题不在于模型不重要。

问题在于,模型只是变量之一。

真正决定输出质量的,不是模型

Chip Huyen 在《AI Engineering》里提出了一个非常重要的框架:

给定一个 query,模型要完成任务,同时需要两样东西——关于“该怎么做”的指令,以及“做这件事所必需的信息”。再加上模型本身,最终输出质量其实是 instructions × context × model的联合结果。

这句话看起来朴素,但它足以改写很多人看 AI 产品的方式。

因为它提醒你:

如果你只盯模型,你其实只盯住了三分之一。

先看指令(instructions)。

很多人一说到大模型应用,第一反应就是提示词工程(prompt engineering)。但提示词的本质,不是什么神秘技巧,而是你有没有把任务说清楚:角色是什么,目标是什么,输出格式是什么,边界条件是什么,什么才算合格答案。很多所谓“模型不稳定”,本质上其实不是模型不够强,而是任务定义不够清楚。

但真正长期被低估的,往往不是指令,而是上下文(context)。

模型并不总是因为“不够聪明”才答错。很多时候,它只是没有看到完成任务所需要的信息。如果它不知道你的产品文档、内部规则、客户历史、数据库状态,或者根本没法去查,它就只能猜。而一旦开始猜,幻觉和错误几乎就是必然结果。

换句话说:很多时候,不是模型笨,是模型“瞎”。

你给模型什么信息,什么时候给,按什么方式给,信息够不够、准不准、新不新、是否与当前问题相关,这些看起来像“配套工程”的东西,最后都会直接决定输出质量。检索什么文档、怎么切块、怎么做 query rewriting、要不要接数据库、要不要给工具权限——这些不是边角料,它们就是产品能力本身。

一旦接受这个框架,很多现象就解释通了。

为什么有些 demo 看起来很神,进生产却不稳定?

因为 demo 展示的是模型能力,不是系统能力。

为什么有些团队没用最贵的模型,产品反而更稳?

因为他们在指令、上下文,和控制层上做了足够多的工作。

为什么有些团队总想着“换更强模型”,结果投入越来越大、提升却越来越小?

因为他们真正该动的杠杆,根本不在模型那一层。

所以,在你决定换模型之前,先问自己一个问题:

我到底给了模型什么信息?

为什么这个问题值得所有人重视?

因为它决定了你到底是在看一个“模型演示”,还是在看一个“产品系统”。

如果你的壁垒只建立在“用了一个强模型”上,那你的壁垒大概率并不牢。

因为模型能力会扩散,API 会普及,价格会下降,最强模型会不断迭代。只靠“我接了一个更强的模型”建立起来的优势,往往最容易被追平。

真正不容易被抄走的,通常不是模型名,而是这几个东西:你怎么定义任务你怎么构造上下文你怎么把系统嵌进真实工作流你怎么控制输出边界你怎么让错误可追踪、可修正、可升级

也就是说,AI 产品的竞争,表面上看像模型竞赛,实际上更像系统设计竞赛。

谁能把任务定义清楚,谁能把正确的信息喂进去,谁能把高风险环节拦在系统边界之外,谁就更接近真正可用的产品。

而不是谁先在首页写上“我们接入了最强模型”。

从这个角度看,很多团队今天最大的误判,不是低估了模型,而是高估了模型,低估了系统。

AI 效果差,怎么排查?

这里我给一个非常实用的排查顺序。

顺序很重要,因为它和大多数人的直觉恰好相反。

第一步:先查指令、提示词

  • 你的目标描述清楚了吗?
  • 约束条件列全了吗?
  • 验收标准是不是可判定的?
  • 输出格式是不是明确的?

很多效果问题,本质上是指令写得模糊。

一个“弱指令 + 强模型”的组合,往往不如“强指令 + 普通模型”。

第二步:再查上下文

模型在回答这个问题时,是否真的拿到了正确的、充分的、与当前 query 相关的信息?

如果没有,不是模型不努力,而是模型没有条件做好。

这一步对应的就是上下文的搭建:通过检索、工具调用、query rewriting、数据库访问、结构化数据注入等方式,让每一次 query 都带上它完成任务所需要的背景信息。

第三步:再看系统控制层

这个请求是不是应该先被路由?

是不是应该限制输出格式、先做结构化处理、先查库再答?

很多问题并不是“答不出来”,而是“不该直接这样答”。

第四步:最后才考虑换模型或加 Thinking

如果指令清晰、上下文充分、系统控制也到位,但效果仍然不行,这时候才真正轮到模型能力本身:

  • 要不要换更强模型?
  • 要不要开启“思考(Thinking)”?
  • 要不要微调?
  • 要不要做蒸馏或模型分层?

模型当然重要。

但它通常不是你第一个该动的杠杆。

真正成熟的 AI 系统,是更扎实的基础层

很多人现在一提 AI 应用,就直接想到智能体(Agent)。

但真实生产系统的搭建顺序,通常不是一上来就上最复杂的Agent,而是先做最简单的模型调用,再增强上下文,再加安全边际,再做路由、网关、缓存,最后才在必要的时候逐步引入更复杂的智能体模式(Agent Pattern)。

这背后的逻辑很简单:在系统真正开始“自主行动”之前,你得先确保它看到了对的信息、遵守了对的边界、走在对的路径上。

否则,越强的模型,越可能把错误做得更像对的;越复杂的Agent,越可能把不稳定放大成系统问题。

所以,很多团队今天真正该补的,不是“再上一个更强模型”,而是把以下这些基础能力做扎实:指令写清楚、上下文构造正确、安全边际立住、路由做对、输出可控、错误可追踪。

这才是从 demo 走向生产的真正分水岭。

一句话结论

大模型应用的效果,从来不是由模型单独决定的。

它是 instructions × context × model的联合函数。

大多数人盯着模型这一个变量使劲,但真正拉开差距的,往往是上下文的搭建——也就是大模型时代的特征工程(Feature Engineering)。

所以,在你觉得需要换模型之前,先别急着问:

“有没有更强的模型?”

先问:我给了模型什么信息?这些信息是不是对的、够的、及时的、与任务相关的?

如果这个问题没想清楚,换再强的模型,很多时候也只是在更高成本上重复同样的错误。

所以这篇文章真正想说的,只有一句:你不是在评估模型,你是在评估一个系统。

而在大模型时代,真正拉开差距的,也往往不是谁最先拿到“最强模型”,

而是谁最早把“给模型什么、怎么给、什么时候给、哪些不能给”这件事,做成了自己的工程能力。

这才是 AI 产品从 demo 走向生产的第一道分水岭。

作者|王子威

本文由人人都是产品经理作者【零售威观察】,微信公众号:【零售威观察】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!