大模型效果不好?先别急着微调:产品经理该如何理解“调优”

1 评论 225 浏览 1 收藏 18 分钟

大模型应用效果不佳时,真正的瓶颈往往不在模型本身。从任务定义模糊到Prompt设计不当,从知识缺失到检索偏差,再到输出约束不足,每个环节都可能成为致命短板。本文深度拆解大模型调优的五大核心层级,揭示如何通过系统化诊断与精准干预,将『玄学调参』转化为可复用的产品方法论。

很多团队做大模型应用,最常见的误区是:结果一不好,就开始怀疑模型不够强,或者急着上微调。

但真实情况往往是,问题根本不在模型本身,而在任务定义、Prompt、知识检索、输出约束,甚至评测方式上。

从产品视角看,大模型调优不是“参数游戏”,而是一套完整的问题定位—策略迭代—效果验证机制。

这篇文章想聊清楚一件事:大模型应用效果不好时,究竟该先改什么,后改什么,产品经理又该如何看待“调优”这件事。

一、为什么很多团队一做 AI,就很快陷入“调优焦虑”?

做过大模型应用的人,大概率都经历过这样的场景:

  • 第一次 demo 看起来不错;
  • 一上真实数据,效果开始飘;
  • 有些回答很好,有些回答非常差;
  • 同一个问题,今天好、明天坏;
  • 团队讨论半天,最后得出一句模糊结论:“模型不太行。”

这几乎是大模型产品落地时的典型瞬间。

问题是,这句话通常没什么用。

因为“大模型效果不好”并不是一个真正可执行的问题定义。

它背后可能是很多完全不同的问题:

  • 任务没定义清楚;
  • Prompt 写得太模糊;
  • 模型不知道业务知识;
  • RAG 找错资料;
  • 输出格式没有约束;
  • 测试样本本身就不稳定;
  • 当然,也可能真的是模型能力不够。

换句话说,调优的核心,不是“想办法让模型更聪明”,而是“先把问题定位准确”。

这件事听起来很工程,但本质上其实很产品。

因为产品经理最擅长的,不就是把一个模糊的“用户不满意”,拆成清晰的、可处理的问题吗?

二、很多人理解的“调优”,其实从一开始就调错了方向

一提到大模型调优,很多人脑子里会立刻浮现三个词:

  • Prompt Engineering
  • RAG
  • Fine-tuning

但如果从落地角度看,这三个东西并不是平行关系,更不是可以乱选的工具箱。

它们其实处在一条很明确的优先级链路上。

一个更合理的顺序应该是:

先看任务定义,再改 Prompt,再补知识,再控输出,再做评测,最后才考虑微调。

也就是说,调优不是“想到什么试什么”,而是要按层排查。

为什么?

因为大模型应用不是一个只有“模型”这一层的系统。

它更像一条完整链路:

用户输入

→ 任务理解

→ Prompt 设计

→ 是否需要补知识

→ 检索与召回

→ 模型生成

→ 输出格式校验

→ 效果评测

→ 持续迭代

只要这条链路里任何一环出问题,用户最后看到的结果都会变差。

如果你不先判断问题出在哪一层,就直接换模型、上微调,往往只会花很多成本,解决很少的问题。

所以,真正成熟的调优,永远是一个“先诊断,再下药”的过程。

三、大模型效果不好,通常不是“模型不行”,而是这五层出了问题

1. 任务定义出了问题

这是最容易被忽略的一层,但往往也是最根本的一层。

很多团队给模型的任务描述,其实并不清楚。

比如他们说:

“帮我总结一下这段内容。”

看起来没问题,但实际上这里至少有四个没说清楚的点:

  • 总结给谁看?
  • 重点是提炼观点,还是压缩字数?
  • 需不需要保留业务术语?
  • 能不能推断原文没写出来的信息?

模型并不是“理解你真正意图”的存在,它只能基于你给出的描述去猜。

于是你会看到它输出一段“也不算错,但明显不是你想要的东西”。

这其实不是模型问题,而是任务定义问题

从产品视角看,这很像需求描述不清导致研发做偏。

你不能说“功能做得不行”,更准确的说法应该是:

需求一开始就没有被定义清楚。

2. Prompt 不够清楚,导致模型自由发挥

这是最常见的一层。

很多人把 Prompt 理解成“问法”,但更准确地说,Prompt 其实是模型的工作说明书

一个好 Prompt,通常至少要包含:

  • 角色:你是谁
  • 任务:你要做什么
  • 规则:你必须遵守什么
  • 输出格式:你怎么交作业
  • 输入材料:你基于什么做

而现实中很多 Prompt 是什么样的?

“帮我优化一下这段绩效总结。”

这句话在日常沟通里没问题,但对模型来说太模糊了。

它不知道你是想让它:

  • 写得更正式;
  • 写得更简洁;
  • 突出成果;
  • 避免空话;
  • 还是避免敏感表达。

于是模型只能自由发挥。

所以大量所谓“效果不稳定”的问题,本质上不是模型能力波动,而是 Prompt 没把边界说清楚。

换句话说,Prompt 调优,不是改措辞那么简单,而是在补任务边界。

3. 模型缺的不是能力,而是知识

很多企业场景一开始就踩这个坑。

团队看到模型答得不准,就觉得是不是模型不够强。

但真正的问题往往是:模型根本不知道你公司的业务知识。

比如你问:

  • 绩效反馈中哪些表达有合规风险?
  • 晋升评审偏离度预警应该怎么做?
  • 人才盘点里某类结论是否符合当前规则?

这些问题不是通用知识题,而是高度依赖:

  • 公司制度
  • 业务规则
  • 流程定义
  • 历史案例
  • 组织语境

模型再强,也不可能天然知道你公司内部的这些东西。

这时候你继续调 Prompt,收益会非常有限。

因为你调的不是“理解方式”,而是它压根没有的“信息”。

这就是为什么很多 AI 产品到了企业场景,RAG 会成为刚需。

RAG 的本质,不是让模型变聪明,而是让模型在回答之前先拿到参考资料。

所以,当问题是“模型不懂业务”时,真正该补的不是 Prompt,而是知识。

4. 用了 RAG,也不代表答案一定会变准

这是第二个常见误区。

很多团队一接知识库,就觉得问题解决了。

但实际上,RAG 只是把“知识问题”从模型层,转移到了检索层。

也就是说:

以前的问题是模型不知道;

现在的问题变成了系统能不能把对的资料找出来。

这两者不是一回事。

RAG 最常见的问题通常有这些:

  • 找来的内容不相关;
  • 找来的内容不完整;
  • chunk 切得太碎,信息断裂;
  • chunk 切得太大,噪音太多;
  • 知识库本身过时、重复、冲突。

于是你会看到一种很典型的现象:

“我们明明接了知识库,为什么还答错?”

答案通常不是“模型没读懂”,而是你给它看的材料就不对

从产品角度看,这其实很像推荐系统或搜索系统的问题:

真正决定结果的,往往不是最后的“展示文案”,而是前面的召回和排序。

所以,做大模型调优的人,迟早都会意识到:

RAG 调优,很多时候其实更像“搜索调优”,而不是“生成调优”。

5. 很多“效果不好”,其实只是输出没有被约束

还有一种情况非常典型:

模型其实答得差不多,但产品依然不能用。

为什么?

因为它输出不稳定:

  • 该给 JSON 的时候给了一段散文;
  • 该输出三个字段的时候多写了两段解释;
  • 该简洁的时候写得很长;
  • 该中立的时候用了过度修饰的表达。

这些问题表面看像“生成质量差”,但本质上更像是产品接口没约束好

这也是为什么结构化输出、格式校验、规则后处理在大模型应用里越来越重要。

因为产品能不能真正接住模型,不只是看“内容对不对”,还要看“形态稳不稳”。

从这个角度说,调优也不只是“让模型答得更好”,而是让它更适合接入系统

四、真正的调优,不是碰运气,而是建立“坏例子驱动”的迭代机制

很多团队做调优时,最大的问题不是不会改,而是没有依据地乱改

今天觉得结果太空,于是加一条 Prompt。

明天觉得还是不稳,于是再换个模型。

后天觉得知识不够,于是再接个知识库。

折腾一圈之后,团队自己也说不清:

  • 到底哪一步有效;
  • 哪一步没效果;
  • 为什么今天看起来好一点;
  • 为什么明天又变差了。

这类调优,本质上不是调优,而是试运气。

成熟的调优应该是什么样?

答案是:以 badcase 为中心,建立可比较、可复盘的优化机制。

所谓 badcase,不是泛泛地说“这条回答不好”,而是把问题说具体:

  • 这条总结漏掉了第二个核心项目;
  • 这条回答引用了错误制度;
  • 这条输出不是目标格式;
  • 这条建议明显超出了原文依据;
  • 这条内容语言太空,没有保留关键业务动作。

一旦你能这样描述问题,调优方向就开始清晰了。

因为你不再是在面对“效果不好”这个大黑箱,而是在面对一个个具体问题:

  • 是漏召回?
  • 是没限制编造?
  • 是没要求覆盖所有重点?
  • 是没指定结构输出?
  • 还是模型真的推理不过来?

这时候调优才真正开始像产品优化,而不是像玄学实验。

五、从产品经理视角看,调优本质上是在做三件事

第一件事:把“效果差”翻译成“问题类型”

这是调优最核心的能力。

很多团队之所以调不动,不是因为不会写 Prompt,而是因为他们没有能力把现象翻译成问题。

比如一句“模型不太行”,在产品经理看来是没意义的。

你真正需要的是:

  • 是准确性问题?
  • 是完整性问题?
  • 是风格问题?
  • 是格式问题?
  • 是知识问题?
  • 是流程问题?

当你把问题分类清楚后,解决方案通常才会浮现出来。

第二件事:建立正确的调优优先级

一个成熟团队的调优顺序,通常是这样的:

  1. 先看任务定义:先确认你到底要模型做什么。
  2. 再改 Prompt:把边界、格式、规则、示例说清楚。
  3. 再补知识:需要业务知识,就上 RAG 或补上下文。
  4. 再查检索:如果已经有知识库,先看检索是否正确。
  5. 再控输出:需要结构化、可消费的结果,就做格式约束。
  6. 最后才考虑换模型或微调

当以上几层都做得差不多,还是不够好,再去碰更重的方案。

这个顺序非常重要。

因为它决定了你是在用最小成本解决问题,还是一上来就用最大成本赌运气。

第三件事:把调优做成一个可持续系统,而不是一次性动作

很多团队把调优理解成上线前的一项工作。

但真实情况是,大模型应用的调优更像运营:

  • 需要持续收集 badcase;
  • 需要不断补充评测集;
  • 需要跟踪改版前后差异;
  • 需要知道哪些问题越来越少,哪些问题反而变多。

这意味着,大模型调优不该只是算法或研发的事情。

它需要产品、业务、算法、工程一起参与,形成一套持续迭代机制。

因为最终你要优化的不是模型分数,而是用户体验

六、那微调到底什么时候该上?

说到调优,最后总绕不开“微调”。

但微调恰恰是最容易被神化的一环。

很多团队的逻辑是:

Prompt 调了半天还不满意,不如直接微调吧。

听起来很有道理,但问题是:

如果前面的任务定义、Prompt、知识、检索、输出约束都没理顺,微调大概率也只是把这些问题“固化”进模型里。

从落地角度看,微调更适合解决的是“习惯问题”,而不是“知识问题”。

比如:

  • 某类固定任务长期高频出现;
  • 你手里有很多高质量样本;
  • 你希望模型长期稳定输出某种风格或结构;
  • Prompt 和 RAG 都已经调得差不多了,但表现还是不够稳。

这时候微调才真正有价值。

换句话说,微调不是第一反应,而是后手。

从产品成本角度,这也很合理:

Prompt 调优便宜,RAG 补知识灵活,输出约束可控,而微调往往意味着更高的数据准备成本、更高的维护成本,以及更重的版本管理负担。

所以,别一上来就微调。

大多数场景,问题根本没走到那一步。

七、结语:调优不是在“修模型”,而是在“修产品”

回到最开始的问题:

大模型效果不好,到底该先改什么?

答案其实很清楚:

先别急着怀疑模型。

先看看你的任务是不是定义清楚了,Prompt 是不是说人话了,知识是不是补对了,RAG 是不是找准了,输出是不是控住了,评测是不是做明白了。

因为大模型应用本质上不是一个模型问题,而是一个产品系统问题

它考验的,不只是你会不会写 Prompt,懂不懂微调,而是你能不能像一个成熟产品经理一样,把模糊问题拆开,把复杂链路理顺,把坏体验定位清楚,然后一步一步把系统拉回稳定。

所以,真正好的调优,不是“让模型更像人”,而是:

让这套 AI 产品,更像一个真正能被用户信任、能稳定交付结果的产品。

本文由 @产品岛 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 调优就像看病,先查病因再下药,别动不动怪模型不行。

    来自河北 回复