大模型效果不好?先别急着微调:产品经理该如何理解“调优”
大模型应用效果不佳时,真正的瓶颈往往不在模型本身。从任务定义模糊到Prompt设计不当,从知识缺失到检索偏差,再到输出约束不足,每个环节都可能成为致命短板。本文深度拆解大模型调优的五大核心层级,揭示如何通过系统化诊断与精准干预,将『玄学调参』转化为可复用的产品方法论。

很多团队做大模型应用,最常见的误区是:结果一不好,就开始怀疑模型不够强,或者急着上微调。
但真实情况往往是,问题根本不在模型本身,而在任务定义、Prompt、知识检索、输出约束,甚至评测方式上。
从产品视角看,大模型调优不是“参数游戏”,而是一套完整的问题定位—策略迭代—效果验证机制。
这篇文章想聊清楚一件事:大模型应用效果不好时,究竟该先改什么,后改什么,产品经理又该如何看待“调优”这件事。
一、为什么很多团队一做 AI,就很快陷入“调优焦虑”?
做过大模型应用的人,大概率都经历过这样的场景:
- 第一次 demo 看起来不错;
- 一上真实数据,效果开始飘;
- 有些回答很好,有些回答非常差;
- 同一个问题,今天好、明天坏;
- 团队讨论半天,最后得出一句模糊结论:“模型不太行。”
这几乎是大模型产品落地时的典型瞬间。
问题是,这句话通常没什么用。
因为“大模型效果不好”并不是一个真正可执行的问题定义。
它背后可能是很多完全不同的问题:
- 任务没定义清楚;
- Prompt 写得太模糊;
- 模型不知道业务知识;
- RAG 找错资料;
- 输出格式没有约束;
- 测试样本本身就不稳定;
- 当然,也可能真的是模型能力不够。
换句话说,调优的核心,不是“想办法让模型更聪明”,而是“先把问题定位准确”。
这件事听起来很工程,但本质上其实很产品。
因为产品经理最擅长的,不就是把一个模糊的“用户不满意”,拆成清晰的、可处理的问题吗?
二、很多人理解的“调优”,其实从一开始就调错了方向
一提到大模型调优,很多人脑子里会立刻浮现三个词:
- Prompt Engineering
- RAG
- Fine-tuning
但如果从落地角度看,这三个东西并不是平行关系,更不是可以乱选的工具箱。
它们其实处在一条很明确的优先级链路上。
一个更合理的顺序应该是:
先看任务定义,再改 Prompt,再补知识,再控输出,再做评测,最后才考虑微调。
也就是说,调优不是“想到什么试什么”,而是要按层排查。
为什么?
因为大模型应用不是一个只有“模型”这一层的系统。
它更像一条完整链路:
用户输入
→ 任务理解
→ Prompt 设计
→ 是否需要补知识
→ 检索与召回
→ 模型生成
→ 输出格式校验
→ 效果评测
→ 持续迭代
只要这条链路里任何一环出问题,用户最后看到的结果都会变差。
如果你不先判断问题出在哪一层,就直接换模型、上微调,往往只会花很多成本,解决很少的问题。
所以,真正成熟的调优,永远是一个“先诊断,再下药”的过程。
三、大模型效果不好,通常不是“模型不行”,而是这五层出了问题
1. 任务定义出了问题
这是最容易被忽略的一层,但往往也是最根本的一层。
很多团队给模型的任务描述,其实并不清楚。
比如他们说:
“帮我总结一下这段内容。”
看起来没问题,但实际上这里至少有四个没说清楚的点:
- 总结给谁看?
- 重点是提炼观点,还是压缩字数?
- 需不需要保留业务术语?
- 能不能推断原文没写出来的信息?
模型并不是“理解你真正意图”的存在,它只能基于你给出的描述去猜。
于是你会看到它输出一段“也不算错,但明显不是你想要的东西”。
这其实不是模型问题,而是任务定义问题。
从产品视角看,这很像需求描述不清导致研发做偏。
你不能说“功能做得不行”,更准确的说法应该是:
需求一开始就没有被定义清楚。
2. Prompt 不够清楚,导致模型自由发挥
这是最常见的一层。
很多人把 Prompt 理解成“问法”,但更准确地说,Prompt 其实是模型的工作说明书。
一个好 Prompt,通常至少要包含:
- 角色:你是谁
- 任务:你要做什么
- 规则:你必须遵守什么
- 输出格式:你怎么交作业
- 输入材料:你基于什么做
而现实中很多 Prompt 是什么样的?
“帮我优化一下这段绩效总结。”
这句话在日常沟通里没问题,但对模型来说太模糊了。
它不知道你是想让它:
- 写得更正式;
- 写得更简洁;
- 突出成果;
- 避免空话;
- 还是避免敏感表达。
于是模型只能自由发挥。
所以大量所谓“效果不稳定”的问题,本质上不是模型能力波动,而是 Prompt 没把边界说清楚。
换句话说,Prompt 调优,不是改措辞那么简单,而是在补任务边界。
3. 模型缺的不是能力,而是知识
很多企业场景一开始就踩这个坑。
团队看到模型答得不准,就觉得是不是模型不够强。
但真正的问题往往是:模型根本不知道你公司的业务知识。
比如你问:
- 绩效反馈中哪些表达有合规风险?
- 晋升评审偏离度预警应该怎么做?
- 人才盘点里某类结论是否符合当前规则?
这些问题不是通用知识题,而是高度依赖:
- 公司制度
- 业务规则
- 流程定义
- 历史案例
- 组织语境
模型再强,也不可能天然知道你公司内部的这些东西。
这时候你继续调 Prompt,收益会非常有限。
因为你调的不是“理解方式”,而是它压根没有的“信息”。
这就是为什么很多 AI 产品到了企业场景,RAG 会成为刚需。
RAG 的本质,不是让模型变聪明,而是让模型在回答之前先拿到参考资料。
所以,当问题是“模型不懂业务”时,真正该补的不是 Prompt,而是知识。
4. 用了 RAG,也不代表答案一定会变准
这是第二个常见误区。
很多团队一接知识库,就觉得问题解决了。
但实际上,RAG 只是把“知识问题”从模型层,转移到了检索层。
也就是说:
以前的问题是模型不知道;
现在的问题变成了系统能不能把对的资料找出来。
这两者不是一回事。
RAG 最常见的问题通常有这些:
- 找来的内容不相关;
- 找来的内容不完整;
- chunk 切得太碎,信息断裂;
- chunk 切得太大,噪音太多;
- 知识库本身过时、重复、冲突。
于是你会看到一种很典型的现象:
“我们明明接了知识库,为什么还答错?”
答案通常不是“模型没读懂”,而是你给它看的材料就不对。
从产品角度看,这其实很像推荐系统或搜索系统的问题:
真正决定结果的,往往不是最后的“展示文案”,而是前面的召回和排序。
所以,做大模型调优的人,迟早都会意识到:
RAG 调优,很多时候其实更像“搜索调优”,而不是“生成调优”。
5. 很多“效果不好”,其实只是输出没有被约束
还有一种情况非常典型:
模型其实答得差不多,但产品依然不能用。
为什么?
因为它输出不稳定:
- 该给 JSON 的时候给了一段散文;
- 该输出三个字段的时候多写了两段解释;
- 该简洁的时候写得很长;
- 该中立的时候用了过度修饰的表达。
这些问题表面看像“生成质量差”,但本质上更像是产品接口没约束好。
这也是为什么结构化输出、格式校验、规则后处理在大模型应用里越来越重要。
因为产品能不能真正接住模型,不只是看“内容对不对”,还要看“形态稳不稳”。
从这个角度说,调优也不只是“让模型答得更好”,而是让它更适合接入系统。
四、真正的调优,不是碰运气,而是建立“坏例子驱动”的迭代机制
很多团队做调优时,最大的问题不是不会改,而是没有依据地乱改。
今天觉得结果太空,于是加一条 Prompt。
明天觉得还是不稳,于是再换个模型。
后天觉得知识不够,于是再接个知识库。
折腾一圈之后,团队自己也说不清:
- 到底哪一步有效;
- 哪一步没效果;
- 为什么今天看起来好一点;
- 为什么明天又变差了。
这类调优,本质上不是调优,而是试运气。
成熟的调优应该是什么样?
答案是:以 badcase 为中心,建立可比较、可复盘的优化机制。
所谓 badcase,不是泛泛地说“这条回答不好”,而是把问题说具体:
- 这条总结漏掉了第二个核心项目;
- 这条回答引用了错误制度;
- 这条输出不是目标格式;
- 这条建议明显超出了原文依据;
- 这条内容语言太空,没有保留关键业务动作。
一旦你能这样描述问题,调优方向就开始清晰了。
因为你不再是在面对“效果不好”这个大黑箱,而是在面对一个个具体问题:
- 是漏召回?
- 是没限制编造?
- 是没要求覆盖所有重点?
- 是没指定结构输出?
- 还是模型真的推理不过来?
这时候调优才真正开始像产品优化,而不是像玄学实验。
五、从产品经理视角看,调优本质上是在做三件事
第一件事:把“效果差”翻译成“问题类型”
这是调优最核心的能力。
很多团队之所以调不动,不是因为不会写 Prompt,而是因为他们没有能力把现象翻译成问题。
比如一句“模型不太行”,在产品经理看来是没意义的。
你真正需要的是:
- 是准确性问题?
- 是完整性问题?
- 是风格问题?
- 是格式问题?
- 是知识问题?
- 是流程问题?
当你把问题分类清楚后,解决方案通常才会浮现出来。
第二件事:建立正确的调优优先级
一个成熟团队的调优顺序,通常是这样的:
- 先看任务定义:先确认你到底要模型做什么。
- 再改 Prompt:把边界、格式、规则、示例说清楚。
- 再补知识:需要业务知识,就上 RAG 或补上下文。
- 再查检索:如果已经有知识库,先看检索是否正确。
- 再控输出:需要结构化、可消费的结果,就做格式约束。
- 最后才考虑换模型或微调
当以上几层都做得差不多,还是不够好,再去碰更重的方案。
这个顺序非常重要。
因为它决定了你是在用最小成本解决问题,还是一上来就用最大成本赌运气。
第三件事:把调优做成一个可持续系统,而不是一次性动作
很多团队把调优理解成上线前的一项工作。
但真实情况是,大模型应用的调优更像运营:
- 需要持续收集 badcase;
- 需要不断补充评测集;
- 需要跟踪改版前后差异;
- 需要知道哪些问题越来越少,哪些问题反而变多。
这意味着,大模型调优不该只是算法或研发的事情。
它需要产品、业务、算法、工程一起参与,形成一套持续迭代机制。
因为最终你要优化的不是模型分数,而是用户体验。
六、那微调到底什么时候该上?
说到调优,最后总绕不开“微调”。
但微调恰恰是最容易被神化的一环。
很多团队的逻辑是:
Prompt 调了半天还不满意,不如直接微调吧。
听起来很有道理,但问题是:
如果前面的任务定义、Prompt、知识、检索、输出约束都没理顺,微调大概率也只是把这些问题“固化”进模型里。
从落地角度看,微调更适合解决的是“习惯问题”,而不是“知识问题”。
比如:
- 某类固定任务长期高频出现;
- 你手里有很多高质量样本;
- 你希望模型长期稳定输出某种风格或结构;
- Prompt 和 RAG 都已经调得差不多了,但表现还是不够稳。
这时候微调才真正有价值。
换句话说,微调不是第一反应,而是后手。
从产品成本角度,这也很合理:
Prompt 调优便宜,RAG 补知识灵活,输出约束可控,而微调往往意味着更高的数据准备成本、更高的维护成本,以及更重的版本管理负担。
所以,别一上来就微调。
大多数场景,问题根本没走到那一步。
七、结语:调优不是在“修模型”,而是在“修产品”
回到最开始的问题:
大模型效果不好,到底该先改什么?
答案其实很清楚:
先别急着怀疑模型。
先看看你的任务是不是定义清楚了,Prompt 是不是说人话了,知识是不是补对了,RAG 是不是找准了,输出是不是控住了,评测是不是做明白了。
因为大模型应用本质上不是一个模型问题,而是一个产品系统问题。
它考验的,不只是你会不会写 Prompt,懂不懂微调,而是你能不能像一个成熟产品经理一样,把模糊问题拆开,把复杂链路理顺,把坏体验定位清楚,然后一步一步把系统拉回稳定。
所以,真正好的调优,不是“让模型更像人”,而是:
让这套 AI 产品,更像一个真正能被用户信任、能稳定交付结果的产品。
本文由 @产品岛 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

起点课堂会员权益





调优就像看病,先查病因再下药,别动不动怪模型不行。