AI PM 搞 SFT，你真正要干的是这几件事 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI PM 搞 SFT，你真正要干的是这几件事

Talen

2026-05-14

0 评论 99 浏览 0 收藏

9 分钟

AI产品经理在SFT（监督式微调）中的角色远比想象中关键。本文揭示了从判断是否真的需要微调，到制定可量化的目标与标注标准，再到数据分布与训练监控的全流程避坑指南。那些让算法团队束手无策的「爆款感」定义、标注SOP的魔鬼细节，以及模型「变蠢」的隐蔽陷阱，都将在实战经验中得到清晰拆解。

做 AI 产品一段时间后，我发现一个规律：很多团队 SFT 做失败，不是因为算法不行，是因为 PM 没搞清楚自己该负责什么。

这篇文章是我自己学完之后的理解，不是技术教程，就是把我觉得 PM 必须懂的那些事说清楚。

第一件事：先搞清楚要不要做 SFT

遇到模型效果不好，很多人第一反应是”要不要微调”。这个反应通常是错的，因为微调成本最高，应该是最后才动的牌。

我现在的判断顺序是这样的：

先试提示词（Prompt）。如果模型其实懂这件事，只是格式不对或者语气不对，改提示词就够了，成本几乎为零。

提示词搞不定，看是不是知识问题。如果模型在乱说——给出了错误信息、编造了不存在的内容——这是知识库的问题，往里塞文档让它说话前先查资料，而不是微调。

上面两条都走不通，才考虑 SFT。它解决的是那种”怎么写提示词都不稳定”的问题：特定的说话风格、极度定制的输出格式、复杂的业务逻辑。

一个判断标准我觉得比较好用：如果你能用一段话把标准说清楚，提示词大概率够了。如果你必须靠举例子来说明好坏，而且例子得超过二十个，差不多就到了考虑 SFT 的边界。

PM 在 SFT 里，核心就是三件事

SFT 这件事，算法工程师负责训练，但整个项目的方向盘在 PM 手里。

定目标：说清楚模型微调之后要达到什么状态，要能量化。”写得更像博主”这种说法没用，要说”在测试集上，人工评分的爆款感从 3 分提升到 4 分以上”。目标不清楚，训练就没有方向。
定标准：这是 PM 最核心的交付物。模型没有价值观，它的价值观是你用数据喂出来的。什么是好回答、什么是烂回答，必须由你来定义，落成一份标注 SOP。
做终审：模型练出来能不能上线，这个判决权在你手里。不是算法说”练好了”就算过关，是你准备的那套测试题跑出来结果达标，才叫过关。

最花时间的活儿是写好一份标注 SOP

SOP 是给标注员写的工作指南，写得模糊，每个人按自己理解来，模型学出来的逻辑就会乱。

一份能用的 SOP，至少要把这几件事说清楚：

这个模型要扮演什么角色，说话风格是什么样的。输入和输出的格式长什么样，如果有结构化要求就定死格式。每个维度的好坏怎么判断，要给体感描述而不是空洞的数字——比如”5 分是像真人博主、有情绪起伏，1 分是开口就在这个快节奏的时代”。再挑几个满分样本和几个典型烂例子，说清楚好在哪、烂在哪。

写 SOP 之前，建议先自己手动写 20 组训练样本。 在写的过程中，你会发现很多原来根本没想到的细节——日期格式、空字段怎么填、遇到矛盾信息怎么处理。这些细节不亲手写一遍，你是发现不了的。

SOP 写完之后，找两个完全不懂业务的人按照它标几条数据，看他们标出来的结果对不对味——这就是 SOP 合不合格的最直接检验。

数据：量不够靠质，但分布别偏

数量上，MVP 阶段几百到两千条高质量数据基本够用。但数量不是关键，分布才是关键。

如果你做美食文案，训练集里 90% 都是火锅，模型练完之后处理甜品、轻食的能力会断崖式下跌。在准备数据之前，先列一个分类表，确保每个子场景都有覆盖，宁可每类少一点，也别让一个类型把整个数据集占满。

还有一个陷阱：用 AI 批量生成训练数据的时候，模型最后学到的是生成工具的语气，而不是真实用户的语气。生成的数据必须经过人工处理，把 AI 腔剔掉，否则你的产品永远有股机器感。

训练过程中，有两条线值得你盯着看

算法跑训练的时候，你去问进度，他会打开一个面板给你看两条曲线：训练损失和验证损失。

理想的状态是两条线都在稳步下降，差距不大。这说明模型在认真学你 SOP 里定义的逻辑。

危险信号是其中一条线开始往上翘，两条线分道扬镳。这说明模型开始死记硬背那些训练例子，遇到新的场景就不行了。出现这个情况，要让开发及时停止训练，从效果最好的那个时间点取出模型。

有一点需要纠正一个常见误解：很多人说”验证曲线不能比训练曲线低”，这个说法不准确。 由于训练和验证时模型的工作方式有一些技术差异，验证曲线轻微低于训练曲线是正常现象，不是异常。真正需要警惕的是两条线走势明显背离，而不是谁高谁低。

一个可以直接问开发的话：“两条曲线的趋势有没有出现明显的分叉？” 这一句话就够了，不需要深入技术细节。

几个真实的坑

以为训练指标好就等于产品好用。 训练指标衡量的是数学层面的准确程度，它测不出文案有没有人味、情绪到不到位。指标再好看，如果输出还是”在这个快节奏的时代”开头，这个微调就是失败的。

评测集没有代表性。 如果测试题全是简单场景，结果会虚高。上线之后遇到稍微复杂一点的真实请求，模型就露馅。评测集要覆盖不同难度，边缘情况也要有。

没有版本管理。 SFT 不是一次性的，每轮迭代都可能出现练好了这个、坏掉了那个的情况。每个版本的模型、数据、评测结果要有对应记录，出了问题能立刻切回上一个可用版本。这件事要在项目启动时就说清楚，不能等出问题才想起来。

忘了检查模型有没有”变蠢”。 模型学了特定风格之后，有可能把原来的一些通用能力丢掉。评测时除了业务场景题，加几道普通常识题摸一下底——如果爆款感提升了但基础智力退化了，这个版本不合格。

说到底

SFT 这件事，算法工程师能把模型练出来，但他没办法告诉你”爆款感”是什么、”博主味”长什么样。这件事只有你能定义，也只有你能判断有没有学到位。

训练指标达标只是入场券。你手里那套测试题跑出来的结果，才是最终的判决。

本文由 @Talen 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Talen

极度冷静的“i人”，用最大的耐心拆解最复杂的业务需求。

6篇作品 3091总阅读量

6000字营销真相：写给管理者的7个品牌和营销建议！

07-317725 浏览

6000字营销真相：写给管理者的7个品牌和营销建议！

MOO音乐宣布停服，精简版APP还有没有未来？

12-054996 浏览

MOO音乐宣布停服，精简版APP还有没有未来？

如何让可用性测试像剧本杀一样容易

03-153018 浏览

如何让可用性测试像剧本杀一样容易

“看短剧充了4万元后，我妈后悔了”

12-144300 浏览

“看短剧充了4万元后，我妈后悔了”

Dock栏设计专题｜主页Home键设计方案-HMI方向

11-282416 浏览

Dock栏设计专题｜主页Home键设计方案-HMI方向

评论

目前还没评论，等你发挥！