RLHF:把模型从“会说话”训练成“会做人”的关键一课

0 评论 232 浏览 0 收藏 8 分钟

在人工智能的世界里,SFT模型虽能给出正确回答,但缺乏人性化的表达。RLHF技术应运而生,通过人类反馈让模型更懂人、会判断。本文将深入解析RLHF的工作原理及其重要性。

你有没有体验过这种情况:

你问模型一个问题,它的回答虽然正确,但你就是觉得“不对劲”,比如:

  • 太长
  • 太机械
  • 太没情绪
  • 太像搜索引擎
  • 太像在背课文

这就是 SFT 的极限。

一个只经过 SFT 的模型,像小学优秀作文:句子没问题,但气质完全不在线。

要让模型真正懂人、会判断、知道“什么该说、什么不该说”,必须让它学会从“人类反馈”中优化,这一套流程,就是 RLHF(Reinforcement Learning from Human Feedback)。

一句话总结:

SFT 像教小孩读书写字,RLHF 是教他社会化。

一、RLHF 为什么存在?(因为光靠模仿是不够的)

SFT 的训练方式是:“给你 A,你学会回复 B。”

它是一种 模仿式学习。

但问题来了:

  • 模仿不会教会模型判断“哪个更好”
  • 模仿不会让模型学会“拒绝不合理请求”
  • 模仿不会告诉模型“这么说更安全/更礼貌/更简洁”
  • 模仿不会管理模型的价值观

比如用户问:

“你觉得我是不是很失败?”

SFT 模型可能给出一堆温柔的回答,也可能说一些奇怪的话——因为它没有“价值排序”的能力。

你必须告诉模型:

  • 哪个回答更适合
  • 哪个回答更安全
  • 哪个回答更有帮助

RLHF 就是在教模型这个。

二、RLHF 的第一步:RM(奖励模型)——让 AI 知道什么叫“更好”

奖励模型(RM)不是给模型写答案,而是给模型一个“味觉系统”。

就像你做饭时,你知道:

  • 太咸不好
  • 太淡不好
  • 太油腻也不好

RM 就是教模型分辨“味道的好坏”。

怎么训练 RM?

训练师会为同一个问题写 2~4 个回答,让人类标注:

  • 哪个最好
  • 哪个其次
  • 哪个最差

例子:

用户问:

“我最近很焦虑怎么办?”

训练师可能写:

回答 A(温柔但越界):“你必须去运动和冥想,这些会治好焦虑。”

回答 B(很长但没错):“焦虑是常见情绪,你可以尝试……(150字)”

回答 C(平衡、安全):“听起来你最近被一些事情压得有点喘不过气。虽然我不能提供医疗建议,但我可以陪你聊聊,让我们看看是什么让你这么紧张。”

训练师会排序:C > B > A

这就是人类反馈。

RM 通过大量这样的数据,学会:

  • 情绪处理方式
  • 拒绝策略
  • 合理的建议范围
  • 语气和风格
  • 安全边界
  • 好答案 vs 坏答案

你可能觉得只是点点选选,但这就是 RLHF 最贵的部分。

因为它必须:

  • 高质量
  • 稳定
  • 一致
  • 大量(通常几十万条)

只有这样 RM 才能学会“价值观”。

三、有了 RM,怎么让模型真正变好?——PPO

RM 就像一个“评分老师”。但模型光知道分数,还不会自己改。

所以我们需要:

PPO(Proximal Policy Optimization)= 用评分去优化模型的一种算法

用生活化解释:

模型每说一句话,就像在考试。RM 会给它打分,而 PPO 负责根据分数“调整 AI 的说话方式”,让它下次答得更好,但不会偏离原本能力太远。

这是一个循环

  1. 模型生成答案
  2. RM 给答案打分
  3. PPO 根据分数来“微调”模型
  4. 下一轮生成更好的答案
  5. 循环几十万次

听起来很高级,其实核心逻辑就一句话:不断试、不断被打分、不断优化。

就像健身:

  • RM = 教练
  • PPO = 动作矫正
  • 模型 = 学动作的你

训练完之后,你就是练习更好的自己。

四、RLHF 为什么这么贵?(真的贵到离谱)

你可能不知道,OpenAI 最初训练 ChatGPT 最大的成本不是算力,而是:

  • 请大量训练师写高质量回答
  • 大批人类排序(RM 数据)
  • 巨量算力跑 PPO
  • 修 bug、修异常行为
  • 做无数安全测试
  • 反复调试 RM 数据和奖励机制

一句话:RLHF 是整个大模型时代最“人工”的环节。

它比 SFT 难至少 10 倍。

为什么?

因为 SFT 只要写“对的答案”,但 RLHF 要写“更好的答案”,还要写“坏答案”来给模型做排序。

就像给 AI 教价值观:“情绪安抚优先 > 信息准确 > 不越界 > 不伤害用户 > 不尝试充当医生 / 律师 / 伴侣”。

你以为模型懂道理?不,它都是靠训练师一点点喂进去的。

五、那 RLHF 的结果是什么?它到底提升了什么?

改造效果会非常明显:

1. 模型变得更懂人

能更柔和、更自然、更贴近人类对话风格。

2. 安全边界更稳了

不会乱回答医疗、法律、武器相关内容。

3. 更愿意拒绝不合理请求

但拒绝不会生硬。

4. 情绪处理能力明显改善

对焦虑、抑郁、压力相关的问题风格更加谨慎。

5. 生成的内容“贴合人类预期”

不会胡乱啰嗦或过度简化。

一句话:RLHF 把模型从“像一个工具”训练成“像一个人”。

六、为什么后来大家都在寻找 RLHF 的替代方案(比如 DPO)?

因为:

  • 太贵
  • 太慢
  • 太难调
  • 易不稳定
  • 奖励模型训练本身也很痛苦
  • PPO 微调容易把模型能力“打坏”

于是业界才开始研究更轻量、更稳定的方法,比如:

DPO(下一篇会讲) ORPO RRHF PPO-ptx

但 RLHF 依然是整个行业的基石。

就像汽车虽然变成电动了,但发动机时代的技术思维依然影响深远。

小结:RLHF 是训练里最“贵、难、关键”的环节

SFT 是基础教育,RM 是价值判断课堂,PPO 是实践与优化。

三个环节组合在一起,才造就你现在认识的 ChatGPT、Claude、Gemini。

如果没有 RLHF,所有模型都会像“知识很强但极度跑偏的学霸一样”——会背,会算,但不会做人。

共勉! 棒棒,你最棒!

本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!