总结:模型为什么越来越像人,而你为什么会在意这一点

0 评论 1055 浏览 0 收藏 7 分钟

大模型的每一次进化,背后都是人类经验的深度编码。从预训练的基础语言理解,到SFT的行为规范,再到RLHF的情感分寸,这条技术链的本质是人类如何将自己的沟通逻辑、价值判断和社交规则系统化地注入AI。本文将揭示大模型训练过程中那些看不见的人类‘脚手架’,以及它们如何塑造AI的行为边界与人格特质。

如果你是从第一篇一路读到这里的,大概率已经发现了一件事:这整个系列,看起来是在讲大模型训练,其实一直在讲

我们从“预训练”开始,说模型怎么读遍世界的文本;讲到 SFT,说人类如何一条条示范,把“正确回答”喂给模型;再到多轮对话,讨论为什么真正的对话远比回答问题困难;接着进入 RLHF,看人类偏好如何一点点塑造模型的行为边界;最后用 DPO 收尾,讲行业如何在现实成本和理想效果之间做选择。

表面看,这是一个技术流程。但如果你换个角度看,它更像一条把人类经验不断压缩、抽象、再交给机器的路径

我们一开始,其实只想要一个“会说话的模型”

在预训练阶段,我们的目标非常单纯:只要它懂语言就行。

于是模型读了无数文本,学会了词语如何连接、句子如何成立。

它很聪明,甚至在某些方面远超人类。但你很快会发现,它不太“好用”。

它可能会一本正经地胡说八道;可能完全不理解你真正想要什么;可能在情绪问题上显得冷漠;也可能在敏感问题上毫无分寸。

于是我们意识到一件事:“懂语言”和“懂人”是两回事。

SFT:第一次把“人类说话的方式”教给模型

SFT 是一个转折点。它不是让模型更聪明,而是让模型更像一个能正常交流的人

在这个阶段,人类开始明确告诉模型:

  • 这样回答是好的
  • 那样回答是糟糕的
  • 有些话不能说
  • 有些时候要多问一句
  • 有些时候要停下来

你之所以会觉得某些模型“有耐心”“不敷衍”“讲得清楚”,并不是因为它理解了你,而是因为有人提前替你把“什么叫好回答”写好了。

SFT 是模型第一次真正接触“人类的表达习惯”。

多轮对话:模型开始被要求“听懂你在说什么”

单轮问答解决的是任务,多轮对话解决的是关系

当模型需要记住你刚才说过的话、理解你话里的情绪、判断你是在抱怨、求助还是随口一说,它面对的就不再是语言问题,而是沟通问题。

多轮对话训练之所以困难,是因为它逼着模型进入一个很像人类的场景:你不能只盯着这一句话,而要理解整个过程

也正是在这个阶段,训练师的工作开始越来越像写剧本、做心理判断、拿捏分寸。

模型的“人味”,在这里第一次变得明显。

RLHF:人类第一次系统性地教模型“什么更好”

SFT 教的是“可以怎么说”,RLHF 教的是“什么样的说法更好”。

这是一个非常人类的步骤。

因为现实中,我们并不会只满足于“说得通”,我们更在意:

  • 哪种说法更舒服
  • 哪种更安全
  • 哪种更有帮助
  • 哪种不伤人

RLHF 把这些模糊但重要的判断,变成了训练信号。哪怕代价高、流程复杂,它依然极其关键。

你现在感受到的那种“模型似乎懂分寸”的体验,很大一部分来自这里。

DPO:当行业开始承认“我们也得现实一点”

DPO 的出现,并不是否定 RLHF,而是一次非常诚实的自我调整。

它在说的是:如果我们已经知道人更喜欢哪个答案,那就直接教模型往这个方向靠。

不再追求每一步都完美可解释,而是追求稳定、可控、可落地。

这不是退步,而是成熟。

就像人不再用最复杂的理论指导生活,而是靠经验做判断。

回头看,你会发现这 5 篇其实在讲同一件事

模型从来不是自己“变像人”的。它每往前走一步,背后都有大量人类在做判断、写示范、定规则、踩刹车。

它会不会安慰你,会不会拒绝你,会不会在关键问题上保持克制,并不是因为它有情绪,而是因为人类把这些情绪和边界提前整理好了

从这个意义上说:

大模型并不是在学习世界,而是在学习我们如何看待世界。

最后想说的一句话

如果你只是把这些文章当成“技术科普”,那它们已经完成任务了。但如果你能从中感受到一点更微妙的东西——比如人类经验是如何被一点点拆解、结构化、再交给机器的——那你可能已经理解了这个行业最重要的部分。

不是模型有多强,而是我们愿意把多少判断、耐心和责任交给它

这可能也是为什么,AI 越来越强的同时,“人类在训练中的角色”反而越来越重要。

共勉!棒棒,你最棒!

本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!