大模型是如何被训练出来的?从预训练到后训练的一次性讲透

0 评论 803 浏览 2 收藏 7 分钟

大模型从“学认字”到“学做人类偏好”的成长之路,是如何一步步训练出来的?本文带你了解从预训练到后训练的全过程,以及训练师在其中的关键作用。

随着大模型逐渐走进每个人的生活,我们似乎已经习惯了和它对话、让它写作、让它总结资料。但绝大多数人不知道的是:这些 AI 并不是突然拥有智能的。它从最初只会“猜单词”的阶段,通过一层层训练和优化,最终变成能陪你聊天、能写代码、能提建议的数字伙伴。如果把 AI 比作一个孩子,那么大模型的训练,就是一条从“学认字”到“学表达”,再到“学做人类偏好”的成长路径。

为了让你在一篇文章里彻底搞懂大模型到底是怎么训练出来的,我们从最底层的预训练讲起,再到后训练、微调的项目流程。你不需要任何算法背景,只需要像看故事一样阅读就好。

一、预训练:让模型拥有“语言直觉”的大工程

如果你把模型想象成一个人,那么预训练阶段就像把他扔进一个巨大图书馆,让他从小读到大,不停读到吐。这些“书”包含:

  • 网站文章
  • 小说
  • 论文
  • 新闻
  • 代码
  • 百科知识
  • 各类专业文本

预训练的核心任务只有一个——预测下一个词。

但别看任务简单,读的量足够大,它会逐渐建立语言规律的直觉。例如:

“今天我想喝一杯——”模型能猜出“奶茶”、“咖啡”、“水”,并懂得选择哪个更自然。

这是大模型的底层能力来源,也是在这个阶段产生了我们常说的参数(parameters)。参数就像模型的大脑神经连接,越多代表模型越“聪明”。而聪明到一定程度,会出现一种特别神奇的现象——涌现能力(Emergent Abilities)

所谓“涌现”,就好像平时成绩一般的学生突然某天开窍,数学题全都会做了。并不是他被教了什么,而是知识积累到了某个阈值,能力自己“跳”出来。

但预训练也有它的问题。因为它只是从海量文本中学语言,所以非常容易产生幻觉(Hallucination)——就是一本正经地胡说八道。它并不知道什么是真的,只是觉得“这个词接下来应该出现”。

这就是为什么预训练只是“基础教育”,还远远不能让模型安全可靠地用在产品里。

二、后训练:把聪明的模型,训练成“会说话的模型”

预训练结束后,我们得到一个能力惊人但“不太会说人话”的大模型。它的表达可能生硬、逻辑跳跃、容易胡说,甚至无法分辨是否该拒答敏感问题。所以接下来,我们必须对它进行第二阶段的打磨,也就是所谓的后训练(Post-training)

后训练的目标很明确:

  • 修正模型乱回答的倾向
  • 学会理解指令
  • 学会拒绝危险内容
  • 学会用人类能接受的方式表达
  • 让它的回答更贴近实际应用
  • 让它“像个聊天对象”而不是只会猜词的机器人

如果说预训练是“知识储备”,那后训练就是“行为矫正”+“社交训练”。

这是大模型进化的关键一步,让它从一个“读书机器”变成真正能跟人类互动的智能体。

三、为什么训练师的工作如此重要?

许多人误以为大模型全部都是算法搞出来的。实际上,算法只是“搭框架”,真正让模型“像人”的,是在后训练阶段由训练师、标注者和数据团队共同完成的细致工作。

训练师在这里扮演了极重要的角色:

  • 决定模型应该如何回答问题
  • 决定什么是“好的回答”
  • 决定什么内容需要拒答
  • 决定什么样的数据能进入模型
  • 决定模型最终的“对话风格”

换句话说,一个模型是不是“冷冰冰”、是不是“啰嗦”、是不是“爱瞎编”、是不是“温柔有耐心”,都与训练师的工作息息相关。你现在之所以觉得 GPT、Gemini、Claude“感觉不一样”,很大部分不是模型结构不同,而是训练团队提供的数据风格不同。

四、小结:大模型是被“养”出来的,不是凭空长出的

我们常说 AI 是“拟人化”的,它懂语言、懂指令,甚至懂情绪。但你现在应该明白,这一切能力都不是天生的,而是通过:

  1. 海量文本堆起来的预训练(基础认知)
  2. 大量人工示范与规则构建的后训练(能力矫正)

才变成今天你能看到的样子。

相比算法的复杂,我更希望你记住一句话:

AI 不是自然智能,而是人类智能的放大结果。它会什么、不会什么,都是我们教出来的。

共勉!棒棒,你真棒!

本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!