大模型训练大纲

0 评论 217 浏览 0 收藏 19 分钟

Transformer架构如何支撑GPT与BERT的差异化能力?MOE模型如何实现稀疏激活与动态分配的巧妙平衡?本文深度拆解大模型训练的7大核心流程与关键组件,从矩阵评估到框架选择,揭示AI研发过程中模型收敛与过拟合的本质差异,并解读MCP协议如何重塑AI与外部系统的连接标准。

1、两种模型架构设计

架构1-Transformer

Transformer核心3要素:自注意力机制、位置编码、前馈神经网络(FNN)

输入部分:

源文本【嵌入层】及其【位置编码器】

目标文本【嵌入层】及其【位置编码器】

编码器(Encoder)

由N个编码器层堆叠而成

每个编码器层由两个子层连接结构组成

第一个子层连接结构包括一个【多头自注意力子层】和【规范化层】以及一个【残差连接】

第二个子层连接结构包括一个【前馈全连接子层】和【规范化层】以及一个【残差连接】

解码器(Decoder)

由N个解码器层堆叠而成

每个解码器层由三个子层连接结构组成

第一个子层连接结构包括一个【多头自注意力子层】和【规范化层】以及一个【残差连接】

第二个子层连接结构包括一个【多头注意力子层】和【规范化层】以及一个【残差连接】

第三个子层连接结构包括一个【前馈全连接子层】和【规范化层】以及一个【残差连接】

输出部分:

线性层

Softmax层

架构2-MOE(混合专家模型)

定义:MOE(Mixture of Experts,专家混合模型),是 “提升模型容量而不增加计算量” 的模型架构设计范式

MoE 是作为架构优化范式,叠加在 Transformer 上(主流方式是替换 Transformer 的 FFN 层为 MoE 层)

核心:是 “分而治之”, 让不同的 “专家模块” 处理不同类型的任务,再通过路由网络整合结果。

组件:

专家模块(Expert):多个独立的小规模模型(如 Transformer 层),每个专家专注于某一领域或任务(如专家 1 处理数学推理,专家 2 处理文本生成);

路由网络(Router):根据输入的语义特征,计算每个专家的 “适配分数”,选择 Top-K 个专家(如 K=2)处理输入,未被选中的专家不激活;

门控机制(Gating):Top-K 专家的【输出】进行加权求和,得到最终结果,权重由路由网络的适配分数决定。

优势:

稀疏激活:每次仅激活少量专家(如 10%),计算量专家数量无关,仅与激活的专家数量相关;

动态分配:不同输入会被分配给不同专家,模型可自适应处理多领域任务(如同一 MOE 模型可同时做数学题、写文案、翻译)。

在不显著增加计算量的前提下,提升模型的参数规模和任务适配能力

2、两种Transformer模型

GPT

定义:

生成式预训练变换器Generative Pre-trained Transformer

深度学习-神经网络模型

Generative: 生成下一个单词

Pre-trained: 互联网文本预训练

Transformer: 架构

定位:生成式模型,核心任务是 “根据前文预测下一个词”,最终能输出连贯的文本。

特点:

构成:基于 Transformer 架构,但只用了 Transformer 的 Decoder(解码器) 部分。

单向注意力/自回归:训练和生成时,只能看到前文,看不到后文,比如写一句话时,模型只知道前面的字,要一步步猜后面该写什么。

即:只能看左边(过去),适合生成文本。

应用场景:

GPT 的核心特征就是基于单向自回归,具备强大的文本生成能力。

GPT 类模型常被用于对话、创作等生成类任务。

BERT

定义:

来自变换器的双向编码器表征Bidirectional Encoder Representations from Transformers

深度学习-神经网络模型

定位

理解式模型,核心任务是 “理解文本语义”,擅长做文本分类、情感分析、命名实体识别、问答匹配等任务

不擅长直接生成长篇文本

特点:

基于 Transformer 架构,但只用了 Transformer 的 Encoder(编码器) 部分。

双向注意力:预训练时采用双向掩码(Masked Language Model) 策略,比如把一句话里的某个词盖住,模型能根据这个词的前文 + 后文来猜被盖住的词是什么。基于双向注意力,上下文全都要,适合理解句意,具备强大的语义理解能力

输出的是文本的 “语义向量”,常作为下游任务的 “特征输入”(比如 RAG 中的向量化就常用 BERT 类模型)。

应用场景:

BERT 类模型常被用于向量化、文本语义理解(文本匹配)等理解类任务

进行embedding,将 文本数据转换数值型的向量表示。

3、大模型训练流程

大模型训练流程

名词1:载预定义词表(Vocabulary)

预定义词表(Vocabulary):是模型可识别的最小语义单元(Token)与唯一数字索引的映射字典.。

名词2:文本向量化

1、拆分文本:人工策略,将文本分成多个chunk块。

2、加载预定义词表(Vocabulary)

3、文本语义分析分词(chunk→token):将长文本(chunk)切分为模型可处理的最小语义单位(token),

4、映射为数字索引(Tokenization):对照词表,将每个token替换为对应的唯一整数,生成数字索引序列

5、生成辅助训练张量:生成attention_mask:标记有效token(1)和填充token(0),防止模型计算无效数据。生成token_type_ids(可选):区分不同文本片段(如prompt部分=0,response部分=1)。

名词3:多头注意力机制

用户输入信息,Attenetion计算,宏观来说一共三步:

第一步:计算相似度:Queryvs Key

第二步:权重归一化:Softmax

第三步:加权求和:权重×value

名词4:矩阵乘法

计算 Q 与 K 的相似度(矩阵乘法评分)

在一个头中,对 Q 和 K 进行矩阵乘法运算,矩阵中【每个元素】对应序列中一个词/tokne的 Query 与【另一个词】的 Key 的相互作用得分,表征两个词的关联程度。

计算式:\text{score} = Q \times K^T

名词5、6:Scale、Softmax

相似度权重归一化(Softmax 计算)

对缩放后的相似度得分执行 Softmax 函数,将任意实数的得分转化为 0-1 之间的概率分布,概率值的大小表征对应 Key 对当前 Query 的重要程度。

名词7:矩阵相乘权重累加求和

权重加权 Value(矩阵乘法加权求和)

将【归一化后的注意力权重】与【 Value 矩阵】进行乘法运算,得到融合上下文信息的向量表示。

意义:

信息整合:根据注意力权重的分布,为每个 token 融合序列中其他相关 token 的信息,权重越高的 token 贡献的信息越多。

上下文感知:每个 token 的最终表示不再孤立,而是结合了整个序列的语境,能够捕捉语义依赖(如“爱”在“我爱你”中融合“我”和“你”的信息)。

增强语义理解:有效处理多义词、长距离依赖等复杂语言现象。

名词8:损失函数

逐样本 / 逐 token 损失计算:

将预测概率分布与真实标签匹配,按损失函数公式计算【单样本 / 单 token 】的损失值,结合损失掩码屏蔽无效位置损失。

损失函数:

最小二乘法的【误差和】,控制参数的野蛮增长。

训练的本质就是:减小损失函数,往误差小的地方发展。

4、大模型二分类矩阵评估(准召率)

二分类测试:

首先,准备测试集(例如100个)

其次,问题特征:

1、都是二分类的问题类型(有明确的对、错)

2、都是微调训练给大模型【有关于的业务理解能力】的问题(例如:业务规则逻辑)

3、每个问题有标准答案,有标准答案(正确的业务规则)

4、最后,基于这100条数据的回答,依据准确答案,评价大模型回答的结果。

大模型回复结果:

TP(真阳性):正类被正确预测为正类的数量;(问 “地球是圆的吗”,模型答 “是”,实际也对)

TN(真阴性):负类被正确预测为负类的数量;(问 “太阳绕地球转吗”,模型答 “是”,实际错了 → 模型 “虚报”)

FP(假阳性):负类被错误预测为正类的数量;(问 “水的化学式是 H₂O 吗”,模型答 “不是” → 模型 “漏报”)

FN(假阴性):正类被错误预测为负类的数量。(无核心参考价值)

5、大模型训练评估结果

模型效果达到预期:模型在【训练集】和【测试集】上都表现良好

欠拟合:

欠拟合是指模型不能很好地拟合数据,即模型在训练集和测试集上的表现都很差。这通常是因为模型过于简单、数据量太小或特征选取欠佳等原因,无法捕捉到数据中的关键特征和模式。

过拟合:

过拟合指的是模型在训练数据上表现良好,但在新数据上的泛化能力较差。

通常是因为数据量太小、模型过于复杂或者特征选取过多等原因导致。

无法收敛:

模型不收敛 是指模型在训练过程中无法达到一个稳定的状态,即损失函数(或其他评估标准)不会随着训练迭代而减小或者改善。

这通常意味着模型无法有效地学习和适应数据,导致模型的预测结果不稳定或不可靠。

6、两种AI研发框架

2种框架:用于【大模型训练】的框架、还有【AI应用程序开发】的框架、

1、深度学习训练-框架:

TensorFlow (Google):最主流的工业级框架,支持大规模部署

PyTorch (Meta):研究领域最流行,动态计算图,易用性高

2、应用程序开发-框架:

Hugging Face Transformers:NLP模型库

LangChain/LlamaIndex:LLM应用开发框架

OpenAISDK:调用GPT等API的客户端

AI模型训练框架(以TensorFlow为例)

TensorFlow 是谷歌开源的【端到端】深度学习框架,

核心围绕“定义计算图→执行计算→部署模型”全流程设计,所有功能可拆解为6大核心模块,覆盖从开发到部署的全生命周期。

TensorFlow 是一套“从数据到部署”的全栈深度学习工具链,6大模块各司其职,既独立又能无缝协作,是工业级深度学习开发的核心框架。

特点:静态计算图。先定义计算图,后执行。部署是其强项。

AI应用开发框架(以LangChain为例)

定义:开发框架,帮助开发人员使用语言模型构建【端到端】的应用程序

构成

提供一套工具、组件和接口,可简化创建由大型语言模型(LLM)和聊天模型提供支持的应用程序的过程。

模块组件(Components)和链(Chains)

组件:是模块化的构建块,可以组合起来创建强大的应用程序;

提示模板(Prompt Templates)和值(Prompt Values)、示例选择器(Example Selectors)、输出解析器(Output Parsers)、索引(Indexes)和检索器(Retrievers)、聊天消息历史(Chat Message History)、代理(Agents)和工具包(Toolkits)等概念。

链:是完成特定任务的一系列组件。

编排:调用模块,设计操作流程

价值:

不用自己写代码处理 “文档加载→文本分割→向量存储→检索匹配→LLM 生成” 全流程,

框架已经封装好了这些模块,开发者只需要关注业务逻辑

核心差异:LLM应用构建框架。核心是数据检索与工作流编

7、MCP协议

AI研发框架是:如何构建AI模型的工具

MCP是:如何让AI模型安全访问外部世界的连接标准。

两者互补:框架提供AI能力实现,MCP提供环境集成能力。

定义:MCP模型上下文协议(Model Context Protocol)是Anthropic2024年11月,推出的【开放标准协议】,旨在标准化AI应用与数据源/工具之间的连接方式。它不是AI框架,而是连接协议

目标:为LLM与外部数据源、各类工具及服务搭建标【准化交互接口】,建立统接口规范,解决AI模型与外部系统集成【效率低下】的行业痛点。如同: 万能转换器 或USB-C接口,解决模型与外部资源交互的诸多痛点。

本文由 @St.Zy_I 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!