大模型训练大纲

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

St.Zy_I

2025-12-29

0 评论 498 浏览 1 收藏

19 分钟

Transformer架构如何支撑GPT与BERT的差异化能力？MOE模型如何实现稀疏激活与动态分配的巧妙平衡？本文深度拆解大模型训练的7大核心流程与关键组件，从矩阵评估到框架选择，揭示AI研发过程中模型收敛与过拟合的本质差异，并解读MCP协议如何重塑AI与外部系统的连接标准。

1、两种模型架构设计

架构1-Transformer

Transformer核心3要素：自注意力机制、位置编码、前馈神经网络（FNN）

输入部分：

源文本【嵌入层】及其【位置编码器】

目标文本【嵌入层】及其【位置编码器】

编码器（Encoder）

由N个编码器层堆叠而成

每个编码器层由两个子层连接结构组成

第一个子层连接结构包括一个【多头自注意力子层】和【规范化层】以及一个【残差连接】

第二个子层连接结构包括一个【前馈全连接子层】和【规范化层】以及一个【残差连接】

解码器（Decoder）

由N个解码器层堆叠而成

每个解码器层由三个子层连接结构组成

第一个子层连接结构包括一个【多头自注意力子层】和【规范化层】以及一个【残差连接】

第二个子层连接结构包括一个【多头注意力子层】和【规范化层】以及一个【残差连接】

第三个子层连接结构包括一个【前馈全连接子层】和【规范化层】以及一个【残差连接】

输出部分：

线性层

Softmax层

架构2-MOE（混合专家模型）

定义：MOE（Mixture of Experts，专家混合模型），是 “提升模型容量而不增加计算量” 的模型架构设计范式

MoE 是作为架构优化范式，叠加在 Transformer 上（主流方式是替换 Transformer 的 FFN 层为 MoE 层）

核心：是 “分而治之”，让不同的 “专家模块” 处理不同类型的任务，再通过路由网络整合结果。

组件：

专家模块（Expert）：多个独立的小规模模型（如 Transformer 层），每个专家专注于某一领域或任务（如专家 1 处理数学推理，专家 2 处理文本生成）；

路由网络（Router）：根据输入的语义特征，计算每个专家的 “适配分数”，选择 Top-K 个专家（如 K=2）处理输入，未被选中的专家不激活；

门控机制（Gating）：对Top-K 专家的【输出】进行加权求和，得到最终结果，权重由路由网络的适配分数决定。

优势：

稀疏激活：每次仅激活少量专家（如 10%），计算量与专家数量无关，仅与激活的专家数量相关；

动态分配：不同输入会被分配给不同专家，模型可自适应处理多领域任务（如同一 MOE 模型可同时做数学题、写文案、翻译）。

在不显著增加计算量的前提下，提升模型的参数规模和任务适配能力。

2、两种Transformer模型

GPT

定义：

生成式预训练变换器Generative Pre-trained Transformer

深度学习-神经网络模型

Generative：生成下一个单词

Pre-trained：互联网文本预训练

Transformer：架构

定位：生成式模型，核心任务是 “根据前文预测下一个词”，最终能输出连贯的文本。

特点：

构成：基于 Transformer 架构，但只用了 Transformer 的 Decoder（解码器） 部分。

单向注意力/自回归：训练和生成时，只能看到前文，看不到后文，比如写一句话时，模型只知道前面的字，要一步步猜后面该写什么。

即：只能看左边（过去），适合生成文本。

应用场景：

GPT 的核心特征就是基于单向自回归，具备强大的文本生成能力。

GPT 类模型常被用于对话、创作等生成类任务。

BERT

定义：

来自变换器的双向编码器表征， Bidirectional Encoder Representations from Transformers，

深度学习-神经网络模型

定位：

理解式模型，核心任务是 “理解文本语义”，擅长做文本分类、情感分析、命名实体识别、问答匹配等任务

不擅长直接生成长篇文本

特点：

基于 Transformer 架构，但只用了 Transformer 的 Encoder（编码器） 部分。

双向注意力：预训练时采用双向掩码（Masked Language Model） 策略，比如把一句话里的某个词盖住，模型能根据这个词的前文 + 后文来猜被盖住的词是什么。基于双向注意力，上下文全都要，适合理解句意，具备强大的语义理解能力

输出的是文本的 “语义向量”，常作为下游任务的 “特征输入”（比如 RAG 中的向量化就常用 BERT 类模型）。

应用场景：

BERT 类模型常被用于向量化、文本语义理解（文本匹配）等理解类任务

进行embedding，将 文本数据转换为 数值型的向量表示。

3、大模型训练流程

大模型训练流程

名词1：载预定义词表（Vocabulary）

预定义词表（Vocabulary）：是模型可识别的最小语义单元（Token）与唯一数字索引的映射字典.。

名词2：文本向量化

1、拆分文本：人工策略，将文本分成多个chunk块。

2、加载预定义词表（Vocabulary）

3、文本语义分析分词（chunk→token）：将长文本（chunk）切分为模型可处理的最小语义单位（token），

4、映射为数字索引（Tokenization）：对照词表，将每个token替换为对应的唯一整数，生成数字索引序列

5、生成辅助训练张量：生成attention_mask：标记有效token（1）和填充token（0），防止模型计算无效数据。生成token_type_ids（可选）：区分不同文本片段（如prompt部分=0，response部分=1）。

名词3：多头注意力机制

用户输入信息，Attenetion计算，宏观来说一共三步：

第一步：计算相似度：Queryvs Key

第二步：权重归一化：Softmax

第三步：加权求和：权重×value

名词4：矩阵乘法

计算 Q 与 K 的相似度（矩阵乘法评分）

在一个头中，对 Q 和 K 进行矩阵乘法运算，矩阵中【每个元素】对应序列中一个词/tokne的 Query 与【另一个词】的 Key 的相互作用得分，表征两个词的关联程度。

计算式：\text{score} = Q \times K^T

名词5、6：Scale、Softmax

相似度权重归一化（Softmax 计算）

对缩放后的相似度得分执行 Softmax 函数，将任意实数的得分转化为 0-1 之间的概率分布，概率值的大小表征对应 Key 对当前 Query 的重要程度。

名词7：矩阵相乘权重累加求和

权重加权 Value（矩阵乘法加权求和）

将【归一化后的注意力权重】与【 Value 矩阵】进行乘法运算，得到融合上下文信息的向量表示。

意义：

信息整合：根据注意力权重的分布，为每个 token 融合序列中其他相关 token 的信息，权重越高的 token 贡献的信息越多。

上下文感知：每个 token 的最终表示不再孤立，而是结合了整个序列的语境，能够捕捉语义依赖（如“爱”在“我爱你”中融合“我”和“你”的信息）。

增强语义理解：有效处理多义词、长距离依赖等复杂语言现象。

名词8：损失函数

逐样本 / 逐 token 损失计算：

将预测概率分布与真实标签匹配，按损失函数公式计算【单样本 / 单 token 】的损失值，结合损失掩码屏蔽无效位置损失。

损失函数：

最小二乘法的【误差和】，控制参数的野蛮增长。

训练的本质就是：减小损失函数，往误差小的地方发展。

4、大模型二分类矩阵评估（准召率）

二分类测试：

首先，准备测试集（例如100个）

其次，问题特征：

1、都是二分类的问题类型（有明确的对、错）

2、都是微调训练给大模型【有关于的业务理解能力】的问题（例如：业务规则逻辑）

3、每个问题有标准答案，有标准答案（正确的业务规则）

4、最后，基于这100条数据的回答，依据准确答案，评价大模型回答的结果。

大模型回复结果：

TP（真阳性）：正类被正确预测为正类的数量；（问 “地球是圆的吗”，模型答 “是”，实际也对）

TN（真阴性）：负类被正确预测为负类的数量；（问 “太阳绕地球转吗”，模型答 “是”，实际错了 → 模型 “虚报”）

FP（假阳性）：负类被错误预测为正类的数量；（问 “水的化学式是 H₂O 吗”，模型答 “不是” → 模型 “漏报”）

FN（假阴性）：正类被错误预测为负类的数量。（无核心参考价值）

5、大模型训练评估结果

模型效果达到预期：模型在【训练集】和【测试集】上都表现良好

欠拟合：

欠拟合是指模型不能很好地拟合数据，即模型在训练集和测试集上的表现都很差。这通常是因为模型过于简单、数据量太小或特征选取欠佳等原因，无法捕捉到数据中的关键特征和模式。

过拟合：

过拟合指的是模型在训练数据上表现良好，但在新数据上的泛化能力较差。

通常是因为数据量太小、模型过于复杂或者特征选取过多等原因导致。

无法收敛：

模型不收敛是指模型在训练过程中无法达到一个稳定的状态，即损失函数（或其他评估标准）不会随着训练迭代而减小或者改善。

这通常意味着模型无法有效地学习和适应数据，导致模型的预测结果不稳定或不可靠。

6、两种AI研发框架

2种框架：用于【大模型训练】的框架、还有【AI应用程序开发】的框架、

1、深度学习训练-框架：

TensorFlow (Google)：最主流的工业级框架，支持大规模部署

PyTorch (Meta)：研究领域最流行，动态计算图，易用性高

2、应用程序开发-框架：

Hugging Face Transformers：NLP模型库

LangChain/LlamaIndex：LLM应用开发框架

OpenAISDK：调用GPT等API的客户端

AI模型训练框架（以TensorFlow为例）

TensorFlow 是谷歌开源的【端到端】深度学习框架，

核心围绕“定义计算图→执行计算→部署模型”全流程设计，所有功能可拆解为6大核心模块，覆盖从开发到部署的全生命周期。

TensorFlow 是一套“从数据到部署”的全栈深度学习工具链，6大模块各司其职，既独立又能无缝协作，是工业级深度学习开发的核心框架。

特点：静态计算图。先定义计算图，后执行。部署是其强项。

AI应用开发框架（以LangChain为例）

定义：开发框架，帮助开发人员使用语言模型构建【端到端】的应用程序。

构成：

提供一套工具、组件和接口，可简化创建由大型语言模型（LLM）和聊天模型提供支持的应用程序的过程。

模块组件（Components）和链（Chains）。

组件：是模块化的构建块，可以组合起来创建强大的应用程序；

提示模板（Prompt Templates）和值（Prompt Values）、示例选择器（Example Selectors）、输出解析器（Output Parsers）、索引（Indexes）和检索器（Retrievers）、聊天消息历史（Chat Message History）、代理（Agents）和工具包（Toolkits）等概念。

链：是完成特定任务的一系列组件。

编排：调用模块，设计操作流程

价值：

不用自己写代码处理 “文档加载→文本分割→向量存储→检索匹配→LLM 生成” 全流程，

框架已经封装好了这些模块，开发者只需要关注业务逻辑。

核心差异：LLM应用构建框架。核心是数据检索与工作流编