"技术原理"相关的文章
AI,个人随笔
从零学习大模型(8)——预训练:大模型的 “知识积累期”—— 从任务设计到数据工程

从零学习大模型(8)——预训练:大模型的 “知识积累期”—— 从任务设计到数据工程

预训练(Pre-training)是大模型构建通用能力的核心环节。就像人类通过大量阅读积累知识,大模型通过在海量数据上的自监督学习,捕捉语言规律、语义关联和世界常识,为后续 “专项技能学习”(微调)奠定基础。这个过程的质量直接决定模型的上限 —— 数据的广度、任务的设计、筛选的精度,共同塑造了模型的语言理解、逻辑推理和生成能力。
AI,个人随笔
从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”,不同结构的选择直接决定了模型的核心能力。