"大模型"相关的文章
AI,个人随笔
从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”,不同结构的选择直接决定了模型的核心能力。
AI,个人随笔
从零学习大模型(1)——Transformer架构:原理、演进与AI领域的颠覆性影响

从零学习大模型(1)——Transformer架构:原理、演进与AI领域的颠覆性影响

在深度学习的发展历程中,2017 年谷歌团队发表的《Attention Is All You Need》论文具有里程碑意义 —— 该论文提出的 Transformer 架构,彻底改变了自然语言处理(NLP)乃至人工智能领域的技术路径。与传统循环神经网络(RNN)、卷积神经网络(CNN)不同,Transformer 以 “注意力机制” 为核心,实现了并行化计算与长序列依赖建模的双重突破,成为当前所有大型语言模型(如 GPT、BERT)的基础架构。本文将从技术原理、架构设计、演进历程及应用价值四个维度,系统解析这一革命性模型。