"Transformer"相关的文章
AI,个人随笔
从零学习大模型(1)——Transformer架构:原理、演进与AI领域的颠覆性影响

从零学习大模型(1)——Transformer架构:原理、演进与AI领域的颠覆性影响

在深度学习的发展历程中,2017 年谷歌团队发表的《Attention Is All You Need》论文具有里程碑意义 —— 该论文提出的 Transformer 架构,彻底改变了自然语言处理(NLP)乃至人工智能领域的技术路径。与传统循环神经网络(RNN)、卷积神经网络(CNN)不同,Transformer 以 “注意力机制” 为核心,实现了并行化计算与长序列依赖建模的双重突破,成为当前所有大型语言模型(如 GPT、BERT)的基础架构。本文将从技术原理、架构设计、演进历程及应用价值四个维度,系统解析这一革命性模型。
AI
从0构建大模型知识体系(4):大模型的爸爸Transformer

从0构建大模型知识体系(4):大模型的爸爸Transformer

在人工智能领域,尤其是自然语言处理(NLP)的浪潮中,Transformer架构无疑是近年来最重要的突破之一。它不仅彻底解决了传统循环神经网络(RNN)的健忘和训练速度慢的问题,还开启了大语言模型的新纪元。本文将从机器翻译这一经典任务出发,深入剖析Transformer架构的核心原理,包括编码器-解码器架构、注意力机制的奥秘,以及它如何通过纯注意力机制实现高效的序列处理。