"技术原理"相关的文章
AI,个人随笔
从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”,不同结构的选择直接决定了模型的核心能力。
大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

当前,通用模型在产业落地中面临知识断层、难以对齐用户隐性偏好等难题,而后训练正是解决这些 “最后一公里” 问题的核心。业界已探索出 SFT+RL、纯 RL 等训练范式,MoE 模型、FP8 精度等技术也成为后训练的重要选择。本文解析后训练的关键价值、产业痛点及顶级玩家的实践路径,探讨其如何成为大模型价值释放的决胜场,以及云平台在其中的支撑作用。
AI,个人随笔
为什么 RAG 能让 AI 更 “聪明”?工作原理深度拆解

为什么 RAG 能让 AI 更 “聪明”?工作原理深度拆解

在人工智能领域,大语言模型(LLM)的快速发展为自然语言处理带来了革命性的突破。然而,这些模型在处理实时信息、专业领域知识以及确保回答准确性和可靠性方面仍面临挑战。本文将深入探讨一种名为RAG(Retrieval-Augmented Generation,检索增强生成)的技术框架,它通过结合信息检索与大语言模型的生成能力,为AI模型提供了强大的外挂支持。