"MoE"相关的文章
AI,个人随笔
DeepSeek 的「反直觉」突围:当 AI 告别暴力美学

DeepSeek 的「反直觉」突围:当 AI 告别暴力美学

当整个AI行业沉迷于参数规模的军备竞赛时,DeepSeek反其道而行之,通过Engram架构和mHC互联机制重新定义AI效率标准。本文从产品视角剖析这种「减法式创新」如何突破算力天花板,并揭示下一代AI产品将面临的三大范式转移——从昂贵推理走向实时智能,从云端霸权迈向终端革命,从文本理解升级为世界模型。
AI,个人随笔
大模型训练大纲

大模型训练大纲

Transformer架构如何支撑GPT与BERT的差异化能力?MOE模型如何实现稀疏激活与动态分配的巧妙平衡?本文深度拆解大模型训练的7大核心流程与关键组件,从矩阵评估到框架选择,揭示AI研发过程中模型收敛与过拟合的本质差异,并解读MCP协议如何重塑AI与外部系统的连接标准。
搞AI的是真没钱了

搞AI的是真没钱了

MoE 架构,即混合专家架构,是神经网络的一种架构模式。先前,有关MoE 架构的认知和讨论并不算多,但当MoE 架构可以作为一种降低运营成本、提升训练效率的架构时,它便成了大模型公司的关注重点之一。