AI,个人随笔 从零学习大模型(8)——预训练:大模型的 “知识积累期”—— 从任务设计到数据工程 预训练(Pre-training)是大模型构建通用能力的核心环节。就像人类通过大量阅读积累知识,大模型通过在海量数据上的自监督学习,捕捉语言规律、语义关联和世界常识,为后续 “专项技能学习”(微调)奠定基础。这个过程的质量直接决定模型的上限 —— 数据的广度、任务的设计、筛选的精度,共同塑造了模型的语言理解、逻辑推理和生成能力。 红岸小兵 大模型技术原理预训练
产品设计 一文搞懂Session处理:原理、实践与常见问题剖析 Session 很常见,但你真的知道它是怎么运作的吗?本文从零拆解 Session 的原理、使用方法以及常见坑点,用最清晰的方式帮你在产品体验优化、用户登录设计等场景中少踩雷、快上手。 十三豆 Session机制常见问题技术原理
AI,个人随笔 从零学习大模型(7)——解码策略:大模型如何 “选词说话”?从基础方法到投机解码 本文将系统解析解码策略的核心逻辑:基础解码方法如何工作?top-k、top-p 等参数如何调控生成效果?投机解码为何能让大模型推理速度翻倍? 红岸小兵 大模型技术原理解码策略
AI,个人随笔 AI产品经理技术:Wan2.2开源!最大亮点并非画质,扩散MoE亮点揭秘 Wan2.2的重点绝非画质的提升?这篇文章将从MoE专家模型架构的诞生,发展,以及Wan2.2的MoE的不同点。让各位产品经理们对未来AI模型发展的思路和脉络有更深入的认识。 产品经理小易 AI产品经理大模型技术原理
AI,个人随笔 从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”? Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”,不同结构的选择直接决定了模型的核心能力。 红岸小兵 基础知识大模型技术原理
AI,个人随笔 从零学习大模型(5)——位置编码:让 AI 读懂 “语序” 的关键技术 在 Transformer 架构中,有一个容易被忽略却至关重要的模块 —— 位置编码(Positional Encoding,PE)。如果说注意力机制让模型能 “理解关联”,前馈神经网络让模型能 “提纯特征”,那么位置编码的作用就是让模型能 “感知顺序”。 红岸小兵 位置编码基础知识技术原理
AI,个人随笔 从零学习大模型(4)——Transformer 的 “内部齿轮”:FFN、残差连接与归一化如何让 AI 更聪明? 本文将从功能原理、技术细节到实际作用,系统解析这些 “幕后模块”:为什么 FFN 能让注意力的输出更 “有用”?残差连接如何让模型 “越 deep 越聪明”?归一化又为何能让训练 “稳如泰山”? 红岸小兵 Transformer基础知识大模型
AI,个人随笔 从零学习大模型(3)——注意力机制:从 Self-Attention 到 KVCache,AI 如何学会 “聚焦”? 从 Transformer 的 Self-Attention 到 GPT 的 KVCache,注意力机制的每一次优化都推动着 AI 能力的跃升。本文将从基础原理出发,解析 Self-Attention、Cross-Attention 的核心逻辑,以及 MHA、GQA 等优化策略如何让 AI 在效率与性能间找到平衡。 红岸小兵 AI产品基础知识大模型
AI,个人随笔 从零学习大模型(2)——从文字到数字:Tokenizer 与 Embedding 如何让 AI 读懂人类语言 从 ChatGPT 到文心一言,大模型已成产品革新的关键。但要真正理解它们的能力,产品经理必须掌握底层的语言处理机制。这篇文章将拆解 Tokenizer 与 Embedding 的核心逻辑,用产品视角解析 AI 如何“读懂”语言。 红岸小兵 基础知识大模型技术原理
AI 上下文工程:大语言模型的新范式 大语言模型不止靠参数“大”,更靠“上下文”聪明。本文系统性拆解上下文工程的设计逻辑与调用策略,从提示构造、状态保持到信息注入,揭示当下LLM开发正从模型调参,走向“上下文编排”的工程新范式。 猫猫观察员的AI思考 大语言模型技术原理经验分享
AI 为什么你的AI助手总是搞错事?Context Engineering了解一下 问个问题,AI回得牛头不对马嘴?别急着吐槽它“太蠢”,可能是它根本没听懂你是谁、想干啥。本文用浅显易懂的方式,带你认识一个冷门却超关键的概念——Context Engineering,也许是AI真的“读懂你”的那把钥匙。 梧桐AI Context Engineering大模型技术原理
AI,个人随笔 Manus 内部的 Context 工程经验(精校、高亮要点) 构建AI智能体时,上下文工程是塑造其行为的核心。如何通过优化KV缓存、动态管理工具、利用文件系统拓展记忆等策略,让智能体更高效、稳定地运转?这些来自实践的经验,或许能为智能体开发提供关键指引。 一泽Eze Manus技术原理经验分享