"大模型"相关的文章
AI
非技术背景,一文读懂大模型后训练(万字长文)

非技术背景,一文读懂大模型后训练(万字长文)

大模型的后训练都在训练些什么?sft、rl、ppo、lora、adapter,这些算法开发们口中的专属名词,都代表着什么意思?本文将尽可能从非技术角度,一文帮你读懂大模型后训练。 同时这也是继去年发布《非技术背景,一文带你读懂大模型》后,时隔一年多,推出的非技术系列第二篇文章啦。也确实看到大家对于此类非技术向讲解的科普文比较感兴趣,希望这篇新文章能一样受大家的喜欢。
AI
Gemini 3.1 Pro:发布48小时后的真实世界,大模型竞技场的“冰火两重天”

Gemini 3.1 Pro:发布48小时后的真实世界,大模型竞技场的“冰火两重天”

Google Gemini 3.1 Pro 的发布不仅是一场技术迭代,更是一记战略重拳。这款专为科学研究和复杂工程设计的旗舰模型,通过突破性的 Deep Think 机制和系统2思维模式,在抽象推理和专业知识测试中碾压对手。然而,48小时后开发者社区的猛烈炮火,暴露了其在交互设计和代码执行上的致命短板。这场技术与现实的碰撞,正在撕开AI军备竞赛最残酷的真相面纱。
AI
大模型 B 端落地的 “小切口” 方法论:从 0 到 1 搭建金融智能客服 Bot

大模型 B 端落地的 “小切口” 方法论:从 0 到 1 搭建金融智能客服 Bot

大模型在B端产业的应用正面临"概念热、落地难"的困境,火山引擎的豆包大模型+Coze+火山方舟技术组合为产品经理提供了可行的解决方案。本文深度解析了这一技术底座的产品逻辑,并通过金融智能客服Bot的实操案例,揭示如何从"小切口"挖掘需求,实现B端产品的快速闭环。
AI
GLM-5.0 不是“又一个更强模型”,而是中国大模型竞争范式的拐点

GLM-5.0 不是“又一个更强模型”,而是中国大模型竞争范式的拐点

大模型行业正经历从参数竞赛到可交付智能的关键转折。GLM-5的推出不仅标志着开源模型的重大突破,更将竞争焦点从单纯的代码生成转向了完整的工程交付能力。本文将深度剖析行业面临的三大迁移趋势、当前卡脖子的交付难题,以及未来3-5年Agentic Engineering将如何重构企业生产力体系。
AI,个人随笔
上新、发红包、上春晚……这个春节,AI太忙

上新、发红包、上春晚……这个春节,AI太忙

春节档不再是电商和短视频的独角戏,AI应用今年集体上演技术狂欢。从腾讯元宝的10亿红包、阿里千问的30亿免单,到字节跳动火山引擎拿下春晚AI云合作,巨头们正通过红包大战和春晚营销争夺用户心智。而DeepSeek、Kimi等大模型的密集更新,则揭示了这场狂欢背后的技术军备竞赛。这场春节营销背后,是AI产品力与生态服务的终极较量。
AI
2026 年 AI 大战:中美两条赛道的分野与思考

2026 年 AI 大战:中美两条赛道的分野与思考

2026年的AI产业呈现出中美两国截然不同的发展路径:美国OpenAI与Anthropic同日发布旗舰大模型,突破技术极限;中国腾讯、阿里则通过春节红包大战抢占流量入口。这场全球AI竞赛的背后,是技术驱动与流量驱动的根本分野。本文将深度剖析两国AI产业的底层逻辑差异,以及未来可能的共生方向。
AI,个人随笔
文本大模型是怎么炼成的

文本大模型是怎么炼成的

从N-gram的笨拙概率猜测到Transformer的量子阅读,AI已经完成了从7秒记忆到通用逻辑底座的惊人跃迁。2026年的文本大模型战场正演变为推理深度、工程效率和生态整合的多维战争,OpenAI、Google、Anthropic和DeepSeek各自押注不同未来。本文将带你穿透技术迷雾,看清那些让AI突然开窍的底层架构革命与工业炼金术。