2025年LLM(大模型)年度回顾

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

yan

2025-12-22

0 评论 3073 浏览 8 收藏

15 分钟

2025年的大模型领域迎来了一系列颠覆性变革：从RLVR技术带来的推理能力突破，到Claude Code重新定义AI交互范式，再到氛围编程彻底改变软件开发逻辑。这篇文章深度解读了六大技术拐点如何重塑行业格局，揭示了大模型智能独特的'锯齿状'特征，以及GUI交互、垂直应用等前沿趋势的爆发式演进。

以下是安德烈·卡帕西（Andrej Karpathy）发表的《2025年LLM(大模型)年度回顾》的翻译：

2025年是LLM(大模型)领域取得强劲且重大进展的一年。以下是一份我个人认为显著且略感意外的“范式变革”清单——这些事物改变了行业格局，并在概念上令我印象深刻。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初，所有实验室的LLM(大模型)生产技术栈看起来大体如下：

预训练 (2020年左右的 GPT-2/3)
有监督微调 (SFT) (2022年左右的 InstructGPT)
基于人类反馈的强化学习 (RLHF) (2022年左右)

这一直是训练生产级LLM(大模型)长期以来稳定且经受过验证的方案。而在2025年，基于可验证奖励的强化学习 (RLVR， Reinforcement Learning from Verifiable Rewards)脫颖而出，成为添加到这一组合中的事实上的新主阶段。

通过针对大量环境（例如数学、代码谜题等）中的自动可验证奖励进行训练，LLM(大模型)会自发地产生在人类看来像是“推理”的策略——它们学会了将问题解决过程分解为中间计算步骤，并学会了通过反复推敲来解决问题的多种策略（参见 DeepSeek R1 论文中的示例）。

在以前的范式中，这些策略很难实现，因为并不清楚LLM(大模型)的最优推理轨迹和错误恢复路径应该是怎样的——它必须通过针对奖励的优化，找到适合自己的工作方式。

与 SFT 和 RLHF 阶段（两者在计算量上都属于相对“轻薄”的微调）不同，RLVR 涉及针对客观（不可作弊）奖励函数的训练，这允许进行更长时间的优化。

事实证明，运行 RLVR 提供了极高的“性能/成本比”，从而吞噬了原本计划用于预训练的算力。因此，2025年大部分的能力进步来自于各大实验室对这一新阶段“潜力红利”的消化。

总的来说，我们看到了规模相似但强化学习（RL）运行时间长得多的LLM(大模型)。同样在这个新阶段，我们获得了一个全新的调节旋钮（以及相关的缩放法则），即通过生成更长的推理轨迹和增加“思考时间”，来控制作为测试时算力函数的模型能力。OpenAI o1（2024年底）是 RLVR 模型的首次演示，但 o3 的发布（2025年初）才是明显的拐点，让你能直观地感受到这种差异。

2. 幽灵 vs. 动物 / 锯齿状智能

2025年是我（我想整个行业也是如此）第一次开始从直觉上内化LLM(大模型)智能的“形状”。

我们并不是在“进化或培养动物”，而是在“召唤幽灵”。LLM(大模型)技术栈的一切都是不同的（神经架构、训练数据、训练算法，尤其是优化压力），因此我们得到的智能实体完全处于不同的空间，用看待动物的眼光去思考它们是不恰当的。

从监督信息的比特角度来看，人类神经网络是为了部落在丛林中的生存而优化的，但LLM(大模型)神经网络则是为了模仿人类文本、在数学谜题中获取奖励、以及在 LM Arena 上获得人类的点赞而优化的。

随着可验证领域允许 RLVR 的介入，LLM(大模型)在这些领域附近的能力会产生“峰值”，总体上表现出有趣的锯齿状性能特征——它们既是天才博学家，同时又是几秒钟后就会被提示词注入（jailbreak）诱骗泄露数据的、困惑且认知受限的小学生。

(人类智能：蓝色；AI 智能：红色。我喜欢这个模因图的版本——抱歉我弄丢了它在 X 上的原始出处——因为它指出人类智能也以其独特的不同方式呈现锯齿状。)

与此相关的是，我在2025年对基准测试（Benchmarks）产生了普遍的冷淡和信任丧失。

核心问题在于：基准测试从结构上讲几乎就是可验证的环境，因此极易受到 RLVR（以及通过合成数据生成的弱化版 RLVR）的影响。在典型的“跑分最大化（benchmaxxing）”过程中，各实验室团队不可避免地会在基准测试占据的嵌入空间小口袋附近构建环境，并长出“锯齿”来覆盖它们。

“针对测试集训练”已经变成了一门新艺术。

如果一个模型碾压了所有基准测试，却依然没有实现 AGI（通用人工智能），那会是什么样子？

关于这一节的内容，我在这里写了更多：

动物 vs. 幽灵
可验证性
心智空间

3. Cursor / LLM(大模型)应用的新层级

关于 Cursor（除了它今年陨石般的崛起），我发现最值得注意的一点是，它令人信服地揭示了“LLM(大模型)应用”的一个新层级——人们开始谈论“针对 X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲中强调的那样，像 Cursor 这样的LLM(大模型)应用为特定垂直领域捆绑并编排了LLM(大模型)调用：

它们进行“上下文工程（context engineering）”。
它们在后台编排多个LLM(大模型)调用，串联成日益复杂的有向无环图（DAG），细致地平衡性能和成本的权衡。
它们为流程中的人类提供特定应用的图形界面（GUI）。
它们提供一个“自主性滑块”。

2025年有很多关于这一新应用层究竟有多“厚”的讨论。

是LLM(大模型)实验室会捕获所有应用，还是LLM(大模型)应用仍有广阔天地？

我个人怀疑，LLM(大模型)实验室倾向于培养出通才型的大学生，而LLM(大模型)应用则通过提供私有数据、传感器、执行器和反馈闭环，来组织、微调并真正驱动这些“大学生”团队，使之成为部署在特定垂直领域的专业人士。

4. Claude Code / 活在你电脑里的 AI

Claude Code (CC) 的出现是关于“LLM(大模型) Agent（智能体）”样貌的首次令人信服的演示——它能够以循环的方式串联工具使用和推理，从而解决长时间跨度的问题。此外，CC 令我瞩目的地方在于它运行在你的电脑上，拥有你的私有环境、数据和上下文。

我认为 OpenAI 在这方面走错了方向，因为他们早期的 Codex/Agent 努力集中在从 ChatGPT 编排的云端容器部署，而不是简单的本地主机（localhost）。虽然云端运行的 Agent 集群感觉像是“AGI 的终局”，但我们生活在一个能力参差不齐、技术缓慢起飞的中间世界，让 Agent 直接在开发者的电脑上运行更有意义。

请注意，主要的区别不在于“AI 运算”在哪里运行（云端、本地或其他地方），而在于其他一切——已经启动的电脑及其安装环境、上下文、数据、密钥、配置以及低延迟的交互。

Anthropic 抓住了这种优先级顺序，并将 CC 包装成一个令人愉悦、极简的命令行界面（CLI）形态，改变了 AI 的形象——它不仅仅是你像用 Google 一样去访问的一个网站，它是一个“活”在你电脑里的小精灵/幽灵。这是一种全新的、独特的 AI 交互范式。