2025年LLM(大模型)年度回顾

yan
0 评论 175 浏览 0 收藏 15 分钟

2025年的大模型领域迎来了一系列颠覆性变革:从RLVR技术带来的推理能力突破,到Claude Code重新定义AI交互范式,再到氛围编程彻底改变软件开发逻辑。这篇文章深度解读了六大技术拐点如何重塑行业格局,揭示了大模型智能独特的'锯齿状'特征,以及GUI交互、垂直应用等前沿趋势的爆发式演进。

以下是安德烈·卡帕西(Andrej Karpathy)发表的《2025年LLM(大模型)年度回顾》的翻译:

2025年是LLM(大模型)领域取得强劲且重大进展的一年。以下是一份我个人认为显著且略感意外的“范式变革”清单——这些事物改变了行业格局,并在概念上令我印象深刻。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初,所有实验室的LLM(大模型)生产技术栈看起来大体如下:

  • 预训练 (2020年左右的 GPT-2/3)
  • 有监督微调 (SFT) (2022年左右的 InstructGPT)
  • 基于人类反馈的强化学习 (RLHF) (2022年左右)

这一直是训练生产级LLM(大模型)长期以来稳定且经受过验证的方案。而在2025年,基于可验证奖励的强化学习 (RLVR, Reinforcement Learning from Verifiable Rewards)脫颖而出,成为添加到这一组合中的事实上的新主阶段。

通过针对大量环境(例如数学、代码谜题等)中的自动可验证奖励进行训练,LLM(大模型)会自发地产生在人类看来像是“推理”的策略——它们学会了将问题解决过程分解为中间计算步骤,并学会了通过反复推敲来解决问题的多种策略(参见 DeepSeek R1 论文中的示例)。

在以前的范式中,这些策略很难实现,因为并不清楚LLM(大模型)的最优推理轨迹和错误恢复路径应该是怎样的——它必须通过针对奖励的优化,找到适合自己的工作方式。

与 SFT 和 RLHF 阶段(两者在计算量上都属于相对“轻薄”的微调)不同,RLVR 涉及针对客观(不可作弊)奖励函数的训练,这允许进行更长时间的优化。

事实证明,运行 RLVR 提供了极高的“性能/成本比”,从而吞噬了原本计划用于预训练的算力。因此,2025年大部分的能力进步来自于各大实验室对这一新阶段“潜力红利”的消化。

总的来说,我们看到了规模相似但强化学习(RL)运行时间长得多的LLM(大模型)。同样在这个新阶段,我们获得了一个全新的调节旋钮(以及相关的缩放法则),即通过生成更长的推理轨迹和增加“思考时间”,来控制作为测试时算力函数的模型能力。OpenAI o1(2024年底)是 RLVR 模型的首次演示,但 o3 的发布(2025年初)才是明显的拐点,让你能直观地感受到这种差异。

2. 幽灵 vs. 动物 / 锯齿状智能

2025年是我(我想整个行业也是如此)第一次开始从直觉上内化LLM(大模型)智能的“形状”。

我们并不是在“进化或培养动物”,而是在“召唤幽灵”。LLM(大模型)技术栈的一切都是不同的(神经架构、训练数据、训练算法,尤其是优化压力),因此我们得到的智能实体完全处于不同的空间,用看待动物的眼光去思考它们是不恰当的。

从监督信息的比特角度来看,人类神经网络是为了部落在丛林中的生存而优化的,但LLM(大模型)神经网络则是为了模仿人类文本、在数学谜题中获取奖励、以及在 LM Arena 上获得人类的点赞而优化的。

随着可验证领域允许 RLVR 的介入,LLM(大模型)在这些领域附近的能力会产生“峰值”,总体上表现出有趣的锯齿状性能特征——它们既是天才博学家,同时又是几秒钟后就会被提示词注入(jailbreak)诱骗泄露数据的、困惑且认知受限的小学生。

(人类智能:蓝色;AI 智能:红色。我喜欢这个模因图的版本——抱歉我弄丢了它在 X 上的原始出处——因为它指出人类智能也以其独特的不同方式呈现锯齿状。)

与此相关的是,我在2025年对基准测试(Benchmarks)产生了普遍的冷淡和信任丧失。

核心问题在于:基准测试从结构上讲几乎就是可验证的环境,因此极易受到 RLVR(以及通过合成数据生成的弱化版 RLVR)的影响。在典型的“跑分最大化(benchmaxxing)”过程中,各实验室团队不可避免地会在基准测试占据的嵌入空间小口袋附近构建环境,并长出“锯齿”来覆盖它们。

“针对测试集训练”已经变成了一门新艺术。

如果一个模型碾压了所有基准测试,却依然没有实现 AGI(通用人工智能),那会是什么样子?

关于这一节的内容,我在这里写了更多:

  • 动物 vs. 幽灵
  • 可验证性
  • 心智空间

3. Cursor / LLM(大模型)应用的新层级

关于 Cursor(除了它今年陨石般的崛起),我发现最值得注意的一点是,它令人信服地揭示了“LLM(大模型)应用”的一个新层级——人们开始谈论“针对 X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲中强调的那样,像 Cursor 这样的LLM(大模型)应用为特定垂直领域捆绑并编排了LLM(大模型)调用:

  • 它们进行“上下文工程(context engineering)”。
  • 它们在后台编排多个LLM(大模型)调用,串联成日益复杂的有向无环图(DAG),细致地平衡性能和成本的权衡。
  • 它们为流程中的人类提供特定应用的图形界面(GUI)。
  • 它们提供一个“自主性滑块”。

2025年有很多关于这一新应用层究竟有多“厚”的讨论。

是LLM(大模型)实验室会捕获所有应用,还是LLM(大模型)应用仍有广阔天地?

我个人怀疑,LLM(大模型)实验室倾向于培养出通才型的大学生,而LLM(大模型)应用则通过提供私有数据、传感器、执行器和反馈闭环,来组织、微调并真正驱动这些“大学生”团队,使之成为部署在特定垂直领域的专业人士。

4. Claude Code / 活在你电脑里的 AI

Claude Code (CC) 的出现是关于“LLM(大模型) Agent(智能体)”样貌的首次令人信服的演示——它能够以循环的方式串联工具使用和推理,从而解决长时间跨度的问题。此外,CC 令我瞩目的地方在于它运行在你的电脑上,拥有你的私有环境、数据和上下文。

我认为 OpenAI 在这方面走错了方向,因为他们早期的 Codex/Agent 努力集中在从 ChatGPT 编排的云端容器部署,而不是简单的本地主机(localhost)。虽然云端运行的 Agent 集群感觉像是“AGI 的终局”,但我们生活在一个能力参差不齐、技术缓慢起飞的中间世界,让 Agent 直接在开发者的电脑上运行更有意义。

请注意,主要的区别不在于“AI 运算”在哪里运行(云端、本地或其他地方),而在于其他一切——已经启动的电脑及其安装环境、上下文、数据、密钥、配置以及低延迟的交互。

Anthropic 抓住了这种优先级顺序,并将 CC 包装成一个令人愉悦、极简的命令行界面(CLI)形态,改变了 AI 的形象——它不仅仅是你像用 Google 一样去访问的一个网站,它是一个“活”在你电脑里的小精灵/幽灵。这是一种全新的、独特的 AI 交互范式。

5. 氛围编程 (Vibe coding)

2025年是 AI 跨越能力阈值的一年,人们只需通过英语就能构建各种令人印象深刻的程序,甚至忘记了代码的存在。

有趣的是,我在那条“淋浴思绪”的推文中创造了“氛围编程(vibe coding)”这个词,当时完全没想到它会流传得这么广 :)。

在“氛围编程”模式下,编程不再是受过高度训练的专业人士的专利,而是任何人都能做的事情。从这个意义上说,它是我在《权力归于人民:LLM(大模型)如何颠覆技术传播剧本》一文中所写观点的又一例证:即(与以往所有技术形成鲜明对比)普通人从LLM(大模型)中获益远超专业人士、大公司和政府。

不仅如此,“氛围编程”还赋能专业人士去编写更多(氛围感驱动的)软件,而这些软件在以前根本不会被写出来。在 nanochat 项目中,我通过“氛围编程”用 Rust 语言编写了自己定制的高效 BPE 分词器,而不需要采用现成的库或学习相应水平的 Rust 知识。

我今年通过“氛围编程”完成了许多项目,作为我想要存在的东西的快速应用 Demo(例如 menugen, llm-council, reader3, HN time capsule)。我甚至为了找出一个 Bug 而通过“氛围编程”写出整个临时应用——因为代码突然变得廉价、即时、可塑,且用完即弃。

“氛围编程”将重塑软件景观并改变职业定义。

6. Nano banana / LLM(大模型) GUI

Google Gemini Nano banana 是 2025 年最令人难以置信、最具范式转移意义的模型之一。

在我的世界观中,LLM(大模型)是继 1970、80 年代计算机之后的下一个重大计算范式。因此,我们将看到出于根本性相似原因而产生的类似创新。

我们将看到个人计算、微控制器(认知核心)、互联网(Agent 之网)等事物的等价物。特别是在 UI/UX 方面,与LLM(大模型)“聊天”有点像在 1980 年代向计算机控制台发出指令。

文本是计算机(和LLM(大模型))偏好的原始数据表示,但它不是人类偏好的格式,尤其是在输入端。人类其实不喜欢阅读文本——它缓慢且费力。相反,人类喜欢以视觉和空间方式消费信息,这就是传统计算中发明 GUI(图形用户界面)的原因。

同样地,LLM(大模型)应该以我们偏好的格式与我们交谈——通过图像、信息图表、幻灯片、白板、动画/视频、Web 应用等。

当然,目前的早期版本是表情符号(emoji)和 Markdown,它们是“装扮”和排版文本的方式,通过标题、加粗、列表、表格等使视觉消费更容易。但究竟谁来构建“LLM(大模型) GUI”?

在这个视角下,nano banana 是这种可能性的早期暗示。重要的是,它值得关注的一点不仅在于图像生成本身,而在于由文本生成、图像生成和世界知识共同构成的联合能力,所有这些都纠缠在模型的权重之中。

总结(TLDR):2025 年是LLM(大模型)领域激动人心且略带惊喜的一年。LLM(大模型)正在演变成一种新型智能,它既比我预期的聪明得多,又比我预期的笨得多。无论如何,它们都极其有用,我认为即使以现有的能力,整个行业实现的潜力还不到 10%。

与此同时,有太多的想法值得尝试,从概念上讲,这个领域感觉是完全开放的。正如我今年早些时候在 Dwarkesh 的播客中所说,我同时相信(且表面上矛盾地认为):我们既会看到快速且持续的进步,又仍有大量工作待完成。系好安全带。

本文由 @yan 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!