OpenAI联合创始人Karpathy的AI大模型2025年度总结

0 评论 169 浏览 0 收藏 16 分钟

OpenAI 前联合创始人 Karpathy 总结 2025 年 LLM 发展,六大范式转变重塑行业:RLVR 成训练核心新环节,LLM 智能呈 “幽灵式” 参差不齐特性,Cursor 开辟应用新层级,Claude Code 实现本地运行,vibe coding 降低编程门槛,Nano banana 探索 LLM GUI,展现新型智能的潜力与挑战。

今天 OpenAI 前联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 发布大模型 2025 年度总结,分析剖析了这一年 AI 进化成怎样了,有哪些趋势。

我学完觉得,非常有价值,如果你也关注 AI,不妨看看。

如果你想看英文原文,访问以下链接

https://karpathy.bearblog.dev/year-in-review-2025/

以下是我用 Gemini 3.0 Pro 翻译的中文版,配上 AI 生成的 PPT,看看是否好理解一些:

正文

2025年是大语言模型(LLM)取得强劲发展且充满大事的一年。

以下列出了一些我个人认为值得注意且略感惊讶的“范式转变”——即那些改变了行业格局并在概念上令我印象深刻的事情。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初,所有实验室的LLM生产技术栈大致如下:

  1. 预训练(约2020年的GPT-2/3)
  2. 监督微调(约2022年的InstructGPT)
  3. 基于人类反馈的强化学习(约2022年的RLHF)

这在一段时间内曾是训练生产级LLM的稳定且经过验证的配方。

而在2025年,基于可验证奖励的强化学习(RLVR)成为了这一组合中名副其实的新增主力环节。

通过在许多环境中(例如数学/代码谜题)针对可自动验证的奖励来训练LLM,这些模型自发地发展出了在人类看来像是“推理”的策略——它们学会了将问题分解为中间计算步骤,并习得了一系列反复推敲以解决问题的策略(参考 DeepSeek R1 论文中的例子)。

这些策略在以前的范式中是很难实现的,因为对于LLM来说,什么样的推理路径和纠错方式才是最佳的并不清晰——它必须通过针对奖励的优化过程,自己去发现什么样的方法行之有效。

与SFT(监督微调)和RLHF阶段不同——这两个阶段都相对较薄/较短(计算上属于轻微的微调)——RLVR涉及针对客观(不可操纵)的奖励函数进行训练,这允许进行更长时间的优化。

事实证明,运行RLVR提供了很高的“能力/成本”比,它吞噬了原本计划用于预训练的算力。

因此,2025年的大部分能力进步是由LLM实验室消化这一新阶段的红利所定义的;总体而言,我们看到了模型规模相似,但强化学习运行时间长得多的现象。

此外,这一新阶段独有的是,我们要到了一个全新的旋钮(以及相关的缩放定律),可以通过生成更长的推理路径和增加“思考时间”,将能力作为测试时算力(test time compute)的函数来控制。

OpenAI o1(2024年底)是RLVR模型的首次演示,但o3的发布(2025年初)是一个明显的拐点,让人能直观地感受到这种差异。

2. 幽灵 vs 动物 / 参差不齐的智能

2025年,我(我想行业内的其他人也是)第一次开始在更直观的层面上内化LLM智能的“形状”。我们不是在“进化/培育动物”,我们是在“召唤幽灵”。

LLM 的一切都是不同的(神经网络架构、训练数据、训练算法,尤其是优化压力),因此我们在智能空间中得到完全不同的实体也就不足为奇了,用动物的视角去思考它们是不恰当的。

从监督信号的角度来看,人类神经网络是为了部落在丛林中的生存而优化的,而LLM神经网络则是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena(大模型竞技场)上获得人类的点赞而优化的。

由于可验证领域允许进行RLVR,LLM的能力在这些领域附近会出现“尖峰”,总体上表现出有趣的参差不齐(jagged)的性能特征——它们同时是天才的博学家,又是一个困惑且认知受挑战的小学生,随时可能被“越狱”手段欺骗而泄露你的数据。

(关于图片说明的注记:人类智能是蓝色的,AI智能是红色的。我喜欢这个版本的梗图,因为它指出了人类智能也以其独特的方式呈现出参差不齐的状态。)

与此相关的是我在2025年对基准测试(benchmarks)普遍产生的冷漠和信任缺失。

核心问题在于,基准测试几乎在构建上就是可验证的环境,因此很容易受到RLVR及其通过合成数据生成的较弱形式的影响。

在典型的“刷榜”(benchmaxxing)过程中,LLM实验室的团队不可避免地构建了邻近基准测试所占据的嵌入空间小块区域的环境,并培育出“尖峰”能力来覆盖它们。“在测试集上训练”已成为一种新的艺术形式。

如果是横扫所有基准测试却仍未实现通用人工智能(AGI),那会是什么样子?

关于本节的主题,我在这里写了更多内容:

《动物与幽灵》

《可验证性》

《思维空间》

3. Cursor / LLM应用的新层级

关于Cursor,除了它今年的迅速崛起外,我发现最值得注意的是它令人信服地揭示了“LLM应用”的一个新层级——人们开始谈论“X领域的Cursor”。

正如我今年在 Y Combinator 的演讲(文字稿和视频)中所强调的,像 Cursor 这样的 LLM 应用为特定的垂直领域打包并编排了 LLM 调用:

  1. 它们进行“上下文工程”
  2. 它们在后台编排多次LLM调用,将其串联成日益复杂的有向无环图(DAG),并仔细平衡性能和成本的权衡。
  3. 它们为回路中的人类提供特定于应用程序的图形用户界面(GUI)
  4. 它们提供一个“自主性滑块”

2025年有很多关于这个新应用层到底有多“厚”的讨论。LLM实验室会吞噬所有应用,还是留有LLM应用发展的绿洲?

我个人猜测,LLM实验室将倾向于培养出具有一般能力的“大学生”,而LLM应用则会通过提供私有数据、传感器、执行器和反馈循环,将这些“大学生”组织、微调并真正激活成特定垂直领域中已部署的专业团队。

4. Claude Code / 住在你电脑里的AI

Claude Code (CC) 的出现,首次令人信服地展示了LLM智能体(Agent)的样貌——即通过循环方式将工具使用和推理串联起来,以解决扩展性问题的东西。

此外,CC对我来说值得注意的一点是,它运行在你的电脑上,伴随着你的私有环境、数据和上下文。我认为 OpenAI 在这方面搞错了,因为他们早期的 codex/agent 努力集中在由 ChatGPT 编排的容器云部署上,而不是简单的 localhost(本地主机)。

虽然在云端运行的智能体集群感觉像是“AGI的终局”,但我们生活在一个能力参差不齐、起飞速度足够缓慢的中间世界,直接在开发者的电脑上运行智能体更有意义。

请注意,真正重要的区别不在于“AI运算”在哪里运行(云端、本地或其他地方),而在于其他所有东西——已经存在并启动的电脑、其安装环境、上下文、数据、密钥、配置以及低延迟的交互。

Anthropic 正确地把握了这种优先顺序,并将 CC 打包成一种令人愉悦、极简的命令行界面(CLI)形式,这改变了 AI 的样子——它不再只是像 Google 那样你需要访问的一个网站,而是一个“住”在你电脑里的小精灵/幽灵。这是一种与 AI 交互的全新且独特的范式。

5. 氛围编程 (Vibe coding)

2025年是AI跨越能力门槛的一年,使得仅通过英语就能构建各种令人印象深刻的程序成为可能,甚至让人忘记了代码的存在。

有趣的是,我在那条“淋浴时的思绪”推文中创造了“vibe coding”(氛围编程)这个词,当时完全没意识到它会走多远。

通过氛围编程,编程不再严格保留给受过高度训练的专业人士,而是任何人都可以做的事情。在这个意义上,这又是我在《权力归于人民:LLM如何反转技术扩散剧本》一文中所写内容的又一例证——与迄今为止的所有其他技术形成鲜明对比的是,普通人从LLM中获益比专业人士、公司和政府更多。

但是,氛围编程不仅让普通人能够接触编程,它还让受过训练的专业人士能够编写更多(通过氛围编程生成的)原本永远不会被写出来的软件。在 nanochat 项目中,我用氛围编程的方式用 Rust 写了我自己定制的高效 BPE 分词器,而不必采用现有的库或去学习那个深度的 Rust。

今年我用氛围编程做了很多项目,作为我希望存在的东西的快速应用演示(例如 menugen, llm-council, reader3, HN time capsule)。我还曾为了找一个Bug而用氛围编程写了完整的临时应用,为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后即可丢弃。

氛围编程将重塑软件行业并改变职位描述。

6. Nano banana / LLM 图形界面

谷歌的 Gemini Nano banana 是2025年最令人难以置信、最具范式转变意义的模型之一。

在我的世界观中,LLM是下一个主要的计算范式,类似于20世纪70年代、80年代的计算机等。因此,出于根本上相似的原因,我们将看到类似的创新。我们将看到个人计算、微控制器(认知核心)或互联网(智能体网络)等的等价物。

特别是,在UI/UX方面,与LLM“聊天”有点像在80年代向计算机控制台发出命令。文本是计算机(和LLM)原始/偏爱的数据表示形式,但它不是人类偏爱的格式,尤其是在输入端。人们其实不喜欢阅读文本——它既慢又费力。

相反,人们喜欢以视觉和空间的方式消费信息,这就是为什么传统计算中发明了GUI(图形用户界面)。

同样地,LLM应该用我们喜欢的格式与我们交流——通过图像、图表、幻灯片、白板、动画/视频、Web应用等。当然,目前的早期版本是像 emoji 和 Markdown 这样的东西,它们是“装饰”和视觉化排版文本的方式,通过标题、粗体、斜体、列表、表格等让消费变得更容易。但是,究竟谁来构建 LLM GUI 呢?

在这个世界观中,nano banana 是这种未来可能样貌的第一个早期暗示。

重要的是,它值得注意的一个方面是,这不仅仅关于图像生成本身,而是来自于文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重之中。

总结

2025年对于LLM来说是令人兴奋且略感惊讶的一年。LLM正在作为一种新型智能涌现,同时比我预期的要聪明得多,也比我预期的要笨得多。

无论如何,它们极其有用,而且我认为即使以目前的能力,业界也尚未挖掘出其潜力的10%。

与此同时,有太多的想法可以尝试,从概念上讲,这个领域感觉非常广阔。

正如我今年早些时候在 Dwarkesh 的播客中提到的,我同时(表面上看似矛盾地)相信,我们将看到快速且持续的进步,但仍有大量的工作要做。

系好安全带。

本文由人人都是产品经理作者【AI产品经理四月】,微信公众号:【AI产品经理四月】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!