Karpathy 2025年终盘点：大模型6大范式变迁

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Karpathy 2025年终盘点：大模型6大范式变迁

AI万神殿

2025-12-22

0 评论 939 浏览 0 收藏

16 分钟

OpenAI联合创始人Andrej Karpathy的2025大模型年终盘点堪称年度最清醒预言！从RLVR训练范式的颠覆性突破，到Cursor如何重构LLM应用生态；从Claude Code带来的本地Agent革命，到Vibe Coding如何让编程民主化——这篇深度长文不仅揭示了AI进化与人类思维的致命差异，更预言了Nano Banana将如何重塑人机交互范式。

说起AI圈子里能让我心服口服的人，Andrej Karpathy绝对排得上号。

我之前在《AI创业得了一种「vibe造词病」》中提到过，他就是我心目中的AI大法师。他的油管内容、X推文，不知道养活了多少AI博主。

简单介绍一下这位老兄：OpenAI联合创始人、前特斯拉AI总监、斯坦福CS231n的灵魂讲师——你能想到的AI履历buff他基本都点满了。

更关键的是，他不是那种躲在实验室里发论文的学院派，而是真正下场干活的人。

今年他搞了EurekaLabs、搞了llm.c、「vibe coding」这个词就是他随手一条推文造出来的，结果火遍全球。

他最近写了篇2025年终盘点，我看完只有一个感受：这是我今年看过最清醒的大模型年度总结，没有之一。

内容有几点很打动我：

– 他说，人类大脑是为了「让部落在丛林里活下来」而进化的，但大模型是为了「模仿人类文字、在数学题里刷分、在竞技场上骗点赞」而优化的。所以拿动物进化的视角去理解大模型，从根上就错了。这个比喻太妙了。

– 2025年对benchmark的不信任。这点深有同感。隔三差五就看到某家大模型又发新版本了，跑分又SOTA了，榜单又屠榜了。但真正用起来呢？该犯的蠢还是犯，该卡壳的地方还是卡壳。benchmark上的数字涨了，体感上却没什么变化。

– 他还特别提到了Cursor。他说LLM是优秀的应届生，但Cursor这种IDE工具才是把应届生变成职场老手的地方。想想也是，谷歌在Gemini 3发布会上专门推了Antigravity，说明大厂也意识到了这一层的重要性。我的理解是：AI时代的IDE，本质上是「本地环境 + 大模型」的编排层——大模型能力很强，但应用层还很薄弱，IDE就是中间那个把两边缝合起来的关键层。

– 最后是Vibe coding。我身边越来越多的文科生在用AI写应用——不是玩票，是真的能跑起来、能用的东西。前不久OpenRouter联合a16z发布了一份基于100万亿token的使用数据报告，编程类请求从年初的11%飙升到年底的50%以上。2025年说是Vibe coding元年，一点不为过。

以下是全文翻译，值得细读——

2025年大模型年终盘点

2025年是大模型强势进步、热闹非凡的一年。以下是我个人觉得值得一提、甚至有些出乎意料的「范式转变」——那些真正改变了行业格局、在概念层面让我印象深刻的事情。

01 可验证奖励的强化学习（RLVR）

2025年初，各大实验室训练生产级大模型的标准流程大概是这样：

1. 预训练（GPT-2/3时代，约2020年）

2. 监督微调（InstructGPT，约2022年）

3. 人类反馈强化学习/RLHF（约2022年）

这套配方稳定运行了好几年。到了2025年，可验证奖励的强化学习（RLVR）横空出世，成为事实上的新标准阶段。

原理是这样的：让大模型在一系列可以自动验证对错的环境里训练（比如数学题、编程题），模型会自发地学会一些看起来像「推理」的策略——它学会把问题拆解成中间步骤，学会各种解题套路，学会走错了就回头换条路（具体例子可以看DeepSeek R1的论文）。

这些策略在之前的范式下很难实现，因为你根本不知道对模型来说「最优的推理过程」长什么样——它得自己去摸索什么对它管用。

跟监督微调和RLHF不同（这两个阶段计算量相对较小，只是轻度微调），RLVR的训练对象是客观、不可作弊的奖励函数，所以可以跑更长时间的优化。

事实证明，RLVR的性价比极高，直接吃掉了原本打算用于预训练的算力。所以2025年的能力进步，主要不是靠更大的模型，而是靠更长的强化学习训练。

还有一个RLVR独有的好处：我们多了一个新旋钮——通过生成更长的推理链、增加「思考时间」，可以在推理阶段换取更强的能力，而且这个也有对应的scaling law。

OpenAI 的o1（2024年底）是第一个RLVR模型的演示，但真正让人感受到质变的是o3（2025年初）——用起来明显不一样了。

02 幽灵VS动物/参差不齐的智能

2025年是我（我猜整个行业也是）第一次真正从直觉上理解大模型智能的「形状」。

我们不是在「进化/培养动物」，我们是在「召唤幽灵」。

大模型的一切都不一样：神经网络架构、训练数据、训练算法，尤其是优化目标。所以我们得到的实体在智能空间里也完全不同，用动物的视角去理解它们是不合适的。

从监督信号的比特数来看：人类神经网络是为了「让部落在丛林里活下来」而优化的，但大模型是为了「模仿人类的文字、在数学题里拿奖励、在竞技场上骗到人类的点赞」而优化的。

因为RLVR只在可验证的领域有效，所以大模型在这些领域周围会形成能力「尖峰」，整体呈现出一种很搞笑的参差不齐——它可以同时是博学天才，又是被骗子两句话就套出你数据的糊涂蛋。

（蓝色是人类智能，红色是AI智能。我喜欢这个梗图的一点是，它也指出了人类智能同样是参差不齐的，只是参差的方式不同。）

与此相关的是，2025年我对benchmark越来越冷漠、越来越不信任了。

问题的核心在于：benchmark几乎天然就是可验证的环境，因此天然就容易被RLVR或者合成数据生成等方式「刷分」。在典型的刷榜过程中，实验室的团队不可避免地会在benchmark占据的那一小块embedding空间周围构建训练环境，然后长出覆盖它们的「尖刺」。

用测试集训练，已经成了一门新艺术。

刷爆所有benchmark但依然没有AGI，会是什么样子？

关于这个话题我写过更多内容。

03 Cursor/LLM应用的新层级

Cursor最让我印象深刻的（除了今年的爆发式增长），是它清晰地揭示了「LLM应用」这个新层级的存在——人们开始说「X领域的Cursor」。

正如我今年在Y Combinator演讲里说的（文字稿和视频），像Cursor这样的LLM应用为特定垂直领域打包和编排LLM调用：

1. 它们负责「上下文工程」

2. 它们在底层串起多次LLM调用，组成越来越复杂的DAG，精心平衡性能和成本

3. 它们为「人在回路」提供应用专属的GUI

4. 它们提供「自主性滑块」

2025年有很多讨论集中在这个应用层到底有多「厚」。大模型公司会吃掉所有应用吗？还是LLM应用有自己的生存空间？

我个人的判断是：大模型公司会输出能力足够强的「应届毕业生」，但LLM应用会把这些毕业生组织起来、微调好、变成在特定领域真正能干活的「专业人士」——通过提供私有数据、传感器和执行器、反馈闭环。

04 Claude Code/住在你电脑里的AI

Claude Code（CC）是第一个让人信服的「LLM Agent长什么样」的演示——它以循环的方式把工具调用和推理串在一起，进行长时间的问题解决。

更重要的是，CC跑在你自己的电脑上，用的是你自己的私有环境、数据和上下文。

我觉得OpenAI在这一点上走错了——他们早期的Codex/Agent项目聚焦在云端容器部署，从ChatGPT远程操控，而不是简单地用localhost。

虽然「云端运行的Agent集群」感觉像是「AGI终局」，但我们生活在一个能力参差不齐、发展相对渐进的中间世界，直接在开发者电脑上跑Agent更合理。

注意，真正重要的区别不在于「AI运算」发生在云端还是本地，而是其他一切——已经存在并且启动好的电脑、它的安装环境、上下文、数据、密钥、配置，以及低延迟的交互。

Anthropic把这个优先级搞对了，把CC包装成一个简洁的命令行工具，改变了AI的形态——它不再只是一个你去访问的网站（像Google），而是一个「住」在你电脑里的小精灵/幽灵。

这是一种全新的、独特的AI交互范式。

05 Vibe coding

2025年是AI跨过能力门槛的一年——只用自然语言描述就能写出各种厉害的程序，甚至可以完全忘掉代码的存在。

有意思的是，「vibe coding」这个词就是我在这条随手发的推文里瞎取的，完全没想到会传这么远 🙂

有了vibe coding，编程不再是受过专业训练的人的专利，而是人人都能做的事。从这个角度看，这又是我在《Power to the people》里写的观点的又一个例证：与之前所有技术截然不同的是，普通人从大模型中受益远远超过专业人士、企业和政府。

vibe coding不仅让普通人能接触编程，还让专业程序员写出了大量原本根本不会去写的（vibe出来的）代码。

在做nanochat的时候，我用vibe coding写了一个自定义的高效BPE分词器（Rust），而不用引入现有库或者深入学Rust。今年我vibe出了很多项目，当作快速demo（比如menugen、llm-council、reader3. HN time capsule）。我甚至会为了找一个bug而vibe出整个临时应用——为什么不呢？代码突然变得免费、短命、可塑、用完即扔。

Vibe coding将会重塑软件行业，改变岗位描述。