Karpathy 2025年终盘点:大模型6大范式变迁
OpenAI联合创始人Andrej Karpathy的2025大模型年终盘点堪称年度最清醒预言!从RLVR训练范式的颠覆性突破,到Cursor如何重构LLM应用生态;从Claude Code带来的本地Agent革命,到Vibe Coding如何让编程民主化——这篇深度长文不仅揭示了AI进化与人类思维的致命差异,更预言了Nano Banana将如何重塑人机交互范式。

说起AI圈子里能让我心服口服的人,Andrej Karpathy绝对排得上号。
我之前在《AI创业得了一种「vibe造词病」》中提到过,他就是我心目中的AI大法师。他的油管内容、X推文,不知道养活了多少AI博主。
简单介绍一下这位老兄:OpenAI联合创始人、前特斯拉AI总监、斯坦福CS231n的灵魂讲师——你能想到的AI履历buff他基本都点满了。
更关键的是,他不是那种躲在实验室里发论文的学院派,而是真正下场干活的人。
今年他搞了EurekaLabs、搞了llm.c、「vibe coding」这个词就是他随手一条推文造出来的,结果火遍全球。
他最近写了篇2025年终盘点,我看完只有一个感受:这是我今年看过最清醒的大模型年度总结,没有之一。
内容有几点很打动我:
– 他说,人类大脑是为了「让部落在丛林里活下来」而进化的,但大模型是为了「模仿人类文字、在数学题里刷分、在竞技场上骗点赞」而优化的。所以拿动物进化的视角去理解大模型,从根上就错了。这个比喻太妙了。
– 2025年对benchmark的不信任。这点深有同感。隔三差五就看到某家大模型又发新版本了,跑分又SOTA了,榜单又屠榜了。但真正用起来呢?该犯的蠢还是犯,该卡壳的地方还是卡壳。benchmark上的数字涨了,体感上却没什么变化。
– 他还特别提到了Cursor。他说LLM是优秀的应届生,但Cursor这种IDE工具才是把应届生变成职场老手的地方。想想也是,谷歌在Gemini 3发布会上专门推了Antigravity,说明大厂也意识到了这一层的重要性。我的理解是:AI时代的IDE,本质上是「本地环境 + 大模型」的编排层——大模型能力很强,但应用层还很薄弱,IDE就是中间那个把两边缝合起来的关键层。
– 最后是Vibe coding。我身边越来越多的文科生在用AI写应用——不是玩票,是真的能跑起来、能用的东西。前不久OpenRouter联合a16z发布了一份基于100万亿token的使用数据报告,编程类请求从年初的11%飙升到年底的50%以上。2025年说是Vibe coding元年,一点不为过。
以下是全文翻译,值得细读——

2025年大模型年终盘点
2025年是大模型强势进步、热闹非凡的一年。以下是我个人觉得值得一提、甚至有些出乎意料的「范式转变」——那些真正改变了行业格局、在概念层面让我印象深刻的事情。
01 可验证奖励的强化学习(RLVR)
2025年初,各大实验室训练生产级大模型的标准流程大概是这样:
1. 预训练(GPT-2/3时代,约2020年)
2. 监督微调(InstructGPT,约2022年)
3. 人类反馈强化学习/RLHF(约2022年)
这套配方稳定运行了好几年。到了2025年,可验证奖励的强化学习(RLVR)横空出世,成为事实上的新标准阶段。
原理是这样的:让大模型在一系列可以自动验证对错的环境里训练(比如数学题、编程题),模型会自发地学会一些看起来像「推理」的策略——它学会把问题拆解成中间步骤,学会各种解题套路,学会走错了就回头换条路(具体例子可以看DeepSeek R1的论文)。
这些策略在之前的范式下很难实现,因为你根本不知道对模型来说「最优的推理过程」长什么样——它得自己去摸索什么对它管用。
跟监督微调和RLHF不同(这两个阶段计算量相对较小,只是轻度微调),RLVR的训练对象是客观、不可作弊的奖励函数,所以可以跑更长时间的优化。
事实证明,RLVR的性价比极高,直接吃掉了原本打算用于预训练的算力。所以2025年的能力进步,主要不是靠更大的模型,而是靠更长的强化学习训练。
还有一个RLVR独有的好处:我们多了一个新旋钮——通过生成更长的推理链、增加「思考时间」,可以在推理阶段换取更强的能力,而且这个也有对应的scaling law。
OpenAI 的o1(2024年底)是第一个RLVR模型的演示,但真正让人感受到质变的是o3(2025年初)——用起来明显不一样了。
02 幽灵VS动物/参差不齐的智能
2025年是我(我猜整个行业也是)第一次真正从直觉上理解大模型智能的「形状」。
我们不是在「进化/培养动物」,我们是在「召唤幽灵」。
大模型的一切都不一样:神经网络架构、训练数据、训练算法,尤其是优化目标。所以我们得到的实体在智能空间里也完全不同,用动物的视角去理解它们是不合适的。
从监督信号的比特数来看:人类神经网络是为了「让部落在丛林里活下来」而优化的,但大模型是为了「模仿人类的文字、在数学题里拿奖励、在竞技场上骗到人类的点赞」而优化的。
因为RLVR只在可验证的领域有效,所以大模型在这些领域周围会形成能力「尖峰」,整体呈现出一种很搞笑的参差不齐——它可以同时是博学天才,又是被骗子两句话就套出你数据的糊涂蛋。

(蓝色是人类智能,红色是AI智能。我喜欢这个梗图的一点是,它也指出了人类智能同样是参差不齐的,只是参差的方式不同。)
与此相关的是,2025年我对benchmark越来越冷漠、越来越不信任了。
问题的核心在于:benchmark几乎天然就是可验证的环境,因此天然就容易被RLVR或者合成数据生成等方式「刷分」。在典型的刷榜过程中,实验室的团队不可避免地会在benchmark占据的那一小块embedding空间周围构建训练环境,然后长出覆盖它们的「尖刺」。
用测试集训练,已经成了一门新艺术。
刷爆所有benchmark但依然没有AGI,会是什么样子?
关于这个话题我写过更多内容。
03 Cursor/LLM应用的新层级
Cursor最让我印象深刻的(除了今年的爆发式增长),是它清晰地揭示了「LLM应用」这个新层级的存在——人们开始说「X领域的Cursor」。
正如我今年在Y Combinator演讲里说的(文字稿和视频),像Cursor这样的LLM应用为特定垂直领域打包和编排LLM调用:
1. 它们负责「上下文工程」
2. 它们在底层串起多次LLM调用,组成越来越复杂的DAG,精心平衡性能和成本
3. 它们为「人在回路」提供应用专属的GUI
4. 它们提供「自主性滑块」
2025年有很多讨论集中在这个应用层到底有多「厚」。大模型公司会吃掉所有应用吗?还是LLM应用有自己的生存空间?
我个人的判断是:大模型公司会输出能力足够强的「应届毕业生」,但LLM应用会把这些毕业生组织起来、微调好、变成在特定领域真正能干活的「专业人士」——通过提供私有数据、传感器和执行器、反馈闭环。
04 Claude Code/住在你电脑里的AI
Claude Code(CC)是第一个让人信服的「LLM Agent长什么样」的演示——它以循环的方式把工具调用和推理串在一起,进行长时间的问题解决。
更重要的是,CC跑在你自己的电脑上,用的是你自己的私有环境、数据和上下文。
我觉得OpenAI在这一点上走错了——他们早期的Codex/Agent项目聚焦在云端容器部署,从ChatGPT远程操控,而不是简单地用localhost。
虽然「云端运行的Agent集群」感觉像是「AGI终局」,但我们生活在一个能力参差不齐、发展相对渐进的中间世界,直接在开发者电脑上跑Agent更合理。
注意,真正重要的区别不在于「AI运算」发生在云端还是本地,而是其他一切——已经存在并且启动好的电脑、它的安装环境、上下文、数据、密钥、配置,以及低延迟的交互。
Anthropic把这个优先级搞对了,把CC包装成一个简洁的命令行工具,改变了AI的形态——它不再只是一个你去访问的网站(像Google),而是一个「住」在你电脑里的小精灵/幽灵。
这是一种全新的、独特的AI交互范式。
05 Vibe coding
2025年是AI跨过能力门槛的一年——只用自然语言描述就能写出各种厉害的程序,甚至可以完全忘掉代码的存在。
有意思的是,「vibe coding」这个词就是我在这条随手发的推文里瞎取的,完全没想到会传这么远 🙂
有了vibe coding,编程不再是受过专业训练的人的专利,而是人人都能做的事。从这个角度看,这又是我在《Power to the people》里写的观点的又一个例证:与之前所有技术截然不同的是,普通人从大模型中受益远远超过专业人士、企业和政府。
vibe coding不仅让普通人能接触编程,还让专业程序员写出了大量原本根本不会去写的(vibe出来的)代码。
在做nanochat的时候,我用vibe coding写了一个自定义的高效BPE分词器(Rust),而不用引入现有库或者深入学Rust。今年我vibe出了很多项目,当作快速demo(比如menugen、llm-council、reader3. HN time capsule)。我甚至会为了找一个bug而vibe出整个临时应用——为什么不呢?代码突然变得免费、短命、可塑、用完即扔。
Vibe coding将会重塑软件行业,改变岗位描述。
06 Nano banana/LLM的GU
Google Gemini Nano banana是2025年最惊艳、最具范式转变意义的模型之一。
在我的世界观里,大模型是下一个重大计算范式,类似于70 年代、80年代的计算机。因此,我们会看到类似的创新出现,而且是出于类似的原因。我们会看到「个人电脑」的等价物、「微控制器」(认知核心)、「互联网」(Agent互联网)等等。
具体到UI/UX,跟LLM「聊天」有点像在1980年代给计算机敲命令行。文字是计算机(和LLM)偏爱的原生数据表示,但不是人类偏爱的格式,尤其在输入端。
说实话,人类不太喜欢读文字——又慢又费劲。人类更喜欢用视觉和空间的方式消费信息,这就是为什么传统计算机发明了GUI。
同样的道理,LLM应该用我们偏爱的格式跟我们说话——图片、信息图、幻灯片、白板、动画/视频、Web应用等等。
当然,早期和现在已经有的版本就是emoji和Markdown——用标题、粗体、斜体、列表、表格等把文字「打扮」一下、排好版,方便阅读。
但谁会真正去构建LLM的GUI呢?从这个角度看,Nano banana就是一个早期的雏形。重要的是,它不仅仅关乎图像生成本身,而是关乎文字生成、图像生成和世界知识三者融合在一起、缠绕在模型权重里的联合能力。
总结一下
2025年是大模型激动人心、出乎意料的一年。大模型正在涌现为一种新型智能——比我预期的聪明得多,同时也比我预期的蠢得多。
不管怎样,它们极其有用,而且我觉得行业连它们现有能力的10%都还没发挥出来。
与此同时,还有太多想法可以尝试,这个领域在概念上依然是一片开阔地。
正如我今年早些时候在Dwarkesh播客里说的:我同时(表面上看起来矛盾地)相信,我们既会看到快速持续的进步,同时也还有大量的工作要做。
系好安全带。
*参考来源:https://karpathy.bearblog.dev/year-in-review-2025/
文 | 凹凸快 AI万神殿 原创出品
本文由 @AI万神殿 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图由作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




