ChatGPT之后，AI的下一个终局：机器人正在迎来自己的“GPT时刻”

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

ChatGPT之后，AI的下一个终局：机器人正在迎来自己的“GPT时刻”

冒泡泡

2026-05-12

0 评论 917 浏览 0 收藏

10 分钟

从ChatGPT到家用机器人，AI的物理化进程为何步履维艰？红杉资本AI峰会揭示：机器人行业正在复制大语言模型（LLM）的成功路径，通过世界动作模型（WAM）、数据飞轮和虚拟训练场（DreamDojo）三大突破，让机械手臂也能拥有'脑补'物理常识的能力。当AI从数字世界走向物理世界，2026年或将迎来真正的家庭机器人革命。

作为一名AI从业者，过去三年，我们见证了大语言模型（LLM）的狂飙突进——从GPT-3到ChatGPT，再到多模态模型的爆发，AI终于在数字世界实现了“能说会道、能画会写”。但既然AI都这么聪明了，为啥还没有一个机器人能来家里帮我洗碗、扫地、叠衣服？

当数字智能已经足够惊艳，为什么物理世界的智能——机器人，依然显得“笨手笨脚”？在红杉资本AI峰会上那场名为《Robotics: Endgame》的分享，找到答案：机器人不是不能变聪明，而是我们还没找到正确的路径。而这条路径，早已被ChatGPT验证过——抄LLM的作业，就是机器人实现突破的最快捷径。

一、为什么现在的机器人，总显得“不够聪明”？

我们总在短视频里看到惊艳的机器人Demo：机械臂精准抓取物品、机器狗灵活穿越障碍，但这些大多是“精心设计的表演”。现实中的机器人，要么只能在工厂里做重复的预设动作，要么换个场景就“失灵”，根本达不到我们对“管家”的期待。

行业内曾试图用VLA模型（视觉-语言-动作模型）解决这个问题——给机器人装摄像头、连语言模型，让它“看图听话”，听懂指令就行动。但这条路，从根源上就走不通。

核心原因只有一个：物理世界远比数字世界复杂。ChatGPT只要掌握语言规则就能聊天，哪怕出错，重写一句就好；但机器人要面对重力、摩擦力、材质差异这些“物理常识”——人本能知道拿玻璃杯要轻、拿铁锤要用力，知道水倒多了会溢出，但机器人光靠“看”，永远学不会这些直觉。

更关键的是，软件产品出bug，最多是App闪退；但机器人出bug，可能是打碎名贵花瓶，甚至伤人。所以，让机器人拥有“物理常识”，不是加分项，而是生死线。

二、抄LLM的作业：机器人突破的核心逻辑

ChatGPT的成功，本质是一套可复制的工程范式：海量数据预训练 + 缩放定律 + 强化学习对齐。而演讲中最核心的观点的是：机器人正在复刻这套路径，只不过晚了3-5年，这就是Jim Fan所说的“The Great Parallel”（伟大的平行）。

对AI从业者来说，这不是一句空话，而是一套可落地的方法论——LLM靠互联网文本做预训练，机器人就找自己的“互联网级数据”；LLM靠RLHF做对齐，机器人就靠“物理强化学习”补全最后一公里；LLM有Scaling Law（缩放定律），机器人也有自己的“灵巧度缩放定律”。

机器人要变聪明，不用从零摸索，跟着LLM的成功路径走，就不会错。有三个关键突破，正在改写机器人行业的格局。

突破1：世界动作模型（WAM）——给机器人装上“脑补能力”

既然光靠“看”学不会物理常识，那就要给机器人装一个“能推演物理后果”的大脑——世界动作模型（WAM）。

听起来很高大上，其实就是“脑补能力”。就像Sora视频大模型在学习“世界如何运转”一样，WAM能让机器人在动手前，在脑子里“放电影”：倒杯水，会预演手滑杯子会掉、倾斜角度太大会洒水；开抽屉，会预判拉哪里最省力、卡住了该怎么调整。

这和人类的直觉一模一样——我们拿起杯子前，不会刻意计算牛顿力学，但大脑里早已预演了所有可能的后果。未来AI的核心竞争力，不再是“背知识、算题快”，而是“脑补预演”的精准度，谁能做出更贴合现实规律的WAM，谁就掌握了机器人的核心命脉。

突破2：数据飞轮——机器人的“特斯拉护城河”

ChatGPT靠海量文本喂出了智能，机器人要变灵巧，同样需要海量“动作数据”。而这里的关键，是复制特斯拉FSD的“数据飞轮”逻辑。

特斯拉的自动驾驶之所以牛，是因为满大街的车都在传回真实道路数据——数据越多，模型越强；模型越强，买的人越多，形成正向循环。机器人也是一样，演讲中提到的“灵巧度缩放定律”，本质就是“大力出奇迹”：只要喂给机器人足够多的真实动作数据，它的手就会越来越巧，动作越来越像人。

但机器人的数据采集，比LLM难得多——互联网有免费的文本语料，但机器人的动作数据需要真机操作、人工遥测，成本极高。这就意味着，未来的行业壁垒，不是算法，而是“低成本采集高质量动作数据”的能力。那些能教机器人做事的“数据采集手套”“VR遥控器”，可能比机器人本身更有商业价值。

突破3：DreamDojo——在虚拟世界里“练满级”再落地

有了模型和数据，还有一个现实难题：让机器人学洗碗，总不能真买一万个碗让它摔吧？成本太高，也不现实。解决这个“最后一公里”的关键，就是DreamDojo（梦想道场）。

你可以把它想象成《黑客帝国》里的虚拟母体——我们在电脑里建一个完全符合物理规律的“虚拟厨房”，让机器人的“灵魂”在里面日夜不停地训练：一天洗几万年的碗，摔碎无数个虚拟盘子，试错成本为零。等它在虚拟世界里练成“洗碗大师”，再把经验下载到真实机器人身上，就能直接上手干活。这彻底解决了机器人真实世界试错成本高的难题。

传统仿真工具的痛点的是“虚拟和现实脱节”，而DreamDojo用神经物理引擎，让虚拟环境无限贴近真实，让机器人的训练效率提升千倍、万倍。未来，谁能做好“机器人版的训练平台”，谁就会成为机器人时代的“英伟达CUDA”。