ChatGPT之后,AI的下一个终局:机器人正在迎来自己的“GPT时刻”
从ChatGPT到家用机器人,AI的物理化进程为何步履维艰?红杉资本AI峰会揭示:机器人行业正在复制大语言模型(LLM)的成功路径,通过世界动作模型(WAM)、数据飞轮和虚拟训练场(DreamDojo)三大突破,让机械手臂也能拥有'脑补'物理常识的能力。当AI从数字世界走向物理世界,2026年或将迎来真正的家庭机器人革命。

作为一名AI从业者,过去三年,我们见证了大语言模型(LLM)的狂飙突进——从GPT-3到ChatGPT,再到多模态模型的爆发,AI终于在数字世界实现了“能说会道、能画会写”。但既然AI都这么聪明了,为啥还没有一个机器人能来家里帮我洗碗、扫地、叠衣服?
当数字智能已经足够惊艳,为什么物理世界的智能——机器人,依然显得“笨手笨脚”?在红杉资本AI峰会上那场名为《Robotics: Endgame》的分享,找到答案:机器人不是不能变聪明,而是我们还没找到正确的路径。而这条路径,早已被ChatGPT验证过——抄LLM的作业,就是机器人实现突破的最快捷径。
一、为什么现在的机器人,总显得“不够聪明”?
我们总在短视频里看到惊艳的机器人Demo:机械臂精准抓取物品、机器狗灵活穿越障碍,但这些大多是“精心设计的表演”。现实中的机器人,要么只能在工厂里做重复的预设动作,要么换个场景就“失灵”,根本达不到我们对“管家”的期待。
行业内曾试图用VLA模型(视觉-语言-动作模型)解决这个问题——给机器人装摄像头、连语言模型,让它“看图听话”,听懂指令就行动。但这条路,从根源上就走不通。
核心原因只有一个:物理世界远比数字世界复杂。ChatGPT只要掌握语言规则就能聊天,哪怕出错,重写一句就好;但机器人要面对重力、摩擦力、材质差异这些“物理常识”——人本能知道拿玻璃杯要轻、拿铁锤要用力,知道水倒多了会溢出,但机器人光靠“看”,永远学不会这些直觉。
更关键的是,软件产品出bug,最多是App闪退;但机器人出bug,可能是打碎名贵花瓶,甚至伤人。所以,让机器人拥有“物理常识”,不是加分项,而是生死线。
二、抄LLM的作业:机器人突破的核心逻辑
ChatGPT的成功,本质是一套可复制的工程范式:海量数据预训练 + 缩放定律 + 强化学习对齐。而演讲中最核心的观点的是:机器人正在复刻这套路径,只不过晚了3-5年,这就是Jim Fan所说的“The Great Parallel”(伟大的平行)。
对AI从业者来说,这不是一句空话,而是一套可落地的方法论——LLM靠互联网文本做预训练,机器人就找自己的“互联网级数据”;LLM靠RLHF做对齐,机器人就靠“物理强化学习”补全最后一公里;LLM有Scaling Law(缩放定律),机器人也有自己的“灵巧度缩放定律”。
机器人要变聪明,不用从零摸索,跟着LLM的成功路径走,就不会错。有三个关键突破,正在改写机器人行业的格局。
突破1:世界动作模型(WAM)——给机器人装上“脑补能力”
既然光靠“看”学不会物理常识,那就要给机器人装一个“能推演物理后果”的大脑——世界动作模型(WAM)。
听起来很高大上,其实就是“脑补能力”。就像Sora视频大模型在学习“世界如何运转”一样,WAM能让机器人在动手前,在脑子里“放电影”:倒杯水,会预演手滑杯子会掉、倾斜角度太大会洒水;开抽屉,会预判拉哪里最省力、卡住了该怎么调整。
这和人类的直觉一模一样——我们拿起杯子前,不会刻意计算牛顿力学,但大脑里早已预演了所有可能的后果。未来AI的核心竞争力,不再是“背知识、算题快”,而是“脑补预演”的精准度,谁能做出更贴合现实规律的WAM,谁就掌握了机器人的核心命脉。
突破2:数据飞轮——机器人的“特斯拉护城河”
ChatGPT靠海量文本喂出了智能,机器人要变灵巧,同样需要海量“动作数据”。而这里的关键,是复制特斯拉FSD的“数据飞轮”逻辑。
特斯拉的自动驾驶之所以牛,是因为满大街的车都在传回真实道路数据——数据越多,模型越强;模型越强,买的人越多,形成正向循环。机器人也是一样,演讲中提到的“灵巧度缩放定律”,本质就是“大力出奇迹”:只要喂给机器人足够多的真实动作数据,它的手就会越来越巧,动作越来越像人。
但机器人的数据采集,比LLM难得多——互联网有免费的文本语料,但机器人的动作数据需要真机操作、人工遥测,成本极高。这就意味着,未来的行业壁垒,不是算法,而是“低成本采集高质量动作数据”的能力。那些能教机器人做事的“数据采集手套”“VR遥控器”,可能比机器人本身更有商业价值。
突破3:DreamDojo——在虚拟世界里“练满级”再落地
有了模型和数据,还有一个现实难题:让机器人学洗碗,总不能真买一万个碗让它摔吧?成本太高,也不现实。解决这个“最后一公里”的关键,就是DreamDojo(梦想道场)。
你可以把它想象成《黑客帝国》里的虚拟母体——我们在电脑里建一个完全符合物理规律的“虚拟厨房”,让机器人的“灵魂”在里面日夜不停地训练:一天洗几万年的碗,摔碎无数个虚拟盘子,试错成本为零。等它在虚拟世界里练成“洗碗大师”,再把经验下载到真实机器人身上,就能直接上手干活。这彻底解决了机器人真实世界试错成本高的难题。
传统仿真工具的痛点的是“虚拟和现实脱节”,而DreamDojo用神经物理引擎,让虚拟环境无限贴近真实,让机器人的训练效率提升千倍、万倍。未来,谁能做好“机器人版的训练平台”,谁就会成为机器人时代的“英伟达CUDA”。
三、机器人行业的3个关键判断
听完整场演讲,作为AI从业者,我对机器人的未来有三个深刻的判断,也想和大家分享:
第一,机器人不再是“硬件公司”的游戏。过去,机器人行业的核心是“机械+控制”,比拼的是硬件精度;但现在“AI+数据”——数据、模型、仿真才是决定竞争力的关键。
第二,“通用性”是唯一的长期方向。短期来看,专用机器人(咖啡机器人、按摩机器人)能赚钱,但长期一定会被通用机器人降维打击——这和ChatGPT碾压所有专用NLP工具的逻辑完全一样。未来,能适应多种场景、完成多种任务的通用机器人,才是市场的终极答案。
第三,物理AGI的时间表,比我们想象的更近。Jim Fan在演讲最后说:“它比你想的更近”。结合GPT-3到GPT-4只用了3年,机器人从“能动”到“能用”的窗口期,可能就在2026-2028年,或许不用等到十年后,就能看到能走进家庭、帮我们做家务的机器人管家。
四、结语:AI从“屏幕里”走向“现实中”
ChatGPT的出现,让AI学会了理解和生成数字世界的内容;而机器人的崛起,会让AI拥有真实的躯体,走进物理世界,真正地“动手做事”。这是AI从“理解世界”到“改变世界”的转折点。ChatGPT之后,下一个王炸不是另一个语言模型,而是能走进我们生活、帮我们解决实际问题的全能机器人。
本文由 @冒泡泡 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




