从 LLM 到世界模型：AI 的下一场范式革命

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从 LLM 到世界模型：AI 的下一场范式革命

冒泡泡

2026-03-17

1 评论 3253 浏览 1 收藏

35 分钟

世界模型正在成为AI行业的下一场革命，但多数人对其本质仍存在误解。本文从底层逻辑出发，深度拆解世界模型如何突破当前AI的认知局限，实现从「语言描述」到「物理理解」的跨越，并揭示其为何被视为通往AGI的必经之路。通过对比国内外技术路线和产业实践，带你一窥这场颠覆性变革背后的战略布局与商业机会。

这一年里，行业里人人都在谈论 “世界模型”，但多数人对其认知仍停留在表面：有人将其等同于 Sora 这类视频生成工具，有人认为是多模态模型的进阶升级，还有人将其窄化为自动驾驶的专属技术。这些理解虽未偏离方向，却未能触及核心本质。

作为深耕 AI 训练数据一线的从业者，本文将结合全球前沿研究与产业实践，从底层逻辑出发，拆解世界模型的真实面貌、与现有 AI 体系的关系、国内外的技术路线布局，以及这场变革对整个 AI 行业的深远影响，回答 “世界模型为何是通往 AGI 的必经之路” 这一核心问题。

破局：当前 AI 的核心痛点 —— 只有描述，没有经历

GPT-4 的出现曾让市场一度乐观地认为通用人工智能（AGI）近在咫尺。它能轻松通过律师资格考试，写出逻辑严谨的专业文章，甚至能解释量子力学的基础理论、调试复杂的代码。但在实际落地场景中，所有人都会遇到一道难以逾越的 “墙”。

一个很基础的物理空间推理测试：“一个正方体木块放在光滑桌面上，用手从左侧水平向右推一下，木块会先向右滑动，随后慢慢停下。请问：木块从运动到静止的过程中，摩擦力的方向和木块运动方向是什么关系？”模型的答案非常不稳定：有时说同向，有时说反向，有时说 “先同向后反向”。

更关键的是，无论答案对错，它都能编出一套听起来逻辑通顺、因果严谨的解释。

这个现象让我非常确定一件事：

大语言模型真正学会的，是 “人类语言的统计规律”，而不是 “世界运行的物理规律”。

这一现象直指当前 AI 的本质缺陷：大语言模型（LLM）掌握的是 “关于世界的语言描述”，而非 “世界本身的运作规律”。正如 Meta 前首席 AI 科学家 Yann LeCun 所言，AI 领域的 Moravec 悖论至今未解 —— 机器能轻松完成微积分、下棋等人类高智力任务，却无法掌握人类与生俱来的物理直觉，根源就在于 LLM 只是在拟合语言的统计相关性，并未直接建模现实世界。

LLM 的训练目标，本质是基于前文文本预测下一个词的概率分布。这种模式让它熟练掌握了人类语言的统计规律，却无法触及世界的因果逻辑。比如，模型能从海量语料中记住 “火焰是热的”，但它无法理解 “为何热”“触摸火焰后皮肤会因何种物理机制受损”，更无法预判 “伸手触碰火焰” 这一行为的真实后果。它只知道 “是什么”，却从未真正理解 “会怎样”。

多模态模型的出现，看似通过视觉与语言的映射补齐了感知维度，却仍未解决核心痛点。正如 World Labs 创始人李飞飞所言，大语言模型的基本单元是词库，而世界模型的基本单元是像素或体素 —— 多模态模型的本质是建立静态的图像 – 语言关联，比如能识别图片中的猫并描述其特征，却无法理解动态的物理变化。向其展示台球桌的照片，它能准确描述场景，但一旦询问 “击球后球的运动轨迹”“是否会碰撞边框反弹”，模型输出便会变得极不可靠。

根源很简单：多模态模型看过无数台球相关的图片，却从未 “参与” 过台球运动，没有建立起动态的物理认知。而人类的物理直觉之所以可靠，是因为我们从婴儿时期便在真实世界中不断试错、行动与反馈，在大脑中构建了属于自己的 “心智模型”—— 这正是认知科学中人类智能的核心，也是当前 AI 最缺失的能力。

而世界模型，正是为让机器拥有属于自己的 “心智模型” 而生，它要解决的核心问题，就是让 AI 从 “被灌输知识” 走向 “主动经历世界”。

定义：世界模型的核心 —— 从 “理解” 到 “预测” 再到 “行动”

世界模型的概念并非新生，其思想根源可追溯至 1943 年 Kenneth Craik 在《解释的本质》中提出的观点：人类会在大脑中构建 “小规模的世界模型”，模拟可能发生的过程并据此选择行动。这一思想在 AI 领域不断演化，1991 年 Dyna 架构首次将 “世界模型” 确立为智能体的基础能力，2018 年 Google Brain 的《World Models》论文则正式给出了框架定义：世界模型 = 观察世界（V）+ 预测世界（M）+ 在内部世界中学习行动（C）。

如今，研究者们普遍认为，世界模型是一个能将现实世界抽象为潜在空间，通过学习物理规律预测 “当前状态 S 采取行动 A 后，世界将变成状态 S’”，并能在内部模拟中规划最优行动的智能体核心模型，它具备三大核心特质，这也是其与 LLM、多模态模型最本质的区别：

表示世界（Representation）：不仅能识别环境中的物体，更能理解物体的位置、属性及物与物之间的空间、因果关系，这是对多模态模型静态感知的超越；
预测未来（Prediction）：能基于物理规律推演事件的动态演化，比如预测推杯子后的运动轨迹、光线在不同材质上的反射变化，这是 LLM 完全不具备的能力；
规划和行动（Planning & Control）：能在内部模拟中推演多种行动可能性，选择最优解并指导实际操作，实现从 “认知” 到 “行为” 的闭环。

正如 Meta 产品设计负责人 Yiqi Zhao 所言，世界模型就像一个 “缩小的平行宇宙”，它让 AI 拥有了自己的 “世界观”—— 不再是只会回答问题的语言机器，而是能像人类一样 “观察 – 推理 – 行动” 的智能体。而视频预测成为世界模型的核心工程验证方式，正是因为视频是天然的因果序列，每一帧的演化都遵循物理规律，训练模型预测视频下一帧，本质上就是让它被迫学习世界的运作逻辑。

爆发：为何世界模型在 2024 年成为行业焦点

世界模型的理论研究已历经数十年，却直到 2024 年前后才突然成为全球 AI 行业的核心议题，背后是技术瓶颈、产业需求、工程能力三大因素的叠加共振，让这一概念从学术理论走向产业实践。

1. LLM 规模化发展遭遇天花板

从 GPT-3 到 GPT-4，参数量的大幅提升曾带来显著的能力跃迁。但 GPT-4 之后，这种跃迁幅度明显收窄，训练成本却从数千万美元飙升至数亿美元，且用户感知到的能力提升愈发有限。更棘手的是数据瓶颈：有研究机构估算，互联网上可用的高质量文本数据将在 2026-2028 年被主流模型基本消耗殆尽。

强化学习之父 Richard Sutton 直言，大语言模型从一开始就走错了方向 —— 它试图在没有目标、没有评价标准的情况下运作，单纯的 “堆参数、堆数据” 只能做出更会说话的模型，却无法让 AI 真正理解世界。行业共识已形成：LLM 的 scaling law 已触顶，继续沿着这条路线走，无法实现 AGI。

2. 具身智能需求爆发式增长

2024 年，人形机器人赛道迎来融资高峰，Figure AI、1X Technologies 等企业密集获得大额融资，自动驾驶、工业机器人也进入规模化落地的关键阶段。这些领域的核心需求，是让 AI 进入真实物理世界开展工作 —— 而这恰恰是 LLM 与多模态模型无法胜任的。

机器人需要预判抓取物体的受力结果，自动驾驶需要推演交通参与者的行为轨迹，工业设备需要应对复杂环境的动态变化，这些都要求 AI 具备物理理解、因果推理、行动预测能力，而这正是世界模型的核心价值。具身智能的落地刚需，直接将世界模型推上了技术优先级的顶端。

3. 工程能力成熟让世界模型从 “理论” 走向 “实践”

训练世界模型需要海量动态数据、强大的多模态感知能力、支撑大规模推演的算力，这些条件直到最近几年才逐步成熟：

互联网积累了海量的视频、传感器动态数据，为模型学习世界规律提供了基础；
多模态模型的发展让 AI 具备了融合视觉、听觉、语言的感知能力，能更全面地观察世界；
GPU/TPU 算力的提升、分布式训练技术的成熟，支撑起了视频生成、3D 建模等大规模计算任务；
更关键的是，OpenAI Sora 的发布彻底验证了路线可行性 —— 通过大规模视频预训练，模型能涌现出物理理解能力，让 “世界模拟器” 从概念变成了看得见的现实。

4. 行业对 “真实智能” 的期待超越 “表层能力”

从 LLM 到多模态模型，AI 的能力始终停留在 “输出信息” 的表层 —— 写文案、做图片、生成视频，都是对人类已有知识的重组与再现。但行业的期待早已超越于此：人们需要 AI 能解决现实问题、替代人类完成物理世界的操作、甚至自主做出决策。这种需求的升级，让聚焦于 “理解世界、改变世界” 的世界模型，成为了 AI 行业的下一个必然方向。

共生：世界模型与 LLM、多模态模型的关系重构

很多人误以为世界模型是对 LLM 和多模态模型的替代，实则不然。正如加州大学戴维斯分校助理教授陈羽北所言，世界模型并非要推翻 LLM，而是为其补上 “现实世界” 的维度。三者的关系是能力层级上的包含与升级，而非替代，未来的通用智能体，必然是三者的深度融合。

用一个形象的比喻理解三者的定位，更能看清其核心差异：

大语言模型：是 “读遍群书却从未出门的学者”。它精通语言逻辑，能引经据典、精准推理，教会 AI “说话” 与 “知道”，但从未亲眼见过真实世界，无法理解物理直觉；
多模态模型：是 “看过无数照片视频的学者”。它能看懂图片、描述视觉内容，教会 AI “看世界” 与 “感知”，但 “看过” 与 “经历” 有着本质区别，无法理解动态变化；
世界模型：是 “真正在世界中生活的行动者”。它能建立行为与结果的因果链条，能模拟多种未来可能性并选择最优路径，教会 AI “理解世界” 与 “改变世界”，是智能体的认知中枢。

未来的 AI 形态，将是一套 “感知 – 认知 – 行动” 的闭环体系”：

LLM 成为语言接口层，负责自然语言交互、逻辑推理，将人类指令转化为模型能理解的任务；
多模态模型成为感知层，负责视觉、听觉、触觉等多维度信息采集，将真实世界的信号转化为模型能处理的表征；
世界模型成为核心认知层，整合感知信息，基于物理规律进行动态预测、行动规划，指导智能体的实际操作。

缺少任何一环，都无法构建真正的通用智能。世界模型不是对现有 AI 技术的否定，而是对其的整合与升华 —— 它让 LLM 和多模态模型的能力有了落地的根基，让 AI 从 “纸上谈兵” 走向 “实战应用”。

布局：全球技术路线之争，国内与海外的差异化探索

世界模型的最终目标是构建能理解、预测、行动的通用智能体，但在实践层面，全球研究者走出了多条差异化路线。海外大厂聚焦于世界生成与智能体训练的核心突破，国内大厂则结合自身技术储备，走出了本土化、场景化的探索路径，两者相互补充，共同推动着技术发展。

（一）海外主流路线：从 “世界生成” 到 “智能体行动” 的两层突破

海外研究以 OpenAI、谷歌、Meta、李飞飞 World Labs 为代表，核心围绕 Meta 提出的世界模型 “三层结构”（思想范式 – 世界生成 – 智能体训练）展开，目前聚焦于第二层世界生成和第三层智能体训练，形成了四大核心路线：

路线 1：视频生成路线 —— 以 Sora、Genie 为代表，“画出” 动态世界

这是目前最具代表性、最贴近商业化的路线，核心是通过视频生成让 AI 学习世界的动态演化规律。OpenAI Sora 被定义为 “世界模拟器”，能生成符合物理规律的连续视频，理解光线、材质、物体运动的基本逻辑；谷歌 Genie 3 则实现了突破，从 “播放世界” 走向 “探索世界”，能生成可实时交互的虚拟环境，记住世界的状态变化，更接近真正的 “世界引擎”。

优势：训练数据易获取、结果看得见、能快速商业化落地（影视、广告、游戏）；

局限：对世界的理解是 “隐式” 的，规律藏在权重里，无法直接移植到机器人、决策系统中。

路线 2：3D 生成路线 —— 以李飞飞 Marble 为代表，“搭建” 结构化世界

李飞飞认为，真实世界是 3D 的，AI 必须理解空间结构才能真正理解世界，因此提出了 3D 生成（空间智能）路线。其团队发布的 Marble 模型，能通过语言、图片或视频重建完整的 3D 场景结构，输出物体的精确尺寸、位置，实现了对世界的 “显式建模”。

优势：物理模拟、规划控制更易实现，能为机器人、自动驾驶提供可靠的空间认知，是 “可操作世界模型” 的底座；

局限：3D 数据稀缺、采集成本高，几何结构建模难度大，对算力需求远超 2D 模型。

路线 3：虚拟世界智能体训练 —— 以谷歌 SIMA 2 为代表，“练就” 行动能力

如果说世界生成是 “建考场”，智能体训练就是 “练考生”。谷歌 SIMA 2 将 AI 放进游戏环境中 “练级”，结合 Genie 3 生成的虚拟世界，让模型学会理解复杂指令、自主规划行动、跨环境泛化，甚至能在从未见过的场景中做出合理决策。游戏作为现实世界的缩影，成为了智能体训练的最佳低成本训练场。

核心价值：让 AI 从 “能预测” 走向 “会行动”，为具身机器人的现实迁移奠定基础。

路线 4：抽象结构学习路线 —— 以 Yann LeCun JEPA 为代表，“提炼” 世界本质

Yann LeCun 是生成式路线的坚定反对者，他认为生成图片、视频只是在 “画细节”，却未理解世界的核心结构。其提出的 JEPA 架构，核心是将真实世界压缩为抽象的高维潜在表示，只预测与决策相关的 “未来结构”（比如球的运动方向、是否碰撞），而非具体的画面细节。

优势：计算成本低、更易捕捉因果关系，输出的结构化信息更贴合机器人、具身智能的需求；

局限：学习成果 “不可见”，难以验证；自监督目标设计难，缺乏统一的评估标准，目前仍处于理论探索阶段。

（二）国内五大路线：立足场景，务实探索，发挥本土优势

国内大厂并未照搬海外路线，而是结合自身在数据标注、3D 建模、游戏引擎、多模态模型等方面的优势，走出了五条差异化的探索路径，更注重 “场景落地” 和 “成本可控”，与海外研究形成互补：

路线 1：小而精的领域专属世界模型 —— 务实落地，先易后难

核心逻辑是避开通用世界模型的复杂性，聚焦于桌面操作、烹饪、工业组装等特定领域，构建封闭的训练环境，采集 “状态 – 动作 – 结果” 三元组数据。其价值不仅是预测，更在于成为智能体的虚拟训练场，大幅降低真实机器人的试错成本。

优势：落地速度快、数据质量高、物理闭环完整；

局限：泛化能力弱，从小领域扩展到通用世界需要大量后续工作。

路线 2：大规模投喂 3D 数据 —— 从空间本质出发，构建高精度物理认知

核心思路是结合物理引擎与 3D 仿真引擎，生成大量具备真实物理属性的动态场景数据（物体碰撞、液体流动、布料变形等），让模型在 3D 空间中直接学习物理规律。通过 “3D 感知预训练 – 3D 动态建模 – 2D 到 3D 映射” 三步，让模型能在真实场景中应用 3D 学习成果。

优势：物理建模精准、泛化能力强；

挑战：高质量 3D 动态数据获取成本高，仿真与现实的迁移鸿沟尚未完全解决。

路线 3：高学历人群标注物理常识 —— 发挥人口优势，提升数据质量

这是国内最具比较优势的路线，核心解决世界模型的物理推理标注难题。普通众包标注无法判断 “玻璃碎裂的碎片分布是否符合力学规律”，因此国内团队组建由物理、力学专业硕博组成的评估团队，构建结构化物理标注框架，将物理先验知识注入训练过程，让模型学到 “物理规律约束下应该发生什么”，而非单纯的统计规律。

路线 4：游戏引擎作为天然训练场 —— 依托游戏产业优势，打造低成本训练环境

腾讯、网易、米哈游等游戏大厂，拥有成熟的游戏引擎和 3D 内容制作能力，而游戏世界正是完美的世界模型训练场：物理规律完整、可交互、标注信息精准、数据规模近乎无限。通过游戏数据训练，能自动获得 “动作 – 状态变化” 的核心数据，还能生成极端场景数据，这在真实世界中难以实现。

优势：数据成本低、标注自动完成、物理一致性有保障；

挑战：游戏物理与真实物理存在 “风格差距”，迁移问题需进一步解决。

路线 5：多模态大模型的渐进演化 —— 依托现有积累，补齐核心能力

这是国内多数互联网大厂（字节、阿里、百度）的选择，核心逻辑是在已成熟的多模态模型基础上，针对性添加时序动态建模、行动条件化预测、因果推断三大模块，补齐世界模型的核心能力，无需从零开始训练。

优势：落地快、成本低、能充分复用现有技术积累；

局限：渐进式修补难以突破多模态模型的底层架构局限，能力上限存在不确定性。

全球路线的共性与趋势

无论是海外还是国内，所有路线都指向同一个核心目标：让 AI 从 “输出信息” 走向 “理解世界、推理世界、在世界里行动”。目前全球大厂均采取 “多路线布局” 策略，比如 Meta 同时研发视频生成、3D 重建、JEPA 架构，国内大厂也在场景化探索的同时，关注海外的核心技术突破。未来的技术胜出者，大概率是能融合多条路线优势的团队 —— 比如将 3D 的显式结构与视频的动态演化结合，将虚拟世界的智能体训练与真实世界的物理标注结合。

变革：世界模型重构 AI 行业，从业者的能力升级与机遇

世界模型的浪潮，不仅是技术路线的更迭，更是整个 AI 行业生态的重构 —— 从技术研发、数据生产到产品落地，所有环节的核心逻辑都在改变。对于 AI 从业者而言，这既是挑战，也是前所未有的机遇，职业能力的要求从 “量的积累” 转向 “质的深度”，职业身份也在发生本质转变。

1. AI 训练师：从 “数据处理工人” 到 “世界规则设计师”

在 LLM 时代，训练师的工作核心是 “量的积累”—— 采集更多数据、标注更多样本、覆盖更多场景，依靠统计规律让模型学会能力。但在世界模型时代，单纯的数量积累已毫无意义，数据的质量和深度才是核心，训练师的工作核心变成了 “设计世界的规则”，具体要求体现在四个方面：

建立物理直觉：能判断模型输出的 “物理合理性”，识别碎片飞散角度、流体流动速度等细微的物理错误，理工科背景成为核心优势；
强化因果思维：摆脱统计依赖，学会区分 “相关” 与 “因果”，能基于物理规律推断结果，而非单纯依赖过往数据经验；
设计物理对抗样本：主动构建边界条件、反常识场景，挖掘模型的物理盲区，推动模型优化；
参与数据生态顶层设计：从整体训练流程出发，设计数据采集方案，让有限的数据发挥最大的训练价值，这一能力的重要性远超过单纯的标注执行。

2. 算法工程师：从 “模型调优” 到 “系统构建”

LLM 时代的算法工程师，核心工作是调参、优化模型、提升指标。而世界模型是一套 “感知 – 认知 – 行动” 的闭环系统，要求工程师具备跨领域的系统思维：不仅要懂深度学习，还要懂物理仿真、3D 建模、强化学习、机器人控制；不仅要优化单个模型，还要能整合多模态感知、世界生成、智能体规划等多个模块，实现系统级的协同。

3. 产品经理：从 “体验设计” 到 “场景落地”

过去的 AI 产品经理，核心关注 “语言交互的流畅度”“生成内容的质量”。而世界模型的产品，核心价值是解决真实世界的问题，产品经理的工作重心也从 “体验设计” 转向 “场景落地”：

要理解具体场景的物理规律和业务需求，比如机器人产品需要理解工业操作的流程，自动驾驶产品需要理解交通场景的风险；
要平衡技术可行性与场景需求，比如在仿真与现实的迁移鸿沟尚未解决的情况下，设计出能落地的阶段性产品；
要关注产品的安全性和可靠性，因为世界模型的产品直接作用于物理世界，任何错误都可能带来实际损失。

重构：世界模型改写核心行业，开启产业新周期

世界模型的影响远不止于 AI 行业本身，它将成为一场横跨硬件、软件、制造、娱乐、交通、消费等众多行业的系统性冲击，让 AI 从 “辅助工具” 变成 “核心生产力”，甚至重构行业的底层逻辑。

1. 机器人行业：从 “编程操作” 到 “自主智能”，实现规模化落地

过去的机器人，本质是 “被编程的机器”，每一项新任务都需要工程师重新调参，环境稍有变化就会 “失能”，这是机器人行业难以规模化的核心原因。而世界模型让机器人拥有了 “世界的内部模型”，能预判行动后果、自主规划操作、跨场景迁移能力 —— 比如在虚拟世界中学会倒咖啡后，能快速适应不同的杯子、桌面环境。机器人从 “专用工具” 变成 “通用智能体”，家庭服务、工业协作、餐饮零售等场景的机器人将实现规模化落地，推动制造业向 “智能化、柔性化” 升级。

2. 自动驾驶：从 “感知反应” 到 “预判规划”，迈向 L5 级通用自动驾驶

当前 L2/L3 级自动驾驶，核心是 “感知 – 预测 – 规划” 的分层体系，能识别环境却无法稳定预判未来，长尾场景（极端天气、突发事故）成为最大瓶颈。世界模型将自动驾驶系统升级为 “世界理解引擎”，能构建结构化的世界表征，推演多种交通参与者的行为可能性，从中筛选最优决策路径，让系统具备接近人类的驾驶预判能力。推动自动驾驶从 “局部可用” 走向 “可验证、安全的大规模商业化”，L5 级通用自动驾驶的实现有了核心技术支撑。

3. 内容创作 / 游戏 / 影视：从 “人工制作” 到 “AI 生成进化”，重构创作模式

视频生成只是世界模型在内容行业的初步应用，未来的内容创作将实现 “世界观定义后，AI 自动生成并进化”：内容创作从 “人工制作” 走向 “AI 协同创作”，创作效率提升的同时，叙事方式、内容形式也将迎来全面重写。

影视行业：导演只需定义 “被雨水淹没的城市”，AI 就能生成整个城市的动态演化，无需搭景、重拍，大幅降低制作成本；
游戏行业：过去需要数百人团队花费几年搭建的开放世界，未来设计师只需设定规则、生态，AI 就能自动生成地形、天气、NPC 行为，甚至让 NPC 拥有自己的性格和记忆，实现 “游戏的实时生成与进化”；

4. AI Agent：从 “工具调用” 到 “自主行动”，成为真正的 “智能助理”

当前的 AI Agent，核心能力是 “工具调用” 和 “简单规划”，但缺少一个可训练、可试错的 “内部世界”，无法真正自主行动。世界模型为 AI Agent 提供了接近真实的虚拟训练环境，让它能在内部模拟中学会解决复杂问题，再将能力迁移到现实世界 —— 比如能自主规划出差行程、处理工作邮件、甚至控制智能家居完成复杂任务。AI Agent 从 “被动执行指令” 变成 “主动解决问题”，成为真正能替代人类完成复杂工作的 “智能助理”。

5. 工业制造：从 “自动化” 到 “智能化”，实现柔性生产

工业制造的自动化已发展多年，但仍面临 “产线调整成本高、应对复杂场景能力弱” 的问题。世界模型将推动工业制造向 “智能化” 升级：工业机器人能自主适应不同的产品、产线环境，智能系统能预判设备故障、优化生产流程，甚至能根据市场需求自主调整生产计划，实现真正的 “柔性生产”。

变革核心：工业制造的底层逻辑从 “标准化生产” 走向 “智能化、个性化生产”，推动制造业的产业升级。

展望：世界模型是 AGI 的必经之路，未来仍在探索中

必须客观承认：世界模型目前仍处于早期阶段，远未成熟。复合误差累积、分布外泛化困难、仿真到现实的迁移鸿沟、缺乏统一的评估体系等难题，至今没有完美的解决方案。但这恰恰是它的价值所在 —— 一个成熟的领域，门槛高、创新空间小；而一个处于方法论探索期的领域，每一个参与者都有机会定义行业规则、影响技术走向。

我们当下对世界模型的认知，大概相当于 2017 年人们对 Transformer 架构的理解 —— 知道它至关重要，但尚未完全明确它的最终形态、应用场景与突破路径。但有一点是确定的：世界模型不是短暂的风口，而是 AI 发展的必经之路。

回顾 AI 的发展脉络，其实是一部 “AI 不断接近真实世界” 的历史 ：