从 LLM 到世界模型:AI 的下一场范式革命

0 评论 1063 浏览 1 收藏 35 分钟

世界模型正在成为AI行业的下一场革命,但多数人对其本质仍存在误解。本文从底层逻辑出发,深度拆解世界模型如何突破当前AI的认知局限,实现从「语言描述」到「物理理解」的跨越,并揭示其为何被视为通往AGI的必经之路。通过对比国内外技术路线和产业实践,带你一窥这场颠覆性变革背后的战略布局与商业机会。

这一年里,行业里人人都在谈论 “世界模型”,但多数人对其认知仍停留在表面:有人将其等同于 Sora 这类视频生成工具,有人认为是多模态模型的进阶升级,还有人将其窄化为自动驾驶的专属技术。这些理解虽未偏离方向,却未能触及核心本质。

作为深耕 AI 训练数据一线的从业者,本文将结合全球前沿研究与产业实践,从底层逻辑出发,拆解世界模型的真实面貌、与现有 AI 体系的关系、国内外的技术路线布局,以及这场变革对整个 AI 行业的深远影响,回答 “世界模型为何是通往 AGI 的必经之路” 这一核心问题。

破局:当前 AI 的核心痛点 —— 只有描述,没有经历

GPT-4 的出现曾让市场一度乐观地认为通用人工智能(AGI)近在咫尺。它能轻松通过律师资格考试,写出逻辑严谨的专业文章,甚至能解释量子力学的基础理论、调试复杂的代码。但在实际落地场景中,所有人都会遇到一道难以逾越的 “墙”。

一个很基础的物理空间推理测试:“一个正方体木块放在光滑桌面上,用手从左侧水平向右推一下,木块会先向右滑动,随后慢慢停下。请问:木块从运动到静止的过程中,摩擦力的方向和木块运动方向是什么关系?”模型的答案非常不稳定:有时说同向,有时说反向,有时说 “先同向后反向”。

更关键的是,无论答案对错,它都能编出一套听起来逻辑通顺、因果严谨的解释

这个现象让我非常确定一件事:

大语言模型真正学会的,是 “人类语言的统计规律”,而不是 “世界运行的物理规律”。

这一现象直指当前 AI 的本质缺陷:大语言模型(LLM)掌握的是 “关于世界的语言描述”,而非 “世界本身的运作规律”。正如 Meta 前首席 AI 科学家 Yann LeCun 所言,AI 领域的 Moravec 悖论至今未解 —— 机器能轻松完成微积分、下棋等人类高智力任务,却无法掌握人类与生俱来的物理直觉,根源就在于 LLM 只是在拟合语言的统计相关性,并未直接建模现实世界。

LLM 的训练目标,本质是基于前文文本预测下一个词的概率分布。这种模式让它熟练掌握了人类语言的统计规律,却无法触及世界的因果逻辑。比如,模型能从海量语料中记住 “火焰是热的”,但它无法理解 “为何热”“触摸火焰后皮肤会因何种物理机制受损”,更无法预判 “伸手触碰火焰” 这一行为的真实后果。它只知道 “是什么”,却从未真正理解 “会怎样”。

多模态模型的出现,看似通过视觉与语言的映射补齐了感知维度,却仍未解决核心痛点。正如 World Labs 创始人李飞飞所言,大语言模型的基本单元是词库,而世界模型的基本单元是像素或体素 —— 多模态模型的本质是建立静态的图像 – 语言关联,比如能识别图片中的猫并描述其特征,却无法理解动态的物理变化。向其展示台球桌的照片,它能准确描述场景,但一旦询问 “击球后球的运动轨迹”“是否会碰撞边框反弹”,模型输出便会变得极不可靠。

根源很简单:多模态模型看过无数台球相关的图片,却从未 “参与” 过台球运动,没有建立起动态的物理认知。而人类的物理直觉之所以可靠,是因为我们从婴儿时期便在真实世界中不断试错、行动与反馈,在大脑中构建了属于自己的 “心智模型”—— 这正是认知科学中人类智能的核心,也是当前 AI 最缺失的能力。

世界模型,正是为让机器拥有属于自己的 “心智模型” 而生,它要解决的核心问题,就是让 AI 从 “被灌输知识” 走向 “主动经历世界”。

定义:世界模型的核心 —— 从 “理解” 到 “预测” 再到 “行动”

世界模型的概念并非新生,其思想根源可追溯至 1943 年 Kenneth Craik 在《解释的本质》中提出的观点:人类会在大脑中构建 “小规模的世界模型”,模拟可能发生的过程并据此选择行动。这一思想在 AI 领域不断演化,1991 年 Dyna 架构首次将 “世界模型” 确立为智能体的基础能力,2018 年 Google Brain 的《World Models》论文则正式给出了框架定义:世界模型 = 观察世界(V)+ 预测世界(M)+ 在内部世界中学习行动(C)

如今,研究者们普遍认为,世界模型是一个能将现实世界抽象为潜在空间,通过学习物理规律预测 “当前状态 S 采取行动 A 后,世界将变成状态 S’”,并能在内部模拟中规划最优行动的智能体核心模型,它具备三大核心特质,这也是其与 LLM、多模态模型最本质的区别:

  1. 表示世界(Representation):不仅能识别环境中的物体,更能理解物体的位置、属性及物与物之间的空间、因果关系,这是对多模态模型静态感知的超越;
  2. 预测未来(Prediction):能基于物理规律推演事件的动态演化,比如预测推杯子后的运动轨迹、光线在不同材质上的反射变化,这是 LLM 完全不具备的能力;
  3. 规划和行动(Planning & Control):能在内部模拟中推演多种行动可能性,选择最优解并指导实际操作,实现从 “认知” 到 “行为” 的闭环。

正如 Meta 产品设计负责人 Yiqi Zhao 所言,世界模型就像一个 “缩小的平行宇宙”,它让 AI 拥有了自己的 “世界观”—— 不再是只会回答问题的语言机器,而是能像人类一样 “观察 – 推理 – 行动” 的智能体。而视频预测成为世界模型的核心工程验证方式,正是因为视频是天然的因果序列,每一帧的演化都遵循物理规律,训练模型预测视频下一帧,本质上就是让它被迫学习世界的运作逻辑。

爆发:为何世界模型在 2024 年成为行业焦点

世界模型的理论研究已历经数十年,却直到 2024 年前后才突然成为全球 AI 行业的核心议题,背后是技术瓶颈、产业需求、工程能力三大因素的叠加共振,让这一概念从学术理论走向产业实践。

1. LLM 规模化发展遭遇天花板

从 GPT-3 到 GPT-4,参数量的大幅提升曾带来显著的能力跃迁。但 GPT-4 之后,这种跃迁幅度明显收窄,训练成本却从数千万美元飙升至数亿美元,且用户感知到的能力提升愈发有限。更棘手的是数据瓶颈:有研究机构估算,互联网上可用的高质量文本数据将在 2026-2028 年被主流模型基本消耗殆尽。

强化学习之父 Richard Sutton 直言,大语言模型从一开始就走错了方向 —— 它试图在没有目标、没有评价标准的情况下运作,单纯的 “堆参数、堆数据” 只能做出更会说话的模型,却无法让 AI 真正理解世界。行业共识已形成:LLM 的 scaling law 已触顶,继续沿着这条路线走,无法实现 AGI

2. 具身智能需求爆发式增长

2024 年,人形机器人赛道迎来融资高峰,Figure AI、1X Technologies 等企业密集获得大额融资,自动驾驶、工业机器人也进入规模化落地的关键阶段。这些领域的核心需求,是让 AI 进入真实物理世界开展工作 —— 而这恰恰是 LLM 与多模态模型无法胜任的。

机器人需要预判抓取物体的受力结果,自动驾驶需要推演交通参与者的行为轨迹,工业设备需要应对复杂环境的动态变化,这些都要求 AI 具备物理理解、因果推理、行动预测能力,而这正是世界模型的核心价值。具身智能的落地刚需,直接将世界模型推上了技术优先级的顶端。

3. 工程能力成熟让世界模型从 “理论” 走向 “实践”

训练世界模型需要海量动态数据、强大的多模态感知能力、支撑大规模推演的算力,这些条件直到最近几年才逐步成熟:

  • 互联网积累了海量的视频、传感器动态数据,为模型学习世界规律提供了基础;
  • 多模态模型的发展让 AI 具备了融合视觉、听觉、语言的感知能力,能更全面地观察世界;
  • GPU/TPU 算力的提升、分布式训练技术的成熟,支撑起了视频生成、3D 建模等大规模计算任务;
  • 更关键的是,OpenAI Sora 的发布彻底验证了路线可行性 —— 通过大规模视频预训练,模型能涌现出物理理解能力,让 “世界模拟器” 从概念变成了看得见的现实。

4. 行业对 “真实智能” 的期待超越 “表层能力”

从 LLM 到多模态模型,AI 的能力始终停留在 “输出信息” 的表层 —— 写文案、做图片、生成视频,都是对人类已有知识的重组与再现。但行业的期待早已超越于此:人们需要 AI 能解决现实问题、替代人类完成物理世界的操作、甚至自主做出决策。这种需求的升级,让聚焦于 “理解世界、改变世界” 的世界模型,成为了 AI 行业的下一个必然方向。

共生:世界模型与 LLM、多模态模型的关系重构

很多人误以为世界模型是对 LLM 和多模态模型的替代,实则不然。正如加州大学戴维斯分校助理教授陈羽北所言,世界模型并非要推翻 LLM,而是为其补上 “现实世界” 的维度。三者的关系是能力层级上的包含与升级,而非替代,未来的通用智能体,必然是三者的深度融合。

用一个形象的比喻理解三者的定位,更能看清其核心差异:

  • 大语言模型:是 “读遍群书却从未出门的学者”。它精通语言逻辑,能引经据典、精准推理,教会 AI “说话” 与 “知道”,但从未亲眼见过真实世界,无法理解物理直觉;
  • 多模态模型:是 “看过无数照片视频的学者”。它能看懂图片、描述视觉内容,教会 AI “看世界” 与 “感知”,但 “看过” 与 “经历” 有着本质区别,无法理解动态变化;
  • 世界模型:是 “真正在世界中生活的行动者”。它能建立行为与结果的因果链条,能模拟多种未来可能性并选择最优路径,教会 AI “理解世界” 与 “改变世界”,是智能体的认知中枢。

未来的 AI 形态,将是一套 “感知 – 认知 – 行动” 的闭环体系”

  • LLM 成为语言接口层,负责自然语言交互、逻辑推理,将人类指令转化为模型能理解的任务;
  • 多模态模型成为感知层,负责视觉、听觉、触觉等多维度信息采集,将真实世界的信号转化为模型能处理的表征;
  • 世界模型成为核心认知层,整合感知信息,基于物理规律进行动态预测、行动规划,指导智能体的实际操作。

缺少任何一环,都无法构建真正的通用智能。世界模型不是对现有 AI 技术的否定,而是对其的整合与升华 —— 它让 LLM 和多模态模型的能力有了落地的根基,让 AI 从 “纸上谈兵” 走向 “实战应用”。

布局:全球技术路线之争,国内与海外的差异化探索

世界模型的最终目标是构建能理解、预测、行动的通用智能体,但在实践层面,全球研究者走出了多条差异化路线。海外大厂聚焦于世界生成与智能体训练的核心突破,国内大厂则结合自身技术储备,走出了本土化、场景化的探索路径,两者相互补充,共同推动着技术发展。

(一)海外主流路线:从 “世界生成” 到 “智能体行动” 的两层突破

海外研究以 OpenAI、谷歌、Meta、李飞飞 World Labs 为代表,核心围绕 Meta 提出的世界模型 “三层结构”(思想范式 – 世界生成 – 智能体训练)展开,目前聚焦于第二层世界生成第三层智能体训练,形成了四大核心路线:

路线 1:视频生成路线 —— 以 Sora、Genie 为代表,“画出” 动态世界

这是目前最具代表性、最贴近商业化的路线,核心是通过视频生成让 AI 学习世界的动态演化规律。OpenAI Sora 被定义为 “世界模拟器”,能生成符合物理规律的连续视频,理解光线、材质、物体运动的基本逻辑;谷歌 Genie 3 则实现了突破,从 “播放世界” 走向 “探索世界”,能生成可实时交互的虚拟环境,记住世界的状态变化,更接近真正的 “世界引擎”。

优势:训练数据易获取、结果看得见、能快速商业化落地(影视、广告、游戏);

局限:对世界的理解是 “隐式” 的,规律藏在权重里,无法直接移植到机器人、决策系统中。

路线 2:3D 生成路线 —— 以李飞飞 Marble 为代表,“搭建” 结构化世界

李飞飞认为,真实世界是 3D 的,AI 必须理解空间结构才能真正理解世界,因此提出了 3D 生成(空间智能)路线。其团队发布的 Marble 模型,能通过语言、图片或视频重建完整的 3D 场景结构,输出物体的精确尺寸、位置,实现了对世界的 “显式建模”。

优势:物理模拟、规划控制更易实现,能为机器人、自动驾驶提供可靠的空间认知,是 “可操作世界模型” 的底座;

局限:3D 数据稀缺、采集成本高,几何结构建模难度大,对算力需求远超 2D 模型。

路线 3:虚拟世界智能体训练 —— 以谷歌 SIMA 2 为代表,“练就” 行动能力

如果说世界生成是 “建考场”,智能体训练就是 “练考生”。谷歌 SIMA 2 将 AI 放进游戏环境中 “练级”,结合 Genie 3 生成的虚拟世界,让模型学会理解复杂指令、自主规划行动、跨环境泛化,甚至能在从未见过的场景中做出合理决策。游戏作为现实世界的缩影,成为了智能体训练的最佳低成本训练场。

核心价值:让 AI 从 “能预测” 走向 “会行动”,为具身机器人的现实迁移奠定基础。

路线 4:抽象结构学习路线 —— 以 Yann LeCun JEPA 为代表,“提炼” 世界本质

Yann LeCun 是生成式路线的坚定反对者,他认为生成图片、视频只是在 “画细节”,却未理解世界的核心结构。其提出的 JEPA 架构,核心是将真实世界压缩为抽象的高维潜在表示,只预测与决策相关的 “未来结构”(比如球的运动方向、是否碰撞),而非具体的画面细节。

优势:计算成本低、更易捕捉因果关系,输出的结构化信息更贴合机器人、具身智能的需求;

局限:学习成果 “不可见”,难以验证;自监督目标设计难,缺乏统一的评估标准,目前仍处于理论探索阶段。

(二)国内五大路线:立足场景,务实探索,发挥本土优势

国内大厂并未照搬海外路线,而是结合自身在数据标注、3D 建模、游戏引擎、多模态模型等方面的优势,走出了五条差异化的探索路径,更注重 “场景落地” 和 “成本可控”,与海外研究形成互补:

路线 1:小而精的领域专属世界模型 —— 务实落地,先易后难

核心逻辑是避开通用世界模型的复杂性,聚焦于桌面操作、烹饪、工业组装等特定领域,构建封闭的训练环境,采集 “状态 – 动作 – 结果” 三元组数据。其价值不仅是预测,更在于成为智能体的虚拟训练场,大幅降低真实机器人的试错成本。

优势:落地速度快、数据质量高、物理闭环完整;

局限:泛化能力弱,从小领域扩展到通用世界需要大量后续工作。

路线 2:大规模投喂 3D 数据 —— 从空间本质出发,构建高精度物理认知

核心思路是结合物理引擎与 3D 仿真引擎,生成大量具备真实物理属性的动态场景数据(物体碰撞、液体流动、布料变形等),让模型在 3D 空间中直接学习物理规律。通过 “3D 感知预训练 – 3D 动态建模 – 2D 到 3D 映射” 三步,让模型能在真实场景中应用 3D 学习成果。

优势:物理建模精准、泛化能力强;

挑战:高质量 3D 动态数据获取成本高,仿真与现实的迁移鸿沟尚未完全解决。

路线 3:高学历人群标注物理常识 —— 发挥人口优势,提升数据质量

这是国内最具比较优势的路线,核心解决世界模型的物理推理标注难题。普通众包标注无法判断 “玻璃碎裂的碎片分布是否符合力学规律”,因此国内团队组建由物理、力学专业硕博组成的评估团队,构建结构化物理标注框架,将物理先验知识注入训练过程,让模型学到 “物理规律约束下应该发生什么”,而非单纯的统计规律。

路线 4:游戏引擎作为天然训练场 —— 依托游戏产业优势,打造低成本训练环境

腾讯、网易、米哈游等游戏大厂,拥有成熟的游戏引擎和 3D 内容制作能力,而游戏世界正是完美的世界模型训练场:物理规律完整、可交互、标注信息精准、数据规模近乎无限。通过游戏数据训练,能自动获得 “动作 – 状态变化” 的核心数据,还能生成极端场景数据,这在真实世界中难以实现。

优势:数据成本低、标注自动完成、物理一致性有保障;

挑战:游戏物理与真实物理存在 “风格差距”,迁移问题需进一步解决。

路线 5:多模态大模型的渐进演化 —— 依托现有积累,补齐核心能力

这是国内多数互联网大厂(字节、阿里、百度)的选择,核心逻辑是在已成熟的多模态模型基础上,针对性添加时序动态建模、行动条件化预测、因果推断三大模块,补齐世界模型的核心能力,无需从零开始训练。

优势:落地快、成本低、能充分复用现有技术积累;

局限:渐进式修补难以突破多模态模型的底层架构局限,能力上限存在不确定性。

全球路线的共性与趋势

无论是海外还是国内,所有路线都指向同一个核心目标:让 AI 从 “输出信息” 走向 “理解世界、推理世界、在世界里行动”。目前全球大厂均采取 “多路线布局” 策略,比如 Meta 同时研发视频生成、3D 重建、JEPA 架构,国内大厂也在场景化探索的同时,关注海外的核心技术突破。未来的技术胜出者,大概率是能融合多条路线优势的团队 —— 比如将 3D 的显式结构与视频的动态演化结合,将虚拟世界的智能体训练与真实世界的物理标注结合。

变革:世界模型重构 AI 行业,从业者的能力升级与机遇

世界模型的浪潮,不仅是技术路线的更迭,更是整个 AI 行业生态的重构 —— 从技术研发、数据生产到产品落地,所有环节的核心逻辑都在改变。对于 AI 从业者而言,这既是挑战,也是前所未有的机遇,职业能力的要求从 “量的积累” 转向 “质的深度”,职业身份也在发生本质转变。

1. AI 训练师:从 “数据处理工人” 到 “世界规则设计师”

在 LLM 时代,训练师的工作核心是 “量的积累”—— 采集更多数据、标注更多样本、覆盖更多场景,依靠统计规律让模型学会能力。但在世界模型时代,单纯的数量积累已毫无意义,数据的质量和深度才是核心,训练师的工作核心变成了 “设计世界的规则”,具体要求体现在四个方面:

  • 建立物理直觉:能判断模型输出的 “物理合理性”,识别碎片飞散角度、流体流动速度等细微的物理错误,理工科背景成为核心优势;
  • 强化因果思维:摆脱统计依赖,学会区分 “相关” 与 “因果”,能基于物理规律推断结果,而非单纯依赖过往数据经验;
  • 设计物理对抗样本:主动构建边界条件、反常识场景,挖掘模型的物理盲区,推动模型优化;
  • 参与数据生态顶层设计:从整体训练流程出发,设计数据采集方案,让有限的数据发挥最大的训练价值,这一能力的重要性远超过单纯的标注执行。

2. 算法工程师:从 “模型调优” 到 “系统构建”

LLM 时代的算法工程师,核心工作是调参、优化模型、提升指标。而世界模型是一套 “感知 – 认知 – 行动” 的闭环系统,要求工程师具备跨领域的系统思维:不仅要懂深度学习,还要懂物理仿真、3D 建模、强化学习、机器人控制;不仅要优化单个模型,还要能整合多模态感知、世界生成、智能体规划等多个模块,实现系统级的协同。

3. 产品经理:从 “体验设计” 到 “场景落地”

过去的 AI 产品经理,核心关注 “语言交互的流畅度”“生成内容的质量”。而世界模型的产品,核心价值是解决真实世界的问题,产品经理的工作重心也从 “体验设计” 转向 “场景落地”:

  • 要理解具体场景的物理规律和业务需求,比如机器人产品需要理解工业操作的流程,自动驾驶产品需要理解交通场景的风险;
  • 要平衡技术可行性与场景需求,比如在仿真与现实的迁移鸿沟尚未解决的情况下,设计出能落地的阶段性产品;
  • 要关注产品的安全性和可靠性,因为世界模型的产品直接作用于物理世界,任何错误都可能带来实际损失。

重构:世界模型改写核心行业,开启产业新周期

世界模型的影响远不止于 AI 行业本身,它将成为一场横跨硬件、软件、制造、娱乐、交通、消费等众多行业的系统性冲击,让 AI 从 “辅助工具” 变成 “核心生产力”,甚至重构行业的底层逻辑。

1. 机器人行业:从 “编程操作” 到 “自主智能”,实现规模化落地

过去的机器人,本质是 “被编程的机器”,每一项新任务都需要工程师重新调参,环境稍有变化就会 “失能”,这是机器人行业难以规模化的核心原因。而世界模型让机器人拥有了 “世界的内部模型”,能预判行动后果、自主规划操作、跨场景迁移能力 —— 比如在虚拟世界中学会倒咖啡后,能快速适应不同的杯子、桌面环境。机器人从 “专用工具” 变成 “通用智能体”,家庭服务、工业协作、餐饮零售等场景的机器人将实现规模化落地,推动制造业向 “智能化、柔性化” 升级。

2. 自动驾驶:从 “感知反应” 到 “预判规划”,迈向 L5 级通用自动驾驶

当前 L2/L3 级自动驾驶,核心是 “感知 – 预测 – 规划” 的分层体系,能识别环境却无法稳定预判未来,长尾场景(极端天气、突发事故)成为最大瓶颈。世界模型将自动驾驶系统升级为 “世界理解引擎”,能构建结构化的世界表征,推演多种交通参与者的行为可能性,从中筛选最优决策路径,让系统具备接近人类的驾驶预判能力。推动自动驾驶从 “局部可用” 走向 “可验证、安全的大规模商业化”,L5 级通用自动驾驶的实现有了核心技术支撑。

3. 内容创作 / 游戏 / 影视:从 “人工制作” 到 “AI 生成进化”,重构创作模式

视频生成只是世界模型在内容行业的初步应用,未来的内容创作将实现 “世界观定义后,AI 自动生成并进化”:内容创作从 “人工制作” 走向 “AI 协同创作”,创作效率提升的同时,叙事方式、内容形式也将迎来全面重写。

  • 影视行业:导演只需定义 “被雨水淹没的城市”,AI 就能生成整个城市的动态演化,无需搭景、重拍,大幅降低制作成本;
  • 游戏行业:过去需要数百人团队花费几年搭建的开放世界,未来设计师只需设定规则、生态,AI 就能自动生成地形、天气、NPC 行为,甚至让 NPC 拥有自己的性格和记忆,实现 “游戏的实时生成与进化”;

4. AI Agent:从 “工具调用” 到 “自主行动”,成为真正的 “智能助理”

当前的 AI Agent,核心能力是 “工具调用” 和 “简单规划”,但缺少一个可训练、可试错的 “内部世界”,无法真正自主行动。世界模型为 AI Agent 提供了接近真实的虚拟训练环境,让它能在内部模拟中学会解决复杂问题,再将能力迁移到现实世界 —— 比如能自主规划出差行程、处理工作邮件、甚至控制智能家居完成复杂任务。AI Agent 从 “被动执行指令” 变成 “主动解决问题”,成为真正能替代人类完成复杂工作的 “智能助理”。

5. 工业制造:从 “自动化” 到 “智能化”,实现柔性生产

工业制造的自动化已发展多年,但仍面临 “产线调整成本高、应对复杂场景能力弱” 的问题。世界模型将推动工业制造向 “智能化” 升级:工业机器人能自主适应不同的产品、产线环境,智能系统能预判设备故障、优化生产流程,甚至能根据市场需求自主调整生产计划,实现真正的 “柔性生产”。

变革核心:工业制造的底层逻辑从 “标准化生产” 走向 “智能化、个性化生产”,推动制造业的产业升级。

展望:世界模型是 AGI 的必经之路,未来仍在探索中

必须客观承认:世界模型目前仍处于早期阶段,远未成熟。复合误差累积、分布外泛化困难、仿真到现实的迁移鸿沟、缺乏统一的评估体系等难题,至今没有完美的解决方案。但这恰恰是它的价值所在 —— 一个成熟的领域,门槛高、创新空间小;而一个处于方法论探索期的领域,每一个参与者都有机会定义行业规则、影响技术走向。

我们当下对世界模型的认知,大概相当于 2017 年人们对 Transformer 架构的理解 —— 知道它至关重要,但尚未完全明确它的最终形态、应用场景与突破路径。但有一点是确定的:世界模型不是短暂的风口,而是 AI 发展的必经之路

回顾 AI 的发展脉络,其实是一部 “AI 不断接近真实世界” 的历史

  • LLM 通过语言间接理解世界,走到了语言的边界;
  • 多模态模型通过感知直接观察世界,走到了感知的边界;
  • 世界模型通过预测和行动真正理解世界,正在突破认知的边界。

AI 的下一段旅程,已经从 “理解语言” 走向 “理解世界”。而我们,正站在这场变革的起点 —— 这不仅是 AI 技术的拐点,更是人类与智能体共生的新起点。

本文由 @冒泡泡 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!