李飞飞亲撰万字长文:空间智能才是AI的北极星

0 评论 360 浏览 0 收藏 9 分钟

李飞飞教授在Substack发表重磅文章,阐述空间智能是AI下一前沿,其创立的World Labs构建的“世界模型”及首个产品Marble备受关注。文中剖析AI现状与破局之道,展望空间智能在各领域的广阔应用前景。

李飞飞教授在她的Substack上发布重磅文章《从文字到世界:空间智能是AI的下一个前沿》。在这篇文章中,她详尽阐述了为什么“空间智能”是通往通用人工智能的必经之路,并首次公开了她创立的World Labs正在构建的“世界模型”及其首个产品 Marble。

以下是这篇文章的深度精华编译。

也可搜索原文阅读:From Words to Worlds: Spatial Intelligence is AI’s Next Frontier

01. 进化的启示:从“看”到“做”

文章开篇,李飞飞回顾了艾伦·图灵在1950年提出的经典之问:“机器能思考吗?”。在她投身 AI 领域的25年里,这个问题一直是她的动力源泉 。

虽然今天的大语言模型已经改变了我们要获取抽象知识的方式,但李飞飞犀利地指出:“它们仍然是黑暗中的文字匠(wordsmiths in the dark);虽然口才流利但缺乏经验,知识渊博却缺乏根基。”

为了理解AI缺失了什么,我们需要回到生物进化的原点。 在寒武纪大爆发之前,动物仅仅是感知者。

但随着神经系统的进化,“感知”与“行动”形成了闭环。这种通过感知光线、纹理来理解外部世界,并与之互动的能力,就是空间智能的雏形。

李飞飞认为,空间智能是人类认知的脚手架。无论是停车、在拥挤的人行道上穿行,还是手里接过扔来的钥匙,这些不需要语言的直觉,正是机器目前最欠缺的。

02. AI的现状:由于缺乏身体,所以不懂物理

尽管多模态大模型(MLLM)已经能够分析图像并回答问题,但在李飞飞看来,它们对世界的理解仍停留在表面。

目前的SOTA(最先进)模型存在明显的物理幻觉

  • 它们难以准确估算距离、方向和大小。
  • 它们无法像人类一样在脑海中“旋转”一个物体。
  • 生成的视频往往在几秒钟后就失去了连贯性,甚至违背基本的物理定律。
  • 维特根斯坦曾说:“语言的边界就是我世界的边界。”但李飞飞反驳道:“对于AI来说,世界不仅仅是文字。”

如果AI不能理解物体之间的空间关系、几何结构和物理法则,它就永远无法真正进入我们的物理世界:无法帮我们做家务,无法进行复杂的科学实验,也无法创造真正沉浸式的虚拟世界。

03. 破局之道:构建“世界模型” (World Models)

为了跨越这一鸿沟,李飞飞提出了构建“空间智能世界模型”的构想。这不仅是World Labs 的核心使命,也是未来十年的技术高地。

她定义了世界模型必须具备的三大核心能力:

生成性 (Generative):不仅要逼真,还要符合物理定律

世界模型生成的虚拟世界,不能只是像素的堆砌,必须在几何、物理和动态上保持一致 。模型需要理解,当一个杯子掉落时,它应该遵循重力加速度,而不是像在太空中那样漂浮。同时,模型需要理解过去的状态是如何导致当前状态的。

2. 多模态 (Multimodal):像人类一样感知

世界模型必须是天生的多模态专家。它不仅要能处理文本,还要能理解图像、视频、深度图(Depth Maps)、触觉数据甚至是动作指令 。这要求模型能以人类视觉的保真度处理输入,同时精准理解语义指令。

3. 交互性 (Interactive):预测未来,推演因果

这是最关键的一步。当给定一个动作或目标时,世界模型必须能预测出世界的“下一个状态” 。更进一步,强大的世界模型不仅能预测状态,还能根据目标反推需要执行的动作。

04. World Labs 的秘密武器:Marble

在文章中,李飞飞首次透露了World Labs正在研发的进展。她指出,训练世界模型比训练LLM更难,因为世界是3D的、动态的,且受到重力、光影等复杂物理规则的约束。

为了解决这些问题,World Labs 正在攻克几个技术难点:

  • 通用的任务函数:类似于LLM中的“下一个token预测”,但要适用于复杂的3D 时空。
  • 3D/4D Token化:传统的 1D 或 2D 序列化(Tokenization)会让简单的空间任务变得异常复杂(比如数清楚视频里有几把椅子)。World Labs提出了如RTFM(Real-Time Generative Frame-based Model)等新架构,利用空间记忆来实现实时生成。
  • 重磅产品预告:Marble。

(https://marble.worldlabs.ai/)

李飞飞透露,World Labs已经向少量用户展示了名为Marble的产品雏形。这是“首个可以通过多模态输入提示(Prompt),生成并维持一致性3D环境的世界模型”。

创作者、游戏设计师和建筑师可以在其中探索、互动并在其基础上构建故事,而无需受制于复杂的传统3D建模软件。

05. 应用前景:从游戏到拯救生命

空间智能将如何改变世界?李飞飞描绘了三个不同时间维度的应用场景:

1. 现在:创造力的爆发

借助Marble这样的工具,电影制作人和游戏设计师可以摆脱预算和地理限制,通过AI瞬间构建出想象中的3D世界。建筑师可以在房屋建造前,就让客户在虚拟的3D空间中“行走”,体验未来的生活。

2. 中期:具身智能与机器人

这是李飞飞斯坦福实验室深耕十年的领域。具备空间智能的机器人将不再是僵硬的机器,而是能感知、推理并与人类协作的伙伴。无论是帮老人做饭,还是在实验室辅助科学家,机器人需要理解“易碎”、“滚烫”或“如果不扶住就会倒”这些空间常识。

3. 远期:科学探索的加速器

空间智能将帮助科学家在微观层面理解分子结构,加速药物发现;或在宏观层面模拟气候变化。这种多维度的模拟能力,将解开那些仅靠文字描述无法触及的科学谜题。

“空间智能是超越语言的前沿,是将想象、感知和行动连接起来的能力。”李飞飞写道,“这也是我的北极星。”

作者:张艾拉 公众号:Fun AI Everyday

本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!