为什么AI能看到世界,却不懂世界?
今天的AI能识别图像、流畅对话,却仍被困在‘黑暗的文字匠’困境中。李飞飞提出的‘世界模型’概念揭示了一个残酷真相:AI看到的只是像素排列与统计模式,而非真实的三维空间与物理法则。本文将深度拆解人类认知与AI‘伪理解’的本质差异,带你重新思考‘智能’的真正含义。

现在的 AI,真的让人震撼。
它能一下认出猫和狗,能看懂一张照片里发生了什么,还能跟你聊得头头是道,甚至看起来“很有智慧”。
于是很多人都会忍不住问一句:AI 是不是已经开始理解这个世界了?
答案可能有点扎心——它看得见,但它并不真的懂。
李飞飞将今天的AI比作“黑暗中的文字匠”。它们只懂语言,不懂世界。
一、AI 真的“看见”了吗?
从结果上看,AI 的确看见了。
你给它一张图片,它可以告诉你:
- 这是一个杯子
- 那是一张桌子
- 杯子放在桌子上
听起来没什么问题,对吧?
但问题在于:
AI 的“看见”,和人类的“看见”,完全不是一回事。
二、人类是怎么“看世界”的?
我们来看一个非常普通的场景:

一只杯子,放在桌子边缘。
人类几乎不用思考,就会知道:
01、杯子是立体的
02、桌子在支撑它
03、再往外挪一点,杯子会掉下去
04、掉下去,大概率会摔碎
这些判断几乎是“本能”。
但你有没有想过:你并不是因为“识别出了杯子和桌子”,才知道这些事情的。
你是因为——
你生活在这个世界,你理解这个世界是怎么运作的。
人类“看世界”的方式远比接收视觉信号复杂得多。当我们观察环境时,大脑正在构建一个动态、多维的世界模型。
这个模型不仅包含物体的外观,还包括它们的物理属性、空间关系、运动规律和潜在功能。
三、在 AI 眼里,世界是“平的”
而对大多数 AI 来说,一张图片意味着什么?本质上只是:像素、数字、统计模式,AI 通过海量的文本和图像数据学习,掌握了语言表达的规律,却缺乏对物理世界的真实理解。
AI 知道:“杯子”这个词,常常和某些形状一起出现,“桌子”通常在杯子下面,“放在上面”是一个高频描述。
但它并不知道:
01、杯子有重量
02、桌子是否能承重
03、重力一直存在
04、物体掉下去是不可逆的
换句话说:
AI 看到的是一张“会说话的照片”,而不是一个真实存在的空间。
四、 一个关键差别:世界模型
这里有一个很重要、但不难理解的概念——
世界模型(World Model)。
“世界模型”是李飞飞空间智能概念的核心。一个真正的世界模型不仅能够识别物体,还能够理解物体之间的空间关系、物理约束和交互可能性。
你可以把它理解为:一个“脑内的世界运行说明书”。
人类的世界模型包括:
- 世界是三维的
- 物体会被遮挡,但不会消失
- 物理规律长期稳定存在
- 行为一定会带来后果
而很多 AI:
- 没有真正的三维世界
- 没有物理直觉
- 不理解因果关系
- 只是在做模式匹配
所以它可以描述世界,却无法真正理解世界。
五、 会说话 ≠ 懂世界
这也是为什么很多 AI 专家反复强调:语言,不等于世界本身。语言只是人类对世界的总结和描述。
如果一个 AI:只从文本中学习、只从图片标签中学习、从未真正“接触”过世界。
那它学到的,其实是:人类是如何“谈论世界”的
而不是:世界是如何“运作”的
语言模型就像“黑暗中的文字匠”,它们擅长操纵符号和模式,却不理解这些符号指向的现实。
六、AI 为什么总是犯“低级错误”?
没有世界模型的AI系统经常会犯在人类看来十分“低级”的错误。这些错误暴露了AI认知的浅层本质。
比如:在图像生成领域,AI可以创作出视觉上令人惊叹的作品,但仔细观察,常常会发现违反物理定律的细节:错乱的光影方向、不可能的空间构造、不符合解剖学的人体姿态。
这些“低级错误”并非技术细节问题,而是反映了当前AI范式的根本局限。模式识别不能替代真实理解,统计相关性不等于因果关系。
七、 真正的理解,来自互动
人类不是靠“说明书”学会世界的。
我们是靠:行走、摔倒、尝试、失败、修正
正因为如此,今天 AI 研究中一个非常重要的方向是:让 AI 进入世界中学习。
也就是你可能听过的:空间智能、具身智能、世界模型
当 AI 能够:感知环境、采取行动、承担后果、从失败中学习。
它才有可能,真正开始“懂”。
八、 写在最后
未来,随着空间智能的发展,我们或许会忘记AI曾经是多么“笨拙”。它会成为预测你需求的家政伙伴、自主规划路径的出行助手,甚至能模拟分子运动的研发协作者。技术隐入生活体验的背后,曾让我们惊讶的“笨拙”,终将成为数字进化史上一段被淡忘的序章。
本文由 @一帆 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




