为什么 AI 终于开始“边做边看？”从 SpatialClaw 看 Agent 设计的下一个十年

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

为什么 AI 终于开始“边做边看？”从 SpatialClaw 看 Agent 设计的下一个十年

枝酒

2026-06-21

0 评论 127 浏览 0 收藏

19 分钟

英伟达 SpatialClaw 以 59.9% 的准确率刷新空间推理 benchmark，背后却是一个简单却颠覆性的设计：让 VLM 在持久 Python 内核中边写代码边验证。这一突破不仅跨越模型架构与任务类型，更揭示了 AI 交互设计的致命盲区——当工具间能自由『对话』时，模型潜力将得到根本性释放。

59.9%。

这是英伟达发布的 SpatialClaw 在 20 个空间推理 benchmark 上的平均准确率，一个无需训练的空间推理框架。

值得看的不是这个数字本身，而是它怎么来的。

没有更大的模型。没有更复杂的训练流程。没有堆更多的数据。它做的事说出来甚至有点平淡：给 VLM 装了一个持久化的 Python 内核，让模型在推理的时候写代码、看结果、改代码、再看结果，直到自己满意了再交答案。

就这么一个改动，准确率比此前最强的空间智能体 SpaceTools（48.7%）高出11.2 个百分点。而在工具集、提示词完全相同、只替换”行动界面”的对照实验里，准确率从无工具基线的 53.4% 一路抬到 59.9%。换句话说，分数的提升不是来自更强的工具，而是来自模型使用工具的方式。

而且这个提升跨了 20 个 benchmark、6 个不同型号的 VLM 骨架：参数量从 26B 一直到 397B，横跨 Qwen3.5/3.6 与 Gemma4 两个家族，全部一致地变好。同一个 system prompt，同一套工具集，同一个超参数配置，不针对任何一个 benchmark 做适配。

一个改动，跨越模型家族、benchmark 类型、参数量级，稳定带来两位数百分点的提升，说明它解决的就不是某个具体技术问题。它暴露了一个所有人都在用、但没意识到有问题的设计假设。

一、三种界面，三种天花板

当一个 VLM 要做空间推理，比如判断”这扇门在洗手池的哪个方向”，传统上有两种做法：

第一种：单次代码执行。给模型一个写代码的窗口，让它一次性写完整个分析程序，然后跑一遍出结果。代表选手是 pySpatial、VADAR。这种方案的问题明摆着：模型必须在看到任何中间结果之前就完成整个分析策略的规划。你让一个人不看地形直接画完一整条登山路线，第一个拐弯之后的判断全是猜的。

第二种：结构化工具调用。给模型一个 JSON 接口，里面列好了能调哪些工具（SAM 3 分割、Depth Anything 3 重建），模型按固定格式下发调用指令。代表选手是 SpaceTools。这套方案比第一种好，至少可以分步调用了。但它有一个致命的限制：工具的输出是黑箱。你调完 SAM 3 拿回来一个分割掩码，接口里没给你 NumPy，没给你 SciPy，没给你任何办法对这个掩码做进一步的几何计算。你能做的就是把结果原样喂给下一个工具，祈祷它接得住。

SpatialClaw 做的事，就是把这两种方案的限制同时拆掉。

它用的是一套持久的 Python kernel。kernel 里预装了输入图像、SAM 3 分割、Depth Anything 3 深度重建、以及完整的 NumPy / SciPy / Matplotlib 科学计算栈。模型每轮写一个 Python cell，执行完，输出（mask、深度图、点云、matplotlib 可视化）全部作为普通 Python 变量留在内存里。下一轮，模型想对上一轮的 mask 做 KD-Tree 近邻搜索？from scipy.spatial import KDTree，直接跑。想用 dot product 算两个方向向量的夹角？np.dot(v1, v2)，一行。

而且模型还能把 matplotlib 画出来的图通过show()再喂回自己的视觉输入端：”我刚才分割出来的那个区域对吗？看一眼”。

这就是边做边看。

在我们生活中解决空间问题的底层逻辑就是这样。你到了一个陌生的交叉路口，不会闭着眼睛规划完整个路径再睁眼。你会先看，走两步，再看，调整。你能这么做是因为你的眼睛和你的脚之间没有任何”接口”在挡着。你看到的东西直接进入你的判断循环，不需要经过 JSON schema 审批。

SpatialClaw 第一次把这个循环完整给了 AI。

二、工具之间能”说话”了

这篇论文里有一组消融实验，数据比主结果好嚼（注：消融跑在一个 benchmark 子集上，绝对值跟主结果的 59.9% 不是同一基准，看相对变化就行）。

实验一：去掉所有工具类封装函数（tools.Mask、tools.Geometry等），只留裸的 NumPy / SciPy 科学计算栈。结果：准确率 56.4%，跟完整版的 56.9% 几乎没区别。工具的名字不重要，能算几何就行。

实验二：去掉 SAM 3 和 Depth Anything 3，只保留 VLM 自己的视觉能力和科学计算栈。结果比不用任何工具的 baseline 还高 2.7 个百分点（51.4% vs 48.7%）。注意，这里模型连”看”的辅助都没了，光靠一个持久 kernel 就能比裸 VLM 强。

第三个发现更说明问题。研究者用 LLM-as-judge 分析了 SpatialClaw 为什么能赢过结构化工具调用方案：52.2% 的胜场归因于”代码组合”，即把多个工具的输出在同一个程序里串联使用；19.5% 归因于”控制流”，即根据中间结果做if/else分支、for循环。两项加起来超过 70%。

而且增益最大的恰恰是动态任务：在 Gemma4-31B 上，DSI-Bench 提升 17.6 分、MindCube 提升 15.3 分。这些任务都需要跨多帧、多视角把几何计算一步步串起来，正是”代码组合”最能发力的地方。

搁在平时，结构化工具调用的天花板不是工具不够强（SAM 3 和 Depth Anything 3 都一样），而是工具之间的”话”说不通。每个工具的输出被锁在自己的 JSON 回包里，模型没办法把分割结果和深度图放在同一个坐标系里算。而代码天然就是组合性的：变量 a 和变量 b 在一个 Python 进程里，怎么算都行。

工具的威力不只取决于工具本身，还取决于工具之间能不能自由组合。你给一个人螺丝刀、扳手、电钻，但要求每次只能用一样、用完必须放回原处锁好，他的能力上限远低于一个可以左右手配合的人。

SpatialClaw 证明了：AI 也一样。

三、不止一篇论文在说这件事

如果你只看 SpatialClaw，可能会觉得这是一个点的突破。但这件事背后有一条连续的时间线。

2025 年 12 月，GCA（Geometrically-Constrained Agent）上线。它的主张很激进：现有工具集成方案的问题不止是工具不够好，VLM 做规划的过程本身就没有被几何约束。模型在”纸上谈兵”阶段就已经跑偏了，后面工具再好也救不回来。所以他们给规划阶段直接引入了几何形式约束。

2026 年 6 月 1 日，Think3D 上线。核心主张：VLM 做空间推理不应该在 2D 图像上直接猜，应该让模型”以 3D 空间的方式思考”。给模型一个 3D 场景表示，让它在里面放虚拟点、测距离、做标注，迭代地”想”。

6 月 12 日，SpatialClaw 上线。”代码才是对的行动界面。”

三篇论文，三个团队，三个技术路径，横跨半年。在说同一件事：AI 在空间推理上的瓶颈，已经从”看”转移到了”看”和”做”之间的那个连接。那个”我看了一眼，我要根据我看到的东西决定下一步做什么”的循环。

这个循环，在生物智能里是标配。一只猫看到沙发和地板之间的缝隙，会伸爪子探一探，看看深度，再决定要不要钻。它不会站在原地用一次前向传播算完所有变量。

AI 正在重新设计模型和世界之间的界面。

把这个趋势往前推一步，MCP 协议、function calling、code execution、tool use，所有这些看起来不相关的概念，底层都在回答同一个问题：AI 应该以什么方式”行动”。SpatialClaw 的答案很直白：代码。因为代码是人类目前发明的最灵活的”行动语言”。既有足够的表达力去描述任意操作，又有足够的约束力保证操作可以被执行和验证。

四、”免训练”三个字，是核弹

SpatialClaw 有一个标签反复出现：training-free。免训练。

免训练意味着你不需要收集 3D 标注数据。不需要微调模型权重。不需要担心换了模型架构之后之前训练的适配层全废。只需要把那个持久 kernel 跑起来，把 SAM 3 和 Depth Anything 3 挂上去，任何支持代码生成的 VLM 都能直接用。

论文里测试了 6 个模型骨架，从 26B 到 397B，从 Qwen 到 Gemma，同一个 system prompt，同一套工具集，同一个超参数。没有一个模型需要”特殊照顾”。而且研究者强调：他们没有针对任何一个 benchmark 做适配。20 个 benchmark 全是一套配置撸到底。

在传统的 AI 产品落地路径里，”论文结果→实际可用”之间存在一个巨大的鸿沟。微调、适配、调参、部署，每一步都在消耗时间、人才和算力。training-free 的方案直接把这个鸿沟填平了一半。你今天读完这篇论文，明天就可以在自己的 VLM 后面挂上 SpatialClaw 的 kernel 和工具链，后天就能开始拿它跑真实问题。

不是说 59.9% 已经足够好了，很多实用场景需要更高准确率。重点是：这套增益在 6 个骨架（26B 到 397B）上一致出现，跟具体用哪个模型是解耦的：最强的 Qwen3.5-397B 拿到 60.4%，是全场最高分。换更强的骨架，框架一行代码不用改，红利自动叠加上去。

这个解耦非常值钱。你在 Agent 框架层面的投资不会被下一次模型升级清零。精力可以集中在”怎么让模型和工具配合得更好”，而不是”怎么重新训练适配层”。

（一个现实提醒：SpatialClaw 目前是非商用许可。研究、验证随便用，真要落进商业产品，得先把授权问题解决掉。这是后话，但产品团队心里得有数。）

五、瓶颈转移了

退一步看这个范式。

过去三年，AI 行业的主导叙事是”更大的模型”。GPT-4、Gemini、Claude、Qwen，大家都在比拼参数规模、benchmark 分数、多模态能力。这个阶段的核心信仰很直白：模型不够聪明，所以我们要让它更聪明。

SpatialClaw 的消融实验戳破了一件事：模型可能已经够聪明了。

去掉所有感知工具（SAM 3、Depth Anything 3），只给模型一个空的持久 kernel + NumPy + SciPy，它还能比裸 VLM 高 2.7 个百分点（51.4% vs 48.7%）。这 2.7 个百分点是纯界面收益。不是模型更聪明了，是模型终于有了一个能让它施展聪明的工作环境。

再来看误差来源分析。论文的失败案例拆解里（Finding 5），最主要的瓶颈已经不是”模型不知道答案”，而是几何推理错误（占 21%，单类最大）：模型知道该算什么，但在把”算”翻译成代码的过程中出了偏差。其次才是感知工具本身的问题：VLM 幻觉、SAM 3 分错区域、Depth Anything 3 估错深度。

瓶颈从”模型能力”转移到了”交互界面质量”。

这不是 SpatialClaw 一家之言。GPT-5 系列从 2025 年 8 月起，每一代 Codex 变体都在强化”给模型一个持久工作空间”的思路。Anthropic 把 MCP 协议推成了开源标准。Google DeepMind 的 Gemma 4 模型卡里专门有一节讲 agentic capabilities。

整个行业在同一个方向上集体转向：卷模型卷不动了，开始卷模型和世界的交互方式。

如果你是一个产品经理或创业者，这个转向对你来说意义明确：AI 产品的下一个差异化战场，不是选哪个模型，而是你给了模型什么样的行动空间。

你给的是一个穷举式的 JSON API，还是一个可以自由组合的工具箱？你给的是单次调用的黑箱，还是一个有状态、可迭代的工作环境？你的模型在”做”完一步之后，能不能”看到”自己做了什么，然后调整？

这些问题的答案，会比”你用 GPT-5 还是 Claude-5″更决定产品的上限。