为什么 AI 终于开始“边做边看?”从 SpatialClaw 看 Agent 设计的下一个十年

0 评论 127 浏览 0 收藏 19 分钟

英伟达 SpatialClaw 以 59.9% 的准确率刷新空间推理 benchmark,背后却是一个简单却颠覆性的设计:让 VLM 在持久 Python 内核中边写代码边验证。这一突破不仅跨越模型架构与任务类型,更揭示了 AI 交互设计的致命盲区——当工具间能自由『对话』时,模型潜力将得到根本性释放。

59.9%。

这是英伟达发布的 SpatialClaw 在 20 个空间推理 benchmark 上的平均准确率,一个无需训练的空间推理框架。

值得看的不是这个数字本身,而是它怎么来的。

没有更大的模型。没有更复杂的训练流程。没有堆更多的数据。它做的事说出来甚至有点平淡:给 VLM 装了一个持久化的 Python 内核,让模型在推理的时候写代码、看结果、改代码、再看结果,直到自己满意了再交答案。

就这么一个改动,准确率比此前最强的空间智能体 SpaceTools(48.7%)高出11.2 个百分点。而在工具集、提示词完全相同、只替换”行动界面”的对照实验里,准确率从无工具基线的 53.4% 一路抬到 59.9%。换句话说,分数的提升不是来自更强的工具,而是来自模型使用工具的方式。

而且这个提升跨了 20 个 benchmark、6 个不同型号的 VLM 骨架:参数量从 26B 一直到 397B,横跨 Qwen3.5/3.6 与 Gemma4 两个家族,全部一致地变好。同一个 system prompt,同一套工具集,同一个超参数配置,不针对任何一个 benchmark 做适配。

一个改动,跨越模型家族、benchmark 类型、参数量级,稳定带来两位数百分点的提升,说明它解决的就不是某个具体技术问题。它暴露了一个所有人都在用、但没意识到有问题的设计假设。

一、三种界面,三种天花板

当一个 VLM 要做空间推理,比如判断”这扇门在洗手池的哪个方向”,传统上有两种做法:

第一种:单次代码执行。给模型一个写代码的窗口,让它一次性写完整个分析程序,然后跑一遍出结果。代表选手是 pySpatial、VADAR。这种方案的问题明摆着:模型必须在看到任何中间结果之前就完成整个分析策略的规划。你让一个人不看地形直接画完一整条登山路线,第一个拐弯之后的判断全是猜的。

第二种:结构化工具调用。给模型一个 JSON 接口,里面列好了能调哪些工具(SAM 3 分割、Depth Anything 3 重建),模型按固定格式下发调用指令。代表选手是 SpaceTools。这套方案比第一种好,至少可以分步调用了。但它有一个致命的限制:工具的输出是黑箱。你调完 SAM 3 拿回来一个分割掩码,接口里没给你 NumPy,没给你 SciPy,没给你任何办法对这个掩码做进一步的几何计算。你能做的就是把结果原样喂给下一个工具,祈祷它接得住。

SpatialClaw 做的事,就是把这两种方案的限制同时拆掉。

它用的是一套持久的 Python kernel。kernel 里预装了输入图像、SAM 3 分割、Depth Anything 3 深度重建、以及完整的 NumPy / SciPy / Matplotlib 科学计算栈。模型每轮写一个 Python cell,执行完,输出(mask、深度图、点云、matplotlib 可视化)全部作为普通 Python 变量留在内存里。下一轮,模型想对上一轮的 mask 做 KD-Tree 近邻搜索?from scipy.spatial import KDTree,直接跑。想用 dot product 算两个方向向量的夹角?np.dot(v1, v2),一行。

而且模型还能把 matplotlib 画出来的图通过show()再喂回自己的视觉输入端:”我刚才分割出来的那个区域对吗?看一眼”。

这就是边做边看

在我们生活中解决空间问题的底层逻辑就是这样。你到了一个陌生的交叉路口,不会闭着眼睛规划完整个路径再睁眼。你会先看,走两步,再看,调整。你能这么做是因为你的眼睛和你的脚之间没有任何”接口”在挡着。你看到的东西直接进入你的判断循环,不需要经过 JSON schema 审批。

SpatialClaw 第一次把这个循环完整给了 AI。

二、工具之间能”说话”了

这篇论文里有一组消融实验,数据比主结果好嚼(注:消融跑在一个 benchmark 子集上,绝对值跟主结果的 59.9% 不是同一基准,看相对变化就行)。

实验一:去掉所有工具类封装函数(tools.Mask、tools.Geometry等),只留裸的 NumPy / SciPy 科学计算栈。结果:准确率 56.4%,跟完整版的 56.9% 几乎没区别。工具的名字不重要,能算几何就行。

实验二:去掉 SAM 3 和 Depth Anything 3,只保留 VLM 自己的视觉能力和科学计算栈。结果比不用任何工具的 baseline 还高 2.7 个百分点(51.4% vs 48.7%)。注意,这里模型连”看”的辅助都没了,光靠一个持久 kernel 就能比裸 VLM 强。

第三个发现更说明问题。研究者用 LLM-as-judge 分析了 SpatialClaw 为什么能赢过结构化工具调用方案:52.2% 的胜场归因于”代码组合”,即把多个工具的输出在同一个程序里串联使用;19.5% 归因于”控制流”,即根据中间结果做if/else分支、for循环。两项加起来超过 70%。

而且增益最大的恰恰是动态任务:在 Gemma4-31B 上,DSI-Bench 提升 17.6 分、MindCube 提升 15.3 分。这些任务都需要跨多帧、多视角把几何计算一步步串起来,正是”代码组合”最能发力的地方。

搁在平时,结构化工具调用的天花板不是工具不够强(SAM 3 和 Depth Anything 3 都一样),而是工具之间的”话”说不通。每个工具的输出被锁在自己的 JSON 回包里,模型没办法把分割结果和深度图放在同一个坐标系里算。而代码天然就是组合性的:变量 a 和变量 b 在一个 Python 进程里,怎么算都行。

工具的威力不只取决于工具本身,还取决于工具之间能不能自由组合。你给一个人螺丝刀、扳手、电钻,但要求每次只能用一样、用完必须放回原处锁好,他的能力上限远低于一个可以左右手配合的人。

SpatialClaw 证明了:AI 也一样。

三、不止一篇论文在说这件事

如果你只看 SpatialClaw,可能会觉得这是一个点的突破。但这件事背后有一条连续的时间线。

2025 年 12 月,GCA(Geometrically-Constrained Agent)上线。它的主张很激进:现有工具集成方案的问题不止是工具不够好,VLM 做规划的过程本身就没有被几何约束。模型在”纸上谈兵”阶段就已经跑偏了,后面工具再好也救不回来。所以他们给规划阶段直接引入了几何形式约束。

2026 年 6 月 1 日,Think3D 上线。核心主张:VLM 做空间推理不应该在 2D 图像上直接猜,应该让模型”以 3D 空间的方式思考”。给模型一个 3D 场景表示,让它在里面放虚拟点、测距离、做标注,迭代地”想”。

6 月 12 日,SpatialClaw 上线。”代码才是对的行动界面。”

三篇论文,三个团队,三个技术路径,横跨半年。在说同一件事:AI 在空间推理上的瓶颈,已经从”看”转移到了”看”和”做”之间的那个连接。那个”我看了一眼,我要根据我看到的东西决定下一步做什么”的循环。

这个循环,在生物智能里是标配。一只猫看到沙发和地板之间的缝隙,会伸爪子探一探,看看深度,再决定要不要钻。它不会站在原地用一次前向传播算完所有变量。

AI 正在重新设计模型和世界之间的界面

把这个趋势往前推一步,MCP 协议、function calling、code execution、tool use,所有这些看起来不相关的概念,底层都在回答同一个问题:AI 应该以什么方式”行动”。SpatialClaw 的答案很直白:代码。因为代码是人类目前发明的最灵活的”行动语言”。既有足够的表达力去描述任意操作,又有足够的约束力保证操作可以被执行和验证。

四、”免训练”三个字,是核弹

SpatialClaw 有一个标签反复出现:training-free。免训练。

免训练意味着你不需要收集 3D 标注数据。不需要微调模型权重。不需要担心换了模型架构之后之前训练的适配层全废。只需要把那个持久 kernel 跑起来,把 SAM 3 和 Depth Anything 3 挂上去,任何支持代码生成的 VLM 都能直接用。

论文里测试了 6 个模型骨架,从 26B 到 397B,从 Qwen 到 Gemma,同一个 system prompt,同一套工具集,同一个超参数。没有一个模型需要”特殊照顾”。而且研究者强调:他们没有针对任何一个 benchmark 做适配。20 个 benchmark 全是一套配置撸到底。

在传统的 AI 产品落地路径里,”论文结果→实际可用”之间存在一个巨大的鸿沟。微调、适配、调参、部署,每一步都在消耗时间、人才和算力。training-free 的方案直接把这个鸿沟填平了一半。你今天读完这篇论文,明天就可以在自己的 VLM 后面挂上 SpatialClaw 的 kernel 和工具链,后天就能开始拿它跑真实问题。

不是说 59.9% 已经足够好了,很多实用场景需要更高准确率。重点是:这套增益在 6 个骨架(26B 到 397B)上一致出现,跟具体用哪个模型是解耦的:最强的 Qwen3.5-397B 拿到 60.4%,是全场最高分。换更强的骨架,框架一行代码不用改,红利自动叠加上去。

这个解耦非常值钱。你在 Agent 框架层面的投资不会被下一次模型升级清零。精力可以集中在”怎么让模型和工具配合得更好”,而不是”怎么重新训练适配层”。

(一个现实提醒:SpatialClaw 目前是非商用许可。研究、验证随便用,真要落进商业产品,得先把授权问题解决掉。这是后话,但产品团队心里得有数。)

五、瓶颈转移了

退一步看这个范式。

过去三年,AI 行业的主导叙事是”更大的模型”。GPT-4、Gemini、Claude、Qwen,大家都在比拼参数规模、benchmark 分数、多模态能力。这个阶段的核心信仰很直白:模型不够聪明,所以我们要让它更聪明。

SpatialClaw 的消融实验戳破了一件事:模型可能已经够聪明了。

去掉所有感知工具(SAM 3、Depth Anything 3),只给模型一个空的持久 kernel + NumPy + SciPy,它还能比裸 VLM 高 2.7 个百分点(51.4% vs 48.7%)。这 2.7 个百分点是纯界面收益。不是模型更聪明了,是模型终于有了一个能让它施展聪明的工作环境。

再来看误差来源分析。论文的失败案例拆解里(Finding 5),最主要的瓶颈已经不是”模型不知道答案”,而是几何推理错误(占 21%,单类最大):模型知道该算什么,但在把”算”翻译成代码的过程中出了偏差。其次才是感知工具本身的问题:VLM 幻觉、SAM 3 分错区域、Depth Anything 3 估错深度。

瓶颈从”模型能力”转移到了”交互界面质量”。

这不是 SpatialClaw 一家之言。GPT-5 系列从 2025 年 8 月起,每一代 Codex 变体都在强化”给模型一个持久工作空间”的思路。Anthropic 把 MCP 协议推成了开源标准。Google DeepMind 的 Gemma 4 模型卡里专门有一节讲 agentic capabilities。

整个行业在同一个方向上集体转向:卷模型卷不动了,开始卷模型和世界的交互方式。

如果你是一个产品经理或创业者,这个转向对你来说意义明确:AI 产品的下一个差异化战场,不是选哪个模型,而是你给了模型什么样的行动空间。

你给的是一个穷举式的 JSON API,还是一个可以自由组合的工具箱?你给的是单次调用的黑箱,还是一个有状态、可迭代的工作环境?你的模型在”做”完一步之后,能不能”看到”自己做了什么,然后调整?

这些问题的答案,会比”你用 GPT-5 还是 Claude-5″更决定产品的上限。

六、对产品人的三个具体启发

第一,把”中间状态”设计进去。

现在大多数 AI 产品的工作流是:用户输入→模型推理→输出。中间发生了什么,用户看不见,模型自己也不”记得”。SpatialClaw 告诉你的是:中间状态极其值钱。让模型能看到自己的上一步输出、让用户能看到模型的中间推理,这不是锦上添花,这是性能提升的核心抓手。

第二,工具不要只给”接口”,要给”语言”。

结构化工具调用的问题不是工具不够多,是工具之间互相不”认识”。如果你在做 AI 产品,给模型配工具的时候,问自己一个问题:这些工具的输出能互相组合吗?如果模型拿到工具 A 的输出之后,没办法用工具 B 的标准方式去处理它,那你的工具不是太少,是你的工具不会聊天。

第三,别迷信”专有模型”。

SpatialClaw 证明了通用 VLM + 好界面 > 专门训练的垂直模型。在大多数场景下,你不需要一个”专门为你的业务微调过的模型”。你需要的是一个能让通用模型发挥到极致的工作环境。花在界面设计上的时间,回报率可能远高于花在微调上的时间。

七、这个范式的终点在哪

最后,把时间线拉长一点。

SpatialClaw 今天解决的是空间推理,一个很垂直的任务。但”代码即行动界面”这个范式的适用范围远不止于此。

一个持久 kernel + 一套通用感知工具 + 一个能写代码的 VLM。它可以做什么?

数据分析:自己写 Python 去探索数据、画分布图、发现异常值、迭代假设。自动化操作:看到屏幕上的变化后自己决定下一步点哪里,不按预设脚本跑。科学研究:设计实验、运行模拟、检查结果、修改参数、重新运行。

所有这些场景的共通点:它们都需要一个能看、能想、能做、能检查、能修正的闭环。代码是这个闭环目前最高效的实现方式。

SpatialClaw 之所以重要,不是因为 59.9% 这个数字。是因为它用 59.9% 这个数字,把一扇门推开了,一扇从”AI 能回答问题”通往”AI 能解决问题”的门。

这扇门后面,Agent 时代的竞争规则正在重写。过去的竞争是”你有什么模型”。未来的竞争是”你给了模型怎样的手和眼”。

本文由 @枝酒 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!