别再肝了!Google 发布 SIMA 2,你的下一个游戏搭子可能是个 AI

0 评论 1318 浏览 0 收藏 9 分钟

Google SIMA 2 以 Gemini 为推理核心,实现从指令执行到思考协作的质变,凭借多模态交互、跨场景技能迁移与自我改进能力,成为通用具身智能迈向现实世界的关键突破。

我从未想过,有一天,AI 可以帮玩游戏?

上周,Google 发布了新一代通用智能体 SIMA 2(可扩展指令式多世界Agent),并与 Gemini 深度集成,它能够在虚拟世界理解并执行指令,围绕目标规划行动,与玩家进行交互,并在试错中不断自我改进。

比如,在游戏《我的世界》中,你可以直接用自然语言下达指令:“向上再往左走一段,到前面那个小洞穴,挖一些煤炭。”在上一代 SIMA 1 模型中,这类连续、多步操作仍然难以完成,而 SIMA 2 已经可以稳定执行。

在《ASKA》生存游戏中,输入“找到篝火”指令,SIMA 2 同样能够理解并完成:

SIMA 1 已经能够在多款商业电子游戏中执行 600 多项语言的跟随指令,例如“向左转”“爬梯子”“打开地图”等。它通过“看”屏幕,并以虚拟键盘和鼠标进行操作,在环境中的表现接近真实玩家。

与之相比,SIMA 2 超越了简单的执行指令,而是通过将 Gemini 作为推理中枢嵌入Agent,SIMA 2 具备了在执行指令之外的思考和推理的能力。

为了训练 SIMA 2,团队使用了大量带有语言标注的人类演示视频,并结合由 Gemini 自动生成的标注与视频进行强化学习。SIMA 2 已经具备了初步的“对话式协作”能力。它不仅能用自然语言向用户解释意图,还能清晰描述下一步将采取哪些行动来实现目标。

在演示视频中,SIMA 2 不仅能够说明“自己在哪里、为什么会在这里”,还能描述周围环境,并按人类给出的指令而行动。

经过通过大量的训练后,可以认为Agent 已经具备了初步的智能。和Agent交互的过程更像是与一个能够思考任务的伙伴合作。SIMA 2 通过对环境和用户意图来推理,解释抽象概念和逻辑命令。

SIMA 2也可以理解更加复杂的,细致的指令,在执行这些复杂难题/任务上也比之前有了显著的提升,例如在游戏《ASKA》中,他可以遵循用户的多条指令,执行更长的任务,并且给予反馈,像与一个真实的玩家进行互动一样。

SIMA 2 可以执行冗长且复杂的指令,由于 Gemini 出色的多模态能力,如果用户使用图像与Agent进行互动,它也可以理解:

用户画了草图,并要求它跳到游戏中与草图形状相似的物体上

表情符合和不同的语言,即使十分简洁,SIMA 2 也可以理解:

在《我的世界》和《ASKA》中学会挖矿之后,他还可以将已经学到的“采集”能力应用到其他游戏中,包括他没有被训练过的游戏:

SIMA 2 的任务完成成功率比起之前一代 SIMA 1 有显著提升

Google 还在并行推进一个具有突破性的研究项目 Genie 3,在理念上与李飞飞提出的世界模型 Marble 有一定相似之处。Genie 3 能够根据一张静态图像或简单文本提示,实时生成可交互的 3D 模拟世界。

更重要的是,当 SIMA 2 被置入这些全新合成的场景时,即便从未在其中受过专门训练,它依然能够正确辨别方向、理解用户指令,并做出目标明确合理的行动。

SIMA 2 的另一项关键能力在于自我改进。在训练阶段,它通过“反复试验 + Gemini 反馈评估”的闭环,不断学会完成更复杂的新任务。

随着时间推移,SIMA 2 自身累积的经验数据又可以反向用于训练下一代更强大的Agent。同时,在 Genie 动态生成的大量虚拟环境中,它的自我提升能力进一步放大,相当于在为“能适应任意世界的通用 Agent”打基础。这个由世界模型和Agent共同构成的正向迭代循环,是迈向通用智能和通用机器人系统的重要里程碑之一。

如何实现真正的通用具身智能

当前具身智能与机器人领域的核心难题是:目前的LLM多“长在云端”,主要通过对话方式和用户互动。这一范式之所以可行,是因为互联网提供了海量的数据。但在真实物理世界中,环境复杂、多样且难以完全记录,高质量训练数据极度稀缺。因此,目前业界一个重要思路,是先把Agent放入虚拟 3D 世界中,在可控、低成本的环境里密集采集交互数据并训练。

在这一思路下,“Gemini + SIMA 2”的组合提供了一个有说服力的路径:由顶级通用推理模型负责理解目标与规划,再由 SIMA 2 在复杂、交互式的 3D 场景中完成感知、理解与行动,让“会思考的 LLM”真正迈向“会在真实物理世界中动手做事的Agent”。

SIMA 2能在各种游戏环境中运行,这也是通用具身智能的重要基础,使agent可以掌握技能,进行复杂的推理,并在虚拟世界中不断学习。

从研究角度看,SIMA 2 是迈向通用、交互式具身智能的重要一步,但目前仍存在不少局限。比如,当任务涉及大量多步骤推理、需要长时间目标跟踪与结果验证时,SIMA 2 的表现仍不稳定。它对交互历史的记忆也相对短,只能在有限的上下文窗口内维持低延迟响应。这一点与当下主流 LLM 的局限性相似。此外,要在复杂 3D 场景中实现更高精度的“鼠标 + 键盘”式操作,以及更细致的视觉理解与空间解析,依旧是整个领域正在攻克的难题。

尽管如此,这项研究为具身人工智能的发展提供了一条被实证验证的新路径。SIMA 2 表明:通过大规模、多世界的数据训练,并叠加 Gemini 强大的推理能力,AI 系统有可能将过去分散在各类专用系统中的能力,整合进一个统一的通用智能体框架之中。

对于机器人领域而言,这同样具有重要意义。SIMA 2 所积累的能力谱系,从导航、工具使用到协作任务执行,正是未来智能体在现实世界中实现“智能具身化”的核心能力模块,为下一代通用机器人与智能助手指明了演进方向。

本文由人人都是产品经理作者【深思SenseAI】,微信公众号:【深思SenseAI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!