从文字模型到世界模型！Meta新研究让AI Agent理解物理世界 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

2024-04-19

1 评论 466 浏览 1 收藏

产品经理在不同的职业阶段，需要侧重不同的方面，从基础技能、业务深度、专业领域到战略规划和管理能力。

Meta新发布的开放词汇体验问答（OpenEQA）基准，旨在衡量AI Agent对物理空间的理解能力，但目前AI Agent的水平，还是无法与人类媲美。

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。

现在LLMs也开始逐步学习理解3D物理空间，通过增强LLMs的「看到」世界的能力，人们可以开发新的应用，在更多场景去获取LLMs的帮助。

AI Agent，比如机器人或是智能眼镜，它们可以通过感知和理解环境来回答一些开放性问题，比如「我把钥匙放哪里了？」

这样的AI Agent需要利用视觉等感知模式来理解其周围环境，并能够用清晰的日常语言有效地与人交流。

这类似于构建一个「世界模型」，即AI Agent可以对外部世界产生它自己的内部理解方法，并能够让人类通过语言查询。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

这是一个长期的愿景和一个有挑战的领域，也是实现人工通用智能的重要一步。

Meta的新研究OpenEQA（Embodied Question Answering）框架，即开放词汇体验问答框架，为我们探索这个领域提供了新的可能。

一、EQA是什么？

EQA（Embodied Question Answering）是一种工具，用于检查AI Agent是否真正理解周围世界发生的事情。

毕竟，当我们想要确定一个人对概念的理解程度时，我们会问他们问题，并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。

比如下图的一些问题实例：

[物体识别]

问：椅子上的红色物体是什么？

答：一个背包

[属性识别]

问：在所有的椅子中，这把椅子的独特颜色是什么？

答：绿色

[空间理解]

问：这个房间可以容纳10个人吗？

答：可以

[物体状态识别]

问：塑料水瓶是开着的吗？

答：不是

[功能推理]

问：我可以用铅笔在什么东西上写？

答：纸

[世界知识]

问：最近有学生在这里吗？

答：有

[物体定位]

问：我的未喝完的星巴克饮料在哪里？

答：在靠前的白板旁边的桌子上

除此之外，EQA也更加有直接的应用。

比如，当你准备出门却找不到工卡时，就就可以问智能眼镜它在哪里。而AI Agent则会通过利用其情节记忆回答说徽章在餐桌上。

或者如果你在回家的路上饿了，就可以问家庭机器人是否还剩下水果。根据其对环境的主动探索，它可能会回答说水果篮里有成熟的香蕉。

这些行为看上去很简单，毕竟LLMs在许多人认为具有挑战性的任务中表现出色，比如通过SAT或律师考试。

但现实是，即使是今天最先进的模型，在EQA方面也很难达到人类的表现水平。

这也是为什么Meta同时发布了OpenEQA基准测试，让研究人员可以测试他们自己的模型，并了解它们与人类的表现相比如何。

二、OpenEQA：面向AI Agent的全新基准

开放词汇体验问答（OpenEQA）框架是一个新的基准测试，通过向AI Agent提出开放词汇问题来衡量其对环境的理解。

该基准包含超过1600个非模板化的问题和答案对，这些问题和答案来自人类注释者，代表了真实世界的使用情况，并提供了180多个物理环境的视频和扫描指针。

OpenEQA包含两个任务：

情节记忆EQA，在这个任务中，一个实体的AI Agent根据其对过去经历的回忆回答问题。
主动EQA，在这个任务中，AI Agent必须在环境中采取行动来收集必要的信息并回答问题。

OpenEQA还配备了LLM-Match，这是一种用于评分开放词汇答案的自动评估指标。

下方是LLM-Match打分的流程，通过问题和场景的输入，AI大模型会给出回答，该回答会去和人类的回答作对比，然后得到相应的分数。

三、现阶段VLM的表现

一般来说，AI Agent的视觉能力是借助于视觉+语言基础模型（VLM）。

研究员使用OpenEQA来评估了几种最先进的VLM，发现即使是性能最好的模型（如GPT-4V达到48.5%），与人类的表现（85.9%）之间也存在着显著差距。

值得注意的是，对于需要空间理解的问题，即使是最好的VLM也几乎是「盲目」的，即它们的表现几乎不比仅文本模型更好。

例如，对于「我坐在客厅的沙发上看电视。我的身后是哪个房间？」这个问题，模型基本上是随机猜测不同的房间，没有从视觉情景记忆中获得对空间的理解。

这说明VLM其实是回归到文本中去捕捉关于世界的先验知识，以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

这也说明，AI Agent在目前这个阶段，还达不到能完全理解物理世界的能力。

但气馁还为时过早，OpenEQA仅仅是第一个开放词汇的EQA基准。

通过OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力结合起来，可以激发更多的研究，帮助AI理解并交流关于它所看到的世界的信息，也有助于研究人员跟踪多模态学习和场景理解的未来进展。

也不是没有可能，突然哪天AI Agent又给我们带来一个大惊喜呢？

参考资料：

https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

编辑：Mindy

来源公众号：新智元（ID：AI_era），“智能+”中国主平台，致力于推动中国从“互联网+”迈向“智能+”。

本文由人人都是产品经理合作媒体 @新智元授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

"智能+"中国主平台，致力于推动中国从"互联网+"迈向"智能+"

138篇作品 314246总阅读量

小红书凭什么在短视频的夹缝中持续生长？

11-084485 浏览

小红书凭什么在短视频的夹缝中持续生长？

7000多个小组说关就关，美国贴吧的用户这次彻底疯狂！

06-151848 浏览

7000多个小组说关就关，美国贴吧的用户这次彻底疯狂！

破解产品面试高频问题：一套破题思路助你一臂之力！

刚刚

GPT启示篇-学校教育的变革与思考

04-018629 浏览

GPT启示篇-学校教育的变革与思考

一文了解金融保理业务及资金流

11-272152 浏览

一文了解金融保理业务及资金流

创投型企业，如何从0-1设计交互链路

12-182174 浏览

创投型企业，如何从0-1设计交互链路

评论

破壁虎

文中的评测维度（物体识别、属性识别…）具有启发性，有利于客观评估一个语言模型的综合能力，请问评测维度定义的来源是哪里？

最近来自广东回复

需求难做，商业模式难找，我是如何做好B端产品经理的

29693人已学习16篇文章

有效的页面操作反馈设计指南

系统如何恰当、清晰、及时地传达给用户操作的结果或者操作对象状态的变更？本专题的文章提供了有效的页面操作反馈设计指南。

13182人已学习14篇文章

如何做好需求变更？

在项目实际推进过程中，不加控制的需求变更往往给项目带来沉重的负担和无法预料的风险。本专题的文章分享了如何做好需求变更。

17165人已学习12篇文章

分销体系设计指南

分销是互联网拉人头和推广的常用手段，能够在短时间内实现裂变营销。本专题的文章分享了分销体系设计指南。

12289人已学习12篇文章

加载功能的原理和设计

在日常生活中，使用APP或者网页加载时，加载按钮常常会出现，加载效率影响着用户体验。本专题的文章分享了加载功能的原理和设计。

16863人已学习16篇文章

SCRM工具的搭建以及相关业务运用场景

私域模式已完成从探索到落地的转换，许多企业也纷纷落局。而基于私域衍生出的SCRM工具，也成为私域运营必不可少的利器之一。本专题的文章分享了SCRM工具的搭建以及相关业务运用场景。

70059人已学习13篇文章

产品设计规范专题

想要做款好产品，这些规范你得知道。