海外科技博主点评Manus:炒作跑在了技术创新前面

0 评论 1261 浏览 0 收藏 8 分钟

Manus作为一款备受瞩目的“代理型”人工智能平台,在推出后迅速引发了广泛的关注和讨论。然而,海外科技博主对其实际表现提出了质疑,认为Manus的炒作可能跑在了技术创新前面。

Manus是一款上周推出预览版的“代理型”人工智能平台,其引发的关注度甚至超过了泰勒·斯威夫特(Taylor Swift)的演唱会。

Hugging Face的产品负责人称Manus是“我尝试过的最令人印象深刻的人工智能工具”。人工智能政策研究员迪安·鲍尔(Dean Ball)将Manus描述为“使用人工智能的最复杂的计算机”。Manus的官方Discord服务器在短短几天内就吸引了超过13.8万名成员,其邀请码在中国的二手平台闲鱼上甚至被炒至数千美元。

然而,这种热度似乎并不完全合理。

据社交媒体上的报道,Manus并非完全从零开始开发。该平台结合了现有的和经过微调的人工智能模型,包括Anthropic的Claude和阿里巴巴的Qwen,以执行诸如撰写研究报告和分析财务文件等任务。

然而,在其网站上,Manus背后的中国公司“蝴蝶效应”(The Butterfly Effect)却给出了该平台能够实现的一些夸张例子,从购买房产到开发电子游戏无所不包。

在一段在X平台上疯传的视频中,Manus的研究负责人纪益超(Yichao “Peak” Ji)暗示,该平台优于OpenAI的深度研究和操作员等代理型工具。纪益超声称,Manus在一项名为GAIA的通用人工智能助手基准测试中表现优于深度研究,该测试考察人工智能通过浏览网页、使用软件等方式完成工作的能力。

“Manus不仅仅是一个聊天机器人或工作流,”纪益超在视频中说,“它是一个完全自主的代理,弥合了构想与执行之间的差距……我们认为这是人机协作的下一个范式。”

然而,一些早期用户表示,Manus并非万能的解决方案。

人工智能初创公司Pleias的联合创始人亚历山大·多利亚(Alexander Doria)在X平台上发帖称,他在测试Manus时遇到了错误信息和无限循环。其他用户也指出,Manus在回答事实性问题时会出错,且并不总是引用其来源——而且经常遗漏一些很容易在网上找到的信息。

“深度研究在不到15分钟内就完成了。不幸的是,Manus AI在第18/20步失败了,耗时50分钟!它表现得相当不错——我在查看Manus的输出结果时,感觉很不错。然而,第二次运行相同的指令时,它花了太长时间,这有点令人沮丧!”

我自己使用Manus的经历也并不十分积极。

我让这个平台帮我处理一个在我看来非常简单的要求:从我配送范围内的一个高评分快餐店订购一份炸鸡汉堡。大约10分钟后,Manus崩溃了。第二次尝试时,它找到了符合我标准的菜单项,但Manus无法完成订购过程,甚至无法提供一个结账链接。

尝试用Manus点炸鸡三明治是一种令人沮丧的经历。

当我要求Manus预订从纽约到日本的航班时,它的表现同样不尽如人意。

我给出的指令在我看来并没有太多模糊空间(例如“寻找商务舱航班,优先考虑价格和灵活的日期”),但Manus能做到的最好结果只是提供了一些航空公司网站和航班搜索平台(如Kayak)的机票链接,其中一些链接甚至无法打开。

Manus目前还不能为您预订去东京的航班。

怀着对接下来的任务可能会有更好表现的希望,我让Manus为我预订一张步行距离内的餐厅的单人桌,但几分钟后它失败了。随后,我要求该平台开发一款受《火影忍者》启发的格斗游戏,但在半小时后出现了错误,这让我决定放弃。

阿什托什·夏里瓦斯塔瓦(Ashutosh Shrivastava)在3月9日的推文中表示:

“在尝试Manus AI三天后,我的真实看法如下,有好有坏。
好的方面:
它在互联网上进行的研究以及生成的报告令人难以置信。
它在后台运行脚本来执行任务的能力令人印象深刻。
它的计划……”

Manus的一位发言人通过直接消息向TechCrunch发送了以下声明:

“作为一个小团队,我们的重点是不断改进Manus,打造真正能帮助用户解决问题的人工智能代理……当前封闭测试的主要目标是对系统的各个部分进行压力测试并识别问题。我们非常感谢每个人分享的宝贵见解。”

因此,如果Manus未能实现其技术承诺,为什么它会引发如此大的关注呢?有几个因素促成了这一点,比如由于邀请码稀缺而产生的排他性。

中国媒体迅速将Manus宣传为一项人工智能突破,《QQ新闻》甚至称其为“国内产品的骄傲”。与此同时,社交媒体上的人工智能网红传播了关于Manus能力的不实信息。一个被广泛分享的视频展示了一个桌面程序(据称是Manus)在多个智能手机应用程序中采取行动。但纪益超确认,这段视频实际上并不是Manus的演示。

X平台上的其他有影响力的人工智能账号试图将Manus与中国的DeepSeek公司进行比较——但这些比较并不一定基于事实。与DeepSeek不同,蝴蝶效应并没有开发任何内部模型。此外,尽管DeepSeek公开了许多技术,但Manus尚未做到——至少目前还没有。

公平地说,Manus目前仍处于非常早期的访问阶段。该公司声称正在努力扩展计算能力,并在问题被报告后进行修复。但就目前该平台的现状而言,Manus似乎是一个技术炒作跑在技术创新前面的例子。(TechCrunch)

本文由人人都是产品经理作者【AI新智能】,微信公众号:【AI新智能】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!