豆包手机助手会成为智能体的终极形态吗?

0 评论 83 浏览 0 收藏 14 分钟

字节与中兴努比亚推出的豆包手机助手备受瞩目,其跨应用复杂操作能力惊艳众人,但也面临技术、体验、商业竞争等诸多挑战。它能否引领通用 Agent 发展,未来又将在何处落地?

字节联合中兴努比亚发布的豆包手机助手,近期在手机行业引起了不少轰动,甚至在大众消费人群里形成了破圈效应,身边有不少朋友在热议豆包会不会一统手机江湖。确实,豆包这次调子起的有点太高了。AI Agent(智能体)从2024年就开始兴起,这一年多时间里,不管是智能手机行业,还是智能汽车行业,都有不少玩家发布过点咖啡agent、回微信、行程助理等Demo(功能演示)。

为何只有豆包手机助手引起了如此大的关注度呢?

分析原因,主要有两点:首先,从用户体验来看,豆包手机助手所演示的功能太像人在操作了,只需要一句话,就有一个私人助手能帮你完成绝大多数手机操作任务,这个故事听起来就很性感;其次,从功能实现上看,它此次实现的能力是一个系统级的通用智能体,对复杂指令和跨域操作的需求满足度较高,Agnet的操作范围不再是局限于某个应用内部。当大部分人使用AI的方式停留在打开豆包/DeepSeek问问题、作画时,这种跨应用自动执行复杂意图的能力确实让人惊艳。

但从目前测评者和行业从业者的试用分析报告来看,豆包手机助手在技术上并没有太多创新的地方,它主要搞定了两个事:模拟操作+系统级权限。豆包手机助手主要是凭借GUI Agent(模拟点击)等工具实现跨应用、多步骤的复杂操作。另外,中兴努比亚手机OS给豆包这个“外挂”应用开了后门,比如安卓无障碍、跨进程调用、系统私钥签名等系统权限。豆包手机助手作为通用agent在系统上层执行识别屏幕内容和模拟点击操作的方式,来完整完成用户的指令任务。

看着豆包手机助手一步步打开应用,点击搜索框,输入内容,直到弹出支付页面。这种“幽灵”操作,让我不禁想起来了半年前在海外旅游时,手机被三方APP病毒绑架的场景,我手握着手机没有做任何操作,手机界面不断的“自己”打开页面,不断的尝试获取我屏幕上的所有界面信息,这种体验实在是太像了!区别在于,豆包手机助手是基于我的意图在合法权限下操控着这部手机,能打开的大部分APP都是生活类的,而病毒APP是在骗子的意图下非法操作着我的手机开启支付宝、银行APP。面对一个无形的手在操控我们的手机屏幕时,不管背后是谁,那种陌生感和恐惧感,我相信任何一个手机用户都会有。

豆包手机助手到底给我们带来了什么价值?

虽然,从结果看,豆包手机助手确实是完整理解并执行了我们的某个意图。但是,从体验上看,整个执行过程还是十分漫长,而且页面一旦发生变化,任务就很可能中止或失败。对于AI来说,专为人类设计的手机交互和UI 是极其低效的,太多冗余交互动作、太多噪点以及太多权限设置。

用户价值的万能公式=新价值-旧价值-替换成本。如果豆包手机助手带了新价值仅仅是代替我们完成了多次触屏点击动作,可以说这个新价值是十分有限的,因为APP的UI都是为人类点击设计的,显然人自己操作屏幕的效率和成功率会比现在的豆包高出不少;而且,个人隐私泄露的风险以及财产安全风险始终存在,这无疑推高了替换成本。这么看来,豆包手机助手给普通用户带来的价值确实就很有限了。

如果AI仅是模仿人类,能给我们带来真正的价值吗?这个问题的答案,在汽车行业已被验证过了。在2024年之前,智驾行业普遍都是采用的规则+模仿学习模型方案,不断的训练机器学会应对司机已知的场景,但总有新的训练数据里没遇到过的corner case出现,一旦出现这样的未训练过的场景,智驾系统就处于不会或者降级的状态,如果将驾驶权全权托付给AI,这个边缘场景带来的风险是不可估量的,这就导致模仿学习的方案始终无法实现真正的L4自动驾驶。而智能驾驶行业玩家,已经开始探索强化学习和世界模型,简单点说,就是要AI从原始场景里去感知信号和正确执行,不仅基于人类的已有学习经验去驾车,面对未知的场景也能具备正确的处理能力,这也许是智驾方案通往L4的道路。

豆包无疑是一直走在通用人工智能最前沿的,豆包手机助手的出现,也是一次更大胆的落地尝试。

系统“外挂”通用Agent应用,能创造下一代AI超级智能终端吗?

事实可能并没想的那么简单。

首先,AI如果不深入到操作系统层,显然是无法通往到达这个目标的,大部分Agent都被困在了应用内,应用之外都是盲区,现在头部APP基本都内置了一个AI助手,但是真正被用户用起来的却很少。究其原因,头部APP对人机交互的页面设计和功能布局已经做的很好了,用户习惯了手动点击交互,反而很难接受通过语音的方式与一个AI助手交互,这样APP内的AI助手就显得有些鸡肋了。

而且,就算是手机系统厂商自己推出的手机AI助手,面对手机上的一个个APP“孤岛”,也很难真正的推动一个全局感知和高效执行的超级智能体落地,不管是小米的小爱同学、还是华为的小艺小艺,目前能支持的意图范围基本都集中在系统原生的功能范围内,头部的三方APP基本对这类手机系统级的助理都是封闭的。

现在来看,豆包手机助手通过GUI的方式实现全局操作,这一技术路线仅为过渡方案,理想形态应该是第三方App主动开放API与服务控件,以便终端通用智能体能直接调取生态内容和服务,而不是模仿人的动作和交互方式在APP上层一步步操作。但在移动互联网生态格局和利益盘子早已稳固的当下,想让头部APP和手机厂商让步,开放服务控件和系统级权限,谈何容易!

“革命者”从来就不要对“旧地主”抱有幻想,新变革从来就不应该建立在旧制度之上,“革命者”需要有新打法和建立自己的新领地。

从打法上看,GUI方案估计很快就行不通了。头部APP会想着法子阻止或妨碍豆包手机助手这些APP的读屏操作;而OV华米这几家头部厂商处于自身系统权限主导权考虑,对豆包手机助手这类APP放开系统私钥签名权限的可能性几乎为0。

AI时代,流量分配的森林法则依然存在

手机终端是移动互联网时代的产物,森林法则早已稳固,智能体作为新的生态想生根发芽统治原有的生态比登天还难。三方Agent玩家想颠覆手机生态,面临系统厂商和APP生态两座大山,几乎不可能完全翻越。

在移动互联网时代,手机厂商和APP之间就因为流量入口的主导权持续在博弈,底层是商业利益之争。如果手机系统能直接调用APP内的内容/服务,流量入口就掌握在了手机厂商手里,这种打破APP生态壁垒的操作,对于应用厂商来说是红线。这么多年过去了,手机厂商能直达的三方APP服务和内容少之又少,负一屏服务卡片和语音助手活跃度一直都没有起来。一个APP的核心商业价值在于解决信息检索和提供服务时带来的广告曝光收益和商流分成收益。

大部分APP实际上是内容/服务的线上聚合平台,尤其是头部APP所有者基本都不是服务/内容的所有者,APP相当于是圈了一块地,在里面盖起来商铺,招募进来商家入住供给端,再招揽消费者进来消费,APP通过这块地里的商流和人流收租子。那些互联网公司曾经在进入某个行业时,嚷嚷着要干掉线下中间商,将交易线上化实现信息的高效对接。最终APP所有者变成了那个行业最大的中间商,从贝壳/滴滴/美团/淘宝等头部都能看出APP圈地做流量运营的本质。

AI要实现的是价值回归,核心要干的就是去中间商,减少阻碍供需交易双方的中间环节,AI天生就是撮合高手,具备精准查找匹配和一步直达的效率。

如果系统厂商借住AI助手将直达内容/服务这个事给干了,流量入口和分发规则就被彻底改写,APP的商业价值就一切都归零了。桌上的玩家就只剩厂商和内容/服务源头商了,大部分的APP作为信息聚合或撮合交易平台的价值将不复存在。显然头部移动应用不会让这种结局出现。在旧秩序下,手机厂商想落地系统级通用Agent的梦想视乎依旧步履维艰。

结语

那么,通用Agent可能最先在哪个终端实现呢?

从人与Agnet交互的原生性角度思考,触屏点击交互已不再适用,以语音为主导的多模交互才是主流;从用户需求的第一性原理来看,我们的最终需求并不是APP,而是获得精准的服务和内容。从这两点看,手机这个终端显然不是Agent时代最好的载体。

我猜,通用Agent最终落地的终端,可能存在于智能汽车行业里,也可能存在于AI眼镜上,也可能存在于智能家居里,甚至是存在于一个我们还未创造出来新的智能终端里,而手机可能会是一个过去时。

其实每一个新的技术落地时都没有捷径可以走,而是要进行全局思考。未来10年,可能会出现从头开始做一种专为AI而生的原生操作系统,可能会出现重新设计的AI智能终端设备,行业也可能形成一套为Agent而兴新的生态格局。

就像二十多年前,互联网普及初期,行业流行的一句话:所有行业都值得被互联网重新做一遍。一些人先看到了机会和打法,站在了风口,随着互联网的大潮就起飞了,才有了今天的互联网格局。今天,我们身处Agent时代的开端,这句话依然适用。

专栏作家

罗攀,微信公众号:如是一文,人人都是产品经理专栏作家。《流量地图》作者,前滴滴用户增长运营专家。擅长用户增长体系搭建和流量运营,带领过从0到1的增长项目,长期关注网约车、汽车、电商零售、在线教育等行业。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!