豆包手机,玩脱了

0 评论 203 浏览 0 收藏 12 分钟

豆包手机因采用GUI Agent技术实现跨应用自动化操作,引发微信、淘宝等超级App集体封杀。表面是权限之争,实则暴露了AI手机在隐私保护、系统透明度与行业规范上的深层缺失。真正的AI手机未来,需建立在开放标准与可信机制之上,而非仅靠用户授权单点突破。

最近,大家都被豆包手机的“AI智能助手”引发的讨论刷屏了。淘宝、微信、银行APP也纷纷开始“封杀”豆包手机。

说实话我一开始也没太当回事情,心想只要用户授权,安全的使用数据就行了,这些大厂就是怕担心数据和用户被人抢了呗。

直到豆包手机发出了“辟谣”公告,我觉得这件事情不简单。他是一直在强调用户授权,数据安全是一点都没谈呐。

豆包辟谣(来源网络)

当然,我完全相信,借100个胆子给豆包手机也不敢拿用户隐私数据和资金安全来开玩笑。

那这次豆包为什么会惹了众怒呢?我们就从科技的角度来给大家拆解下,豆包手机这次事件到底是怎么回事,以及探讨下GUI Agent、AI手机未来应该是什么样的。

01 豆包到底干了啥

这次豆包手机使用了GUI Agent的技术,并且与中兴通讯联合推出的一款的OEM工程手机。所谓的GUI Agent,就是AI代理可以通过“感知、规划、执行”来代替用户完成手机APP的操作处理。

1.GUI Agent原理

GUI Agent实现原理(来源网络)

这里的感知、规划和执行,就像人的眼睛、大脑和手一样让AI来帮你操作手机。因此,需要手机操作系统和大模型来提供相应的软硬件功能。

  • 感知(看):相当于AI的眼睛,它需要操作系统提供读取屏幕的功能,用户授权后就能使用了。
  • 规划(想):相当于AI的大脑,读取的屏幕界面信息传递给大模型来进行处理,如果是没有本地模型就需要传到云端大模型处理。
  • 执行(做):相当于AI的手,根据大模型发送的执行指令来模拟人的操作。这里涉及到对用户APP进行操作。

为了避免黑客远程操控,因此属于级别最高的“系统权限”,只有手机厂商定制才能进行使用。

2.豆包GUI Agent

这次豆包的GUI Agent又是如何实现的呢,他是怎么实现“看、想、做”的呢?

豆包手机系统架构图

豆包和主流的GUI Agent采用的方式类似,只不过这次为了获得系统权限他自己找中兴通讯合作,使用nubia M153手机做了贴牌的工程样机。

1)GUI Agent接管系统

豆包通过用户授权开通了APP的接管。通过接收用户的指令就能对这些APP进行自动操作。

2)感知(无障碍辅助)

无障碍辅助,这个权限设计的初衷是帮助残障人士使用设备而设计的。他需要开发者在APP内配置,然后通过用户授权就能获取。

在豆包手机的设计中,这个功能被用来读取手机的屏幕。然后通过安卓的“窗口管理器”来解析界面元素。

这里存在的争议,在传给大模型之前,是否对安全键盘和敏感的支付、账户、相册、视频等界面在本地过滤处理,过滤到什么级别,复杂的界面如何处理等问题?

3)规划(豆包大模型)

整个思考过程自然是使用豆包的大模型来处理,他会根据用户语音指令和获取的界面要素进行规划和决策,然后给出下一步操作的指令。

这里就会涉及到隐私数据的处理了,最合规的做法就是使用本地大模型来处理,这样的话用户隐私数据就完全在手机内部封闭了。

根据豆包公开的产品,他有一款UI-TRAS的本地大模型,但是公开资料没有说明这个模型是完全本地化,还是“本地+云端”协同。

如果与云端协同,就需要在上传云端前,过滤掉用户的隐私数据,通过安全的加密链路与云端大模型进行交互。

这里存在的争议,是否有云端协同,协同的的数据有哪些?是否在云端保存了用户的隐私、行为数据?

4)执行(事件注入权限)

接到大模型发送到的指令后,GUI Agent就要根据识别的界面,模拟用户的各种物理输入来操作手机。这里就涉及到“上帝之手”权限——注入事件(INJECT EVENTS)。

这是系统级别的权限,普通APP让用户授权了也无法获取,因为这涉及到操作系统内核的输入。因此,需要手机厂商单独给APP定制。并且为了确保唯一性,要使用与这个APP匹配的证书签名才能访问。

这里存在的争议,就是权限是否最小化、用户是否可以随时暂停操作、操作日志是否记录并提供用户和监管机构审计。

可能有人会说,这是都是为了用户更好的体验,用户都同意授权,市面上GUI Agent都是这么干的,这种属于正常的商业合作模式。

可能你会认为,提出来反对的都是“既得利益者”、“阻碍创新”,“怕被AI手机替代”,“未来AI手机不做了吗?”。那我们来看下真正的AI手机应该是怎么什么样子的

02 未来的AI手机

下面我们来看下未来的“AI 手机”如何来平衡上面的这些问题和争议。

未来的AI手机系统架构图

1.新老APP的兼容

未来会有适用于AI应用场景的“AI原生APP”,也会保持对“传统APP”的兼容,这两个类APP都能被系统级的GUI Agent来管理和调用,但是权限可以更加细分和灵活。

2.系统级GUI Agent

未来的AI手机的GUI Agent不再只是豆包自己的应用,而是一个系统级的Agent应用,它有公开的调用标准、数据隐私规范、统一的界面规范。

对于不希望接受Agent调用的传统APP也是允许其人工操作。是否改造成“AI原生”,更多的是通过用户和生态的压力来倒逼这些APP升级,而不是强制调用,引来相互封杀。

当然也可以通过国家标准和行业规范来让这些传统APP来执行规范,接受AI手机的调用。

3.应用框架的AI扩展

未来的AI手机应用框架是在现有安卓系统上进行的AI扩展,他兼容新老APP应用。

1)AI原生应用框架:

他在原有的安卓应用框架上扩展了适合AI原生APP的AI框架,它可以提供标准的AI原生应用接口、并且可以安全获取系统级别的AI权限。

并且他可以集成本地多模态大模型,或者与云端大模型协同。在与云端协同前会过滤掉用户的隐私数据来保障安全。

2)全局权限管理:

他的权限管理也是全局的,不需要通过手机厂商“开小灶”来给应用开通权限。并且他的开通的权限将会更加灵活和最小化。

应用的操作过程也是可以被记录,并且能接受用户、监管的审计。

3)丰富的事件分发:

AI手机的“看、做”行为,不再是让APP通过“截屏”和“模拟操作”来实现自动化代理。

而是在系统级别层面实现了界面元素获取、解析、以及用户行为事件的处理,并且更加安全,可以有效避免权限被滥用。

可能有人会说,要等到这么多规范和技术条件成熟,那现在GUI Agent就不发展了?AI手机未来不做了嘛?

03 争议在于不透明

我前面也说,我认为豆包“没必要、也不敢”在用户隐私数据、资金安全方面“冒险”。其实这一切的争议都来自于不透明,由此造成了一系列的质疑与封杀。

豆包和中兴现在一直强调是拥有用户授权,并且仅解释了用户对于授权是知情的。但是对于用户隐私数据和资金安全方面的都是通过“辟谣”的方式来澄清。并且也没有任何权威的第三方对他的行为进行认证和审计。

豆包有必要对于“用户、APP提供商、监管”一个交代。

回应大家普遍质疑的“隐私数据保护、技术安全标准、权限管理、日志审计、风险管理、合规性”等方面的问题,并且公开其标准或者接受权威机构审计。

唯有公开透明,打消了各方的疑虑,GUI Agent才能真正地发展起来。

否则都是“先干再合规,质疑靠辟谣”,那只会引来全面的封杀。在这个数字化时代,手机已经是个人隐私的最后一块“遮羞布”了,如果不做好用户隐私保护,“AI手机”、“AGI应用”也就没有未来。

本文由人人都是产品经理作者【刚哥】,微信公众号:【刚哥白话】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!