豆包手机，玩脱了 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

豆包手机，玩脱了

刚哥

2025-12-12

0 评论 2146 浏览 2 收藏

12 分钟

豆包手机因采用GUI Agent技术实现跨应用自动化操作，引发微信、淘宝等超级App集体封杀。表面是权限之争，实则暴露了AI手机在隐私保护、系统透明度与行业规范上的深层缺失。真正的AI手机未来，需建立在开放标准与可信机制之上，而非仅靠用户授权单点突破。

最近，大家都被豆包手机的“AI智能助手”引发的讨论刷屏了。淘宝、微信、银行APP也纷纷开始“封杀”豆包手机。

说实话我一开始也没太当回事情，心想只要用户授权，安全的使用数据就行了，这些大厂就是怕担心数据和用户被人抢了呗。

直到豆包手机发出了“辟谣”公告，我觉得这件事情不简单。他是一直在强调用户授权，数据安全是一点都没谈呐。

豆包辟谣（来源网络）

当然，我完全相信，借100个胆子给豆包手机也不敢拿用户隐私数据和资金安全来开玩笑。

那这次豆包为什么会惹了众怒呢？我们就从科技的角度来给大家拆解下，豆包手机这次事件到底是怎么回事，以及探讨下GUI Agent、AI手机未来应该是什么样的。

01 豆包到底干了啥

这次豆包手机使用了GUI Agent的技术，并且与中兴通讯联合推出的一款的OEM工程手机。所谓的GUI Agent，就是AI代理可以通过“感知、规划、执行”来代替用户完成手机APP的操作处理。

1.GUI Agent原理

GUI Agent实现原理（来源网络）

这里的感知、规划和执行，就像人的眼睛、大脑和手一样让AI来帮你操作手机。因此，需要手机操作系统和大模型来提供相应的软硬件功能。

感知（看）：相当于AI的眼睛，它需要操作系统提供读取屏幕的功能，用户授权后就能使用了。
规划（想）：相当于AI的大脑，读取的屏幕界面信息传递给大模型来进行处理，如果是没有本地模型就需要传到云端大模型处理。
执行（做）：相当于AI的手，根据大模型发送的执行指令来模拟人的操作。这里涉及到对用户APP进行操作。

为了避免黑客远程操控，因此属于级别最高的“系统权限”，只有手机厂商定制才能进行使用。

2.豆包GUI Agent

这次豆包的GUI Agent又是如何实现的呢，他是怎么实现“看、想、做”的呢？

豆包手机系统架构图

豆包和主流的GUI Agent采用的方式类似，只不过这次为了获得系统权限他自己找中兴通讯合作，使用nubia M153手机做了贴牌的工程样机。

1）GUI Agent接管系统

豆包通过用户授权开通了APP的接管。通过接收用户的指令就能对这些APP进行自动操作。

2）感知（无障碍辅助）

无障碍辅助，这个权限设计的初衷是帮助残障人士使用设备而设计的。他需要开发者在APP内配置，然后通过用户授权就能获取。

在豆包手机的设计中，这个功能被用来读取手机的屏幕。然后通过安卓的“窗口管理器”来解析界面元素。

这里存在的争议，在传给大模型之前，是否对安全键盘和敏感的支付、账户、相册、视频等界面在本地过滤处理，过滤到什么级别，复杂的界面如何处理等问题？

3）规划（豆包大模型）

整个思考过程自然是使用豆包的大模型来处理，他会根据用户语音指令和获取的界面要素进行规划和决策，然后给出下一步操作的指令。

这里就会涉及到隐私数据的处理了，最合规的做法就是使用本地大模型来处理，这样的话用户隐私数据就完全在手机内部封闭了。

根据豆包公开的产品，他有一款UI-TRAS的本地大模型，但是公开资料没有说明这个模型是完全本地化，还是“本地+云端”协同。

如果与云端协同，就需要在上传云端前，过滤掉用户的隐私数据，通过安全的加密链路与云端大模型进行交互。

这里存在的争议，是否有云端协同，协同的的数据有哪些？是否在云端保存了用户的隐私、行为数据？

4）执行（事件注入权限）

接到大模型发送到的指令后，GUI Agent就要根据识别的界面，模拟用户的各种物理输入来操作手机。这里就涉及到“上帝之手”权限——注入事件（INJECT EVENTS）。

这是系统级别的权限，普通APP让用户授权了也无法获取，因为这涉及到操作系统内核的输入。因此，需要手机厂商单独给APP定制。并且为了确保唯一性，要使用与这个APP匹配的证书签名才能访问。

这里存在的争议，就是权限是否最小化、用户是否可以随时暂停操作、操作日志是否记录并提供用户和监管机构审计。

可能有人会说，这是都是为了用户更好的体验，用户都同意授权，市面上GUI Agent都是这么干的，这种属于正常的商业合作模式。

可能你会认为，提出来反对的都是“既得利益者”、“阻碍创新”，“怕被AI手机替代”，“未来AI手机不做了吗？”。那我们来看下真正的AI手机应该是怎么什么样子的

02 未来的AI手机

下面我们来看下未来的“AI 手机”如何来平衡上面的这些问题和争议。

未来的AI手机系统架构图

1.新老APP的兼容

未来会有适用于AI应用场景的“AI原生APP”，也会保持对“传统APP”的兼容，这两个类APP都能被系统级的GUI Agent来管理和调用，但是权限可以更加细分和灵活。

2.系统级GUI Agent

未来的AI手机的GUI Agent不再只是豆包自己的应用，而是一个系统级的Agent应用，它有公开的调用标准、数据隐私规范、统一的界面规范。

对于不希望接受Agent调用的传统APP也是允许其人工操作。是否改造成“AI原生”，更多的是通过用户和生态的压力来倒逼这些APP升级，而不是强制调用，引来相互封杀。

当然也可以通过国家标准和行业规范来让这些传统APP来执行规范，接受AI手机的调用。

3.应用框架的AI扩展

未来的AI手机应用框架是在现有安卓系统上进行的AI扩展，他兼容新老APP应用。

1）AI原生应用框架：

他在原有的安卓应用框架上扩展了适合AI原生APP的AI框架，它可以提供标准的AI原生应用接口、并且可以安全获取系统级别的AI权限。

并且他可以集成本地多模态大模型，或者与云端大模型协同。在与云端协同前会过滤掉用户的隐私数据来保障安全。

2）全局权限管理：

他的权限管理也是全局的，不需要通过手机厂商“开小灶”来给应用开通权限。并且他的开通的权限将会更加灵活和最小化。

应用的操作过程也是可以被记录，并且能接受用户、监管的审计。

3）丰富的事件分发：

AI手机的“看、做”行为，不再是让APP通过“截屏”和“模拟操作”来实现自动化代理。

而是在系统级别层面实现了界面元素获取、解析、以及用户行为事件的处理，并且更加安全，可以有效避免权限被滥用。

可能有人会说，要等到这么多规范和技术条件成熟，那现在GUI Agent就不发展了？AI手机未来不做了嘛？

03 争议在于不透明

我前面也说，我认为豆包“没必要、也不敢”在用户隐私数据、资金安全方面“冒险”。其实这一切的争议都来自于不透明，由此造成了一系列的质疑与封杀。

豆包和中兴现在一直强调是拥有用户授权，并且仅解释了用户对于授权是知情的。但是对于用户隐私数据和资金安全方面的都是通过“辟谣”的方式来澄清。并且也没有任何权威的第三方对他的行为进行认证和审计。

豆包有必要对于“用户、APP提供商、监管”一个交代。

回应大家普遍质疑的“隐私数据保护、技术安全标准、权限管理、日志审计、风险管理、合规性”等方面的问题，并且公开其标准或者接受权威机构审计。

唯有公开透明，打消了各方的疑虑，GUI Agent才能真正地发展起来。

否则都是“先干再合规，质疑靠辟谣”，那只会引来全面的封杀。在这个数字化时代，手机已经是个人隐私的最后一块“遮羞布”了，如果不做好用户隐私保护，“AI手机”、“AGI应用”也就没有未来。

本文由人人都是产品经理作者【刚哥】，微信公众号：【刚哥白话】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

刚哥

公众号：刚哥白话，支付产品总监，18年银行、三方支付机构产品研发和设计经验

63篇作品 278032总阅读量

近期小红书7条运营心得，哪个行业博主更好变现？达人投放节奏？

10-231309 浏览

近期小红书7条运营心得，哪个行业博主更好变现？达人投放节奏？

手把手教学，如何完成跨境物流商及物流渠道的对接

07-265334 浏览

手把手教学，如何完成跨境物流商及物流渠道的对接

一小时爆卖3万只，卖空上百吨！它在今年火出圈

10-062336 浏览

一小时爆卖3万只，卖空上百吨！它在今年火出圈

从播放次数到播放时长，背后是B站的一次“改短”失败

07-043500 浏览

从播放次数到播放时长，背后是B站的一次“改短”失败

WMS—盘点功能设计

02-1217135 浏览

WMS—盘点功能设计

评论

目前还没评论，等你发挥！