2026 PM 生存指南:阿里 MAI-UI 开源,你的 APP 界面正在变成 AI 的“后台”
阿里通义实验室开源的MAI-UI项目正掀起一场静默革命,这款具备'看懂手机屏幕+主动操作任意APP'能力的通用智能体基座模型,将彻底重构移动互联网的交互逻辑。当AI能够自动完成从比价到支付的全套动作,产品经理们赖以生存的点击率、DAU等核心指标正面临崩塌,未来的产品设计将转向'以智能体为中心'的新范式。

这是一份迟到的“病危通知书”
就在七天前——2025年12月29日,一个足以改写移动互联网命运的技术项目,在GitHub上悄然开源。 没有发布会,没有热搜,甚至没上微博热搜前十。但如果你是产品经理、运营、交互设计师,或者任何一位靠“用户点击”吃饭的人,请认真听我说一句: 你的职业,正在被重新定义。
这个项目叫 MAI-UI(Multi-modal Agent for Interactive UI),由阿里通义实验室发布。它不是又一个聊天机器人,也不是简单的RPA工具。它是人类历史上第一个真正具备 “看懂手机屏幕 + 主动操作任意APP” 能力的通用智能体基座模型。
这意味着什么?
- 这意味着当你还在会议室里争论按钮颜色时,AI已经替你完成了从比价、下单、支付到发朋友圈晒单的全套动作;
- 这意味着当你的KPI还绑在DAU和点击率上时,用户的手指早已不再触碰你的界面;
- 这意味着过去十年我们奉为圭臬的“以用户为中心”的设计哲学,正在被“以智能体为中心”的新范式取代。
这不是危言耸听。这是技术演进的必然。而MAI-UI,就是那声划破长夜的枪响。
一、一声枪响——当AI长出了“手指”
1.1 事件回溯:一场静默的革命
2025年12月29日,阿里通义实验室在GitHub开源了 MAI-UI,同步发布了技术报告(arXiv:2512.22047)。 与以往AI模型不同,MAI-UI的核心能力不在“回答问题”,而在 “执行任务”。它通过多模态感知(视觉+文本+布局结构)理解当前屏幕内容,并基于强化学习生成精准的操作序列——点击、滑动、输入、跳转,甚至跨应用协作。
例如:“帮我查一下明天北京到上海最便宜的航班,如果低于800元就订下来,并通知我助理安排接送。”
- 传统方案: 需要用户打开航旅APP → 搜索 → 筛选 → 对比 → 支付 → 切换微信发消息。
- MAI-UI方案: 只需一次指令,即可自动完成全流程,全程无需人工干预。
1.2 技术突破:不只是“看得见”,更是“做得对”
MAI-UI的颠覆性在于两大核心技术:
- Visual Grounding(视觉定位): 能将自然语言中的对象(如“红色的‘立即购买’按钮”)精准映射到屏幕坐标,误差小于2像素。
- Action Mapping(操作映射): 将高层意图(“下单”)分解为底层原子操作,并动态应对界面变化。
更关键的是,它支持 MCP(Multi-app Coordination Protocol),允许智能体在淘宝、支付宝、日历、微信之间无缝跳转。这不再是“自动化脚本”,而是具备认知、决策与执行闭环的数字员工。
第二章:流量逻辑的崩塌——谁还需要点击?
2.1 流量经济的根基正在瓦解
过去二十年,移动互联网的一切商业逻辑都建立在一个简单前提上:用户必须亲自操作APP。 广告主买量,是因为用户会点击;产品经理优化漏斗,是因为每一步流失都意味着收入损失。
但现在,用户的手指可以彻底休息了。 当AI能替你完成90%的日常操作,你的“注意力”就不再是稀缺资源。 这直接导致:
- 点击率(CTR)失效: 没人点击,何来点击率?
- DAU/MAU失真: 活跃的是AI,不是人。
- A/B测试崩溃: 界面改动对AI行为的影响,与对人类完全不同。
2.2 案例推演:一个普通用户的2026年早晨
早上7点,小李的AI助手启动:
- 自动检查天气,发现降温 → 打开京东,下单一件羽绒服(预算内最优);
- 同步更新日历:今天有会议 → 打开高德,预约9点专车;
- 发现信用卡还款日临近 → 打开支付宝,一键还款;
- 最后,向老板的钉钉发送:“今日行程已同步,PPT初稿已完成”。
整个过程,小李仍在熟睡。 他的手机界面?只是AI执行任务的“后台日志”。 你的APP,正在沦为AI的“工作台”。
第三章:从“人”到“智能体”的角色迁移
作为产品经理,我们引以为傲的“同理心”“用户洞察”“交互细节打磨”,在智能体时代可能毫无意义。未来的PM,不再是“功能设计师”,而是 “智能体任务编排师”。
为了让你更直观地感受这种职业冲击,我们来对比一下**“差旅报销”**这个经典场景的重构。
3.1 传统做法(2024):API经济的囚徒
老板需求: 做一款企业差旅报销产品。
动作: 产品经理去谈携程、滴滴的API接口(商务谈判半年,接口费几十万);开发APP;用户买完票需手动截图上传,或者忍受API不稳定的掉单。
结果: 开发周期长,体验割裂,员工还在骂难用。
3.2 Agent编排做法(2026):零代码的降维打击
作为Agent PM,你决定不开发任何机票预订功能。你的工作是编排一个智能体脚本(SOP):
1)触发器设计: 监听手机短信。当收到“【航旅纵横】出票成功”的短信时,唤醒Agent。
2)视觉索敌(Visual Grounding):
- Agent自动后台打开“航旅纵横”。
- 利用MAI-UI识别屏幕上的“行程单”,精准抓取“航班号”、“金额”、“日期”。
3)跨应用操作(MCP逻辑):
- Agent自动打开“企业微信”。
- 模拟点击“工作台” -> “审批” -> “差旅报销”。
- 将抓取的“金额”和“日期”自动填入,并上传截图。
4)人机接管(HITL):
- Agent在屏幕弹窗:“老板,报销单填好了,总额2500元,确认提交吗?”
- 用户点击“确认”。
结果: 开发成本接近于零。没有API对接,没有后端开发,只有一个智能体SOP脚本。 你的护城河,不是APP功能,而是这套SOP的稳定性和智能化程度。
第四章:新战场在哪里?
如果Axure不重要了,那2026年的产品经理在哪里创造价值?
4.1 机会一:成为“智能体友好型”平台
那些率先开放 AI可操作接口 的平台,将获得先发优势。
- 美团:若允许AI直接透传参数下单,将成为本地生活首选代理;
- WPS:若支持“AI自动排版指令”,将巩固办公霸主地位。 谁能降低AI的使用门槛,谁就能成为智能体时代的水电煤。
4.2 机会二:构建垂直领域智能体
通用AI(如豆包、Kimi)擅长泛化,但垂直场景需要专业智能体。
- 医疗智能体:自动解读体检报告,预约专家号;
- 法律智能体:分析合同条款,提示风险点。 这些智能体需要深度理解行业逻辑,正是PM发挥专业壁垒的机会。
第五章:别慌!2026 PM 的三大新技能,明天就能开始练
很多同学看完前面的分析会感到焦虑:“我该学代码吗?我该转行吗?”
请冷静。你不需要变成程序员,但你需要学会用工程师的思维去设计业务。 MAI-UI 的开源不是末日,而是一张新地图——它告诉你:未来的PM,不再是界面的画师,而是智能体的编排者。 为了不被时代抛下,请从明天开始,点亮以下三个新的技能树。
技能一:学会“对AI说话”——结构化指令与语义基建(AIO)
【痛点】 AI虽然聪明,但最怕“模糊”。你PRD里的一句“优化体验”,AI是听不懂的。
【核心动作】AIO(AI Optimization) —— 为你的产品界面铺设“盲道”,让AI即使看不见代码,也能读懂意图。
【具体怎么做?】
1)学习 JSON Schema: 别被名字吓到,它就是一种“填空题”格式。试着把你现在的PRD需求,拆解成清晰的三元组:
- Input(触发条件,如“用户说‘订机票’”)
- Action(要执行的操作,如“打开航旅APP → 搜索北京到上海”)
- Output(预期结果,如“返回航班列表或错误码”)
2)配置语义标签: 在你的 Figma 或 Axure 备注里,不再只写给UI看(“这个字要大”),而是写给AI看:
- “这个数字字段是 final_price”
- “那个弹窗是 stock_warning,出现时需暂停操作并上报异常”
明日行动: 打开你正在做的一个功能,尝试写一份 “Agent说明书”。假设使用者是一个看不到屏幕、只能听指令的盲人,你该如何描述每个按钮的绝对语义?(例如:“红色圆形按钮,位于右下角,点击后提交订单,不可逆”)
小贴士: 虽然 Coze 和 Dify 目前基于通用大模型,但它们的工作流设计理念与 MAI-UI 完全一致。掌握这些,就等于掌握了智能体编排的“通用语法”。
技能二:学会“编排”——工作流与状态机设计
【痛点】 AI很“轴”,容易死循环。它需要清晰的 SOP(标准作业程序),而不是一堆零散页面。
【核心动作】SOP Orchestration —— 你不再是画页面跳转图,而是画业务逻辑流程图。
【具体怎么做?】
1)理解状态机(State Machine): 所有任务都有“起点→流转→终点”。例如退款流程:
- 提交申请 →(若商家同意)→ 退款成功
- 提交申请 →(若商家拒绝)→ 转人工客服 → 仲裁处理
2)上手低代码平台: 去玩玩 Coze(扣子)、Dify 或 LangChain。尝试亲手搭建一个简单的 Bot。这会让你瞬间理解什么是“Prompt”、什么是“工作流”、什么是“API调用”。
明日行动:不要写代码! 去 Coze 上创建一个“周报生成助手”:
1)配置它读取飞书文档
2)总结本周重点
3)生成 Markdown 格式
4)自动发送到指定群 亲手跑通一次,胜过看十篇教程。
技能三:建立“仿真沙盒”——评估与风控设计
【痛点】 智能体最大的风险是“发疯”(幻觉)和“闯祸”(误操作)。一次乱点“确认转账”,可能让用户倾家荡产。
【核心动作】Eval Design —— 你是AI的考官,也是它的安全员。
【具体怎么做?】
1)设计“坏案例”: 以前我们测 Bug,现在我们测 Prompt。你需要主动设计 100 个刁钻场景(Corner Cases)去“攻击”你的 Agent:
- “如果价格显示为‘¥–’怎么办?”
- “如果支付页面突然弹出广告遮挡按钮呢?”
2)设计 HITL(Human-in-the-Loop): 明确界定“红线”:
- ✅ AI 可自决: 查天气、设闹钟、比价
- ❌ 必须人类确认: 转账 >500 元、删除账号、发送含隐私的消息
- 设计那个“确认弹窗”的触发逻辑,就是PM的新价值。
明日行动: 列出你业务中绝对不能出错的 5 条红线(例如:不能泄露用户手机号、不能私自修改订单金额)。思考如何通过规则限制,确保 Agent 在这些红线前自动刹车。
重要提醒:不是所有事都该交给 AI
高频、标准化、低风险的任务适合自动化; 而涉及情感、审美、伦理或复杂权衡的场景,人类仍是主角。
你的核心能力,不再是“把按钮做得多好看”,而是: 判断“何时交出控制权,何时必须亲手接管”。 这才是智能体时代,PM 不可替代的价值。
结语:潮水退去,裤子还在吗?
三年前,ChatGPT发布时,我们问:“AI会取代我吗?” 三年后,MAI-UI开源时,我们该问:“我准备好为AI服务了吗?”
这场变革不会等待犹豫者。 那些还在纠结“按钮要不要圆角”的PM,终将被时代抛下; 而那些敢于重构思维、拥抱智能体范式的先行者,将定义下一个十年。
MAI-UI尚处早期,但它揭示的方向无比清晰: 移动互联网的“人本时代”正在落幕,“智能体时代”已然启幕。
作为产品经理,我们曾是用户体验的守护者; 未来,我们要成为智能世界的架构师。
别再画原型了。开始编排智能体吧。
本文由 @世乡 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议

起点课堂会员权益





博主太厉害了,分析的头头是道,比心
进一步来看,未来的科技公司只需提供底层服务能力,而AI操作系统自动生成界面让用户确认和简易操作即可,等于AI接管了所有前端操作,所有公司都接入一个与用户交互的大模型即可提供服务。这个时候谁控制这个与用户对接的大模型,谁就是垄断玩家了。
基于这个判断,未来产品经理、设计师、前端、产品运营等岗位会迎来重大变化,甚至从此消失。所以需要在新的AI大模型中重新找到定位。