当“越野车”闯入围墙:Step-GUI开源背后,一场从“递刀”到“修路”的行业突围
当超级App筑起高墙封锁AI助手时,一场关于互联网控制权的隐秘战争正在上演。从字节跳动的豆包手机助手到智谱AI的开源军火,再到阶跃星辰的Step-GUI端侧突围,这场战争正在重塑数字世界的交通规则。本文深度解析API与GUI Agent的终极博弈,揭示从效率革命到商业防御背后的深层逻辑。

序章:地铁与越野车——关于“路权”的终极隐喻
常有人质疑:“都2025年了,让AI去模拟人类点击屏幕(GUI)是不是太笨了?直接调API或者用协议不是更高效吗?”
这让我想起一个绝妙的类比:地铁确实比汽车高效,运载量大、不堵车,但为什么人类还需要汽车?因为地铁只能去那些铺了铁轨的地方。
API就是数字世界的“地铁”,它依赖于App开发者预先铺设好的铁轨,稳定但有限。但在现实的荒原里,还有海量的老旧软件、封闭的网页、临时的弹窗。
GUI Agent就是那辆“越野车”。 它不需要等待铁轨,只要人眼能看到的界面,它就能开过去。
前天,阶跃星辰(StepFun)开源了Step-GUI,甚至直接把这辆车开到了手机芯片里(端侧部署)。作为一个在行业摸爬滚打十年的产品人,我看到的不仅是一个4B模型的开源,而是一场关于“互联网控制权”的隐秘战争,以及一条“理想与现实妥协” 后的落地之路。
一、冲突:从“抢占时长”到“极致效率”,超级App的商业噩梦
故事要从字节跳动的“豆包手机助手”说起。当它展示出“一句话自动发微信、订机票”的能力时,用户沸腾了,但行业内却感到了一阵刺骨的寒意。
你可能注意到了一个细节:在豆包助手展示了惊艳能力后,短短几天内,互联网巨头们仿佛开了一场“闭门会议”。大家心照不宣,不约而同地开始进行封锁。
紧接着,OPPO等手机厂商开始弹出“安全风险提示”,限制辅助服务权限,理由是“由于模型机/概念机的不确定性”。
表面看这是为了用户安全,把锅甩给了“试验机”,实则是商业模式的“降维打击”。。但作为一个在行业里摸爬滚打十年的产品人,一眼就能看出背后的博弈:超级App(微信、淘宝、支付宝、银行)慌了。
豆包手机助手的出现,让它们感受到的不只是技术的挑战,更是商业模式的灭顶之灾。
在过去的移动互联网十年,核心逻辑是“注意力经济”。微信、淘宝、抖音,它们的KPI是DAU(日活)和使用时长。它们设计了复杂的“围墙花园”和商业迷宫,目的是Kill Time(杀时间) ,因为时间就是流量,流量就是广告费。
然而,AI Agent的逻辑是反人性的——它是“效率经济”,目的是Save Time(省时间) 。
- 用户的诉求是:“帮我买票,最快的。”
- AI的做法是:直奔后台接口或模拟点击,瞬间完成,没有任何多余动作。
这就导致了一个让巨头“无法容忍”的后果:当AI绕过了App的UI界面,它实际上也绕过了所有精心设计的“商业税收节点”。
- 用户不打开App,开屏广告谁看?
- AI直接下单,推荐算法怎么诱导冲动消费?
- 原本停留10分钟的操作,AI在后台1秒搞定。
一旦AI成为“上级入口”,超级App就会瞬间沦为纯粹的“哑管道”(DumbPipe)。这场封锁与反封锁的战争,本质上是流量主权的生死保卫战 。
二、转折:智谱的“平民化运动”——当神仙打架,有人在旁边递刀子
在超级App筑起高墙、试图把豆包这种“挑战者”挡在门外时,战局出现了一个最大的变量:智谱AI(ChatGLM)的开源。
在智谱开源之前,AI战场是属于巨头们的“贵族决斗” :具备“视觉理解+复杂规划”能力的多模态模型,是只有OpenAI、字节、百度这种大厂才玩得起的“重型武器”。动辄上亿的训练成本,极高的技术门槛,让这场战争与普通人无关——巨头们在天上打架,普通开发者只能在地上看戏,连入场的资格都没有。
但智谱做了一件改变生态位的事:它把“重型武器”平民化了。
通过开源GLM-4V等高性能模型,智谱实际上是在搞一场“AI界的军火大派送” 。它对所有的独立开发者、中小企业说:“你们不需要造发动机,我把图纸和零件都给你们,你们拿着去造自己的车” 。这在巨头看来,简直就是“看热闹不嫌事大”的煽风点火,更是一种赤裸裸的“递刀子” 行为。
智谱的开源,彻底打破了只有大厂才能做OS级Agent的垄断。它告诉市场:GUI操作能力不再是黑科技,而是基础设施。 这直接导致了封锁策略的失效——超级App可以封锁一个豆包,但它们无法封锁千千万万个由开源模型武装起来的“游击队”。
三、推进:阶跃Step-GUI的入局与“端侧突围”
正是在智谱把“刀”递出去,把水搅浑之后,阶跃星辰(StepFun)顺势推出了Step-GUI。
如果说智谱给的是一把“通用瑞士军刀”,那阶跃开源的Step-GUI就是一把“精密的开锁器” 。根据最新披露的信息,这不仅仅是一个模型,而是一套针对封锁的战术体系,把“破墙”的能力武装到了手机芯片级。:
- 端侧部署(Step-GUI Edge):这是最狠的一招。模型直接运行在手机芯片上,不走云端。这意味着超级App很难通过网络层进行拦截,且隐私数据不出手机,解决了企业最大的顾虑。
- MCP协议(模型上下文协议):阶跃不只是给工具,还在定标准。它试图建立一套通用的“驾驶规则”,让Agent在不同App间穿梭变得标准化。
更致命的是,豆包作为“先驱”已经打开了潘多拉魔盒。用户一旦体验过“一句话订咖啡”、“动动嘴就能订票转账”的爽快,就再也无法忍受在十几个App之间来回跳转的繁琐。这就像是你也无法让一个用惯了iPhone的人,重新退回到全键盘的黑莓时代。“递刀子”的技术加上“回不去”的体验,让这场围剿战从一开始就注定了结局。
四、落地:从“理想主义”到“API+GUI协同”的务实进化
但作为一个老产品人,我们必须诚实地面对现状:光有“越野车”是不够的,因为路实在是太难走了。目前的行业现实是:纯粹依靠大模型进行GUI(视觉)操作,在通用场景下的准确率往往只能达到50%-60%。这意味着,你让AI去“随便点一个App”,它有一半的概率会点错、卡死或者找不到按钮。这种稳定性,在C端只能当玩具,根本没法商用。
所以,现在的破局点不在“全能”,而在“垂直”;不在“纯GUI”,而在“API+GUI协同”。这就是为什么阶跃要强调那200+个App的适配,也是为什么“出海数据分析” 这类垂直赛道会成为第一波落地的金矿。正是遵循了一个可行的“落地公式”:
1)锁定垂直战场:比如针对跨境电商(出海)场景,我们只需要搞定Shopify、亚马逊后台、TikTok Ads等约100款常用软件。
2)建立垂直Benchmark:在通用领域拿60分没关系,我们针对这100款软件建立专门的数据集,进行专项微调(SFT)。
3)API+GUI 混合双打:
- 有API的(铁轨):优先调接口,保证100%的稳定和高效。
- 无API的(荒野):启用Step-GUI这种视觉模型,去模拟人工点击。
4)人机协同(Human-in-the-loop):在AI拿不准的时候(置信度低),弹窗请求人工确认,通过一次次的人工反馈(RLHF),把针对这100款软件的操作准确率从60%硬生生拉到99%。
这才是Step-GUI开源的真正价值。 它不是要立刻取代人类,而是给开发者提供了一个“补丁”。在API无法触达的地方,用GUI去填补;在GUI不准的地方,用垂直训练去拉升。
五、深层逻辑:跨越“最后一公里”,解锁10倍能效跃迁
讲到这里,我们需要跳出工具层面,重新审视一下:我们费这么大劲搞GUI Agent,到底是为了什么?
这里涉及到一个核心的价值判断:大模型(LLM)与智能体(Agent)究竟是什么关系?
- 大模型是“大脑”: 随着Scaling Law(缩放定律)的持续扩展、多模态融合的突破,以及世界模型(World Model)和复杂推理能力的提升,大模型已经为我们提供了一个强大的语义理解和逻辑推理的“可计算框架”。
- 智能体是“手脚”: 大脑再强,如果不能调用外部工具去解决实际问题,就无法创造物理世界的价值。
这就是为什么“最后一公里” 的问题如此致命。 过去,我们的模型很强,但手很笨(无法精准操作界面),导致“脑强手弱”,应用只能停留在聊天框里。而Step-GUI这类开源项目的出现,本质上是在补全这“最后一公里”的短板。
一旦这“最后一公里”被打通,我们将迎来能力的质变: AI不再只是一个Copilot(副驾驶),而是真正的Agent(代理人)。它将利用具身智能(Embodied AI)的逻辑,在数字世界里像人一样去感知、规划、行动。
对于行业而言,这不仅仅是省了几个点击的问题,而是效率的指数级爆发。当一个Agent能以毫秒级速度、24小时不间断地在数百个SaaS系统间自动流转数据时,我们谈论的不再是提升10%的效率,而是10倍(10x)以上的生产力质变。
终章:数字世界的“基建补全”
回到最初的比喻:未来的数字世界,不会只有一种交通工具。
- API是地铁:高效、稳定,承载主干道流量。
- GUI Agent是越野车:灵活、强悍,解决“最后一公里”的泥泞。
阶跃星辰开源Step-GUI,不是为了取代API,而是为了补全这张交通网。
接下来的故事,不会是AI一夜之间接管手机,而是成千上万个开发者,在各自的垂直领域(无论是跨境电商、财务报销,还是工业控制),利用开源的“越野车”和既有的“地铁”,一点点搭建起准确率99%的专用Agent。
这把刀已经递到了每个人手里,但能雕刻出什么作品,现在才刚刚开始。
本文由 @徐浩楠 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




