深度讨论 OpenClaw:高价值 Agent 解锁 10x Token 消耗,Anthropic 超越微软之路开启

0 评论 164 浏览 0 收藏 42 分钟

OpenClaw爆火背后,高价值Agent正在重塑人机分工方式。从Token消耗量激增到Infra刚需,从SaaS存亡之争到Agent泛化路径,这场讨论揭示了2026年AI行业的深层变化。软件会被吞噬还是退化为工具?

讨论主题:OpenClaw

参与嘉宾:拾象 Best Ideas 社群

2026 年刚过去一个月,一大波高价值 Agent 已经扑面而来,并在真实使用场景中展现出远超预期的效果。从 Cowork、Clawdbot(OpenClaw) 到 Claude in Excel,这些产品不再只是“更聪明的助手”,而是开始直接接管复杂任务、嵌入核心工作流,对既有的 SaaS 形态与人机分工方式形成实质性冲击。

本文是上周日我们组织的一场 Best Ideas 深度讨论的总结实录,我们讨论的关注点并不仅仅局限在单点产品体验上,而是从更底层的视角出发,对 Agent 的价值边界、Infra 机会、2026 年 token 大爆炸以及商业模式变化等重要问题进行了观点碰撞:

1. OpenClaw 最大的巧思是预装了 Claude Skills;

2. Excel 是生产力的放大和延伸,Cowork 和 Claude Code in Excel 会打开“10x 微软”市场;

3. 高价值 Agent 必须由行业专家主导,一定会切分企业工资预算;

4. Token 消耗量才是衡量 AI-native 程度的核心指标;

5. 开源模型“下限达标”是 Token 消耗暴涨的重要动力,2026 年 Token 用量至少有 10x 增长;

6. 软件究竟是会被吞噬,还是会退化为底层的工具和数据库?

7. 三个让 Agent 真正泛化的推演路径。

希望这份来自 Best Ideas 社群的阶段性总结,能够为 AI 从业者提供一套更接近现实约束的思考框架,帮助理解 Agent 时代正在悄然发生的深层变化。

Insight 01 这一波 Agent 爆发的“高价值”体现在哪里?

两个月前市场还存在对“AI Bubble”的担忧,但 Agent 在最近一两个月的行业进展,尤其是在高价值任务上的表现,让大家感觉完全消除了这一顾虑。今天高价值的任务还是沉淀在知识工作者,这其中最重要的是 coder,然后是高级白领,也就是操作 office、做前端建站、做数据分析的人。

Clawdbot(OpenClaw)、Claude Code、Cowork 和 Claude in Excel 是最近一个月内讨论度最高的几个产品。

OpenClaw:最大的巧思是预装了 Claude Skills

Clawdbot 是一个开源、自托管的个人 AI 助手,可在电脑或服务器上本地运行,并通过 WhatsApp、Telegram、Discord 等平台与用户交互、自动执行任务。该项目最初名为 Clawdbot,因名称与 Anthropic 的 Claude 商标过于相似,Anthropic 要求项目方更名;项目随后短暂改名为 Moltbot,最终确定使用 OpenClaw 作为名称。

OpenClaw 的巧思体现在以下三个方面:

1. 真正能在 Personal 的基础上做到 Long Horizon

相比于 Claude Code 存在会话时长和算力成本的约束,OpenClaw 可以部署在用户的本地设备(如 Mac Mini)或云端虚拟机上,实现 7×24 小时的持续运行。这让它从一个“召之即来”的工具,变成了一个持续存在的 Proactive Agent。例如,它可以全天候盯着股票市场或监控特定任务,一旦发现机会就主动推送信息,或者定时在后台跑数据分析任务。

2. 通过 IM Gateway 直接嵌入了用户的日常沟通流,扩散效果天然比其他 Chatbot 工具好

OpenClaw 基于 IM Gateway 可以接入 Telegram、Slack、WhatsApp 甚至飞书等用户高频使用的产品,在很多传播很广的应用案例中,我们也能看到大家是直接基于 IM 来“指挥” agent 工作。

而在“移动指挥,本地执行”的架构下,OpenClaw 也顺势解锁极具价值的混合场景:例如,用户在通勤路上需要写文章,但所有的素材文件都存储在家里的 Mac Mini 上。通过 IM Gateway,用户可以在手机上发送指令,Agent 在家中电脑上检索本地文件夹、读取素材、完成写作并返回结果。

3. 将 Claude Skills 这一套生态真正预装到产品中

客观来说前面两个巧思其实之前也有不同的 Agent 做过,所以 OpenClaw 将 Claude Skills 这一套生态真正预装到产品中是它最成功、也最契合 timing 的设计巧思,这有点像于早期智能手机预装应用超市和 Use Case 来教育用户如何使用智能机一样,来降低用户的使用门槛。

OpenClaw vs Manus:谁是 Agents 的“标准答案”

在这一波强调真实任务执行能力的 Agent 产品中,Manus 往往被视为较早跑通 PMF 的代表。那么 OpenClaw 的 magic moment 是否意味着 Manus 只会是一个“中间态”吗?

从形态和使用入口上来看:

• Manus 可以抽象类比成“Anthropic 的 To C 业务”,走的是中心化、提供“交钥匙”体验的路线(如云端统一分配 8000 台虚拟机),用户无法配置底层环境;

• OpenClaw 则代表了去中心化、高度可配置的路线,用户可以自定义环境和资源,具有多样性和适应长尾需求的能力,而且去中心化带来的另一个优势是能够更有效地利用各种分散的硬件资源(如个人闲置的 Mac Mini 或各类云资源)。

也因此,会有观点认为 OpenClaw 在未来可能具有更大的潜力和生命力。

但也有不同的声音认为,OpenClaw 和 Manus 之间不是取代关系,两者可能有不同的 use case,是动态演化的过程:

1. 云端虚拟机本就是 OpenClaw 的理想载体,而 Manus 这种使用云端虚机跑任务的模式,本质上只是把 Agent 逻辑装进去,技术架构上并不存在不可逾越的鸿沟;

2. Manus 经过一年的运行,已经积累了大量经过验证的高价值用户场景数据,这构成了极高的认知壁垒。对于外部观察者而言,高价值场景可能只是感性的理解,但对 Manus 而言是可以直接统计和复用的资产。Manus 完全有可能基于这些数据,反过来为 OpenClaw 这一类的高价值场景提供标准化的服务。

有一个非常有趣的现象是可以更具像化说明。

在 OpenClaw 爆火之后,大量教程都提到需要通过 Mac Mini 来专门运行 OpenClaw,其实不只是 16GB 内存和 CPU 的配置需求,更重要的是获得了一套成熟的操作系统、文件系统和完整的本地权限。相比于购买云服务器,Mac Mini 在本地部署 Agent 不仅性价比更高,而且能够无缝读取本地的所有文件、代码库甚至私钥,没有云端环境各种复杂的权限限制。

但也有人指出,随着 Infra 的成熟,未来 Agent 的终局形态大概率仍是运行在云端的、持久化的虚拟机中,而非依赖本地物理硬件。因此购买 Mac Mini(或其他硬件作为服务器)可能只是过渡形态。

Cowork 和 Claude Code in Excel 会打开“10x 微软”市场

Anthropic 最近发布的两个产品:Claud Code Cowork 和 Claude in Excel 都是瞄准在高价值场景,这确实也和 Anthropic 一直以来的产品策略很同步。如果说 OpenAI 是“下一个 Google”,Anthropic 则是“下一个微软”,甚至会因为 Coding 能力上的领先打开 10x 微软的市场。

Cowork 是 Claud Code 的自然延伸

Anthropic Claude Code 的核心理念是 “Code is everything,Bash is all you need”。

具体来说,它并没有选择为 Agent 专门开发一套复杂的 GUI 或者中间工具,也就是说不为 Agent 设计太多人本身要用的东西,而是直接利用计算机最原生的命令行(Bash)来执行读取文件、批量处理、运行脚本等任务。而且 Claude Code 还能够访问本地文件,能够获取更多的 context,从而实现个性化。

Cowork 是 Claude Code 的自然延伸,这类产品之所以在现在能跑通,本质上依赖于 Opus 4.5 能力的飞跃(Token 消耗小而执行任务成功率高),使得 Coding 领域的 AGI 在事实上已经达成,因此接下来要考虑的就是怎么把 Coding 领域的 AGI 外化到更多高价值任务的场景上。

Excel 是生产力的放大和延伸

Excel 被普遍认为是商业世界中最接近编程的工作界面,是数据分析的标准载体,但它和 Coding 不是正交的关系,而是生产力的放大和延伸,因为它覆盖的人群比 coding 人群更大、更广。

Anthropic 选择 Excel 作为切入点,是一个极具战略眼光的卡位。这个产品的核心逻辑是利用 Agent 通过代码直接操作数据,从而绕过传统软件复杂的 UI 交互。以前需要人类打开 Excel 软件、点击按钮完成的分析工作,现在变成了 Agent 在后台直接通过代码对 Excel 文件进行操作并交付结果。

这种模式可能对微软 Office 等传统软件构筑的“界面壁垒”构成降维打击,因为未来的操作者不再是人,而是 Agent。

不过,需要注意的是,办公软件本质上是一套标准传输格式(比如 .xls、.pptx、.pdf、.docx 等)和沉淀了人类经验的图形化界面。Agent 的可控生成能力虽然会重构 GUI,将文件的创建方式从人工点击转变为自动生成。

只要信息需要在不同环境(如无网环境或不同设备)的上下游之间流转,标准传输格式就是不可或缺的载体:就像当年 Google Docs 虽然改变了协作方式,但因下游消费者仍需使用 Office,文件最终还需回到标准格式进行传输,因此市场上的文件数量并没有减少,反而在变多。

所以 Claude 集成进 Excel 意味着它会生产出更多的 Excel 文件,这实际上是一个正和游戏而非零和博弈。

尤其在数据和金融等对准确性要求极高的场景下,只要 Human-in-the-loop 的校验机制依然存在,人类就需要打开一个界面去确认数据。这意味着 Agent 无法完全脱离宿主,而不得不以插件的形式嵌入到 Excel 等成熟生态中,利用这些沉淀了数十年、几代人习惯的标准界面来完成最后的人工确认环节。

在这个过程中,变化的仅仅是文件的“创建者”:以前是人类打开软件一个个点击生成,现在变成了 Agent 在后台批量生成和交付,软件的入口和操作权正在从人类手中转移给 Agent。

因此,这一模式对试图从 Excel 中切分蛋糕的 SaaS 公司(如 Airtable 这种多维表格)构成的冲击可能比对微软更大。因为这些公司本质上是在切分 Excel 中的数据分析功能,而这正是 Agent 最擅长的。

高价值 Agent 一定会切分企业工资预算

尽管今天大多数基础模型厂商的整体 ROI 仍为负值,且一个模型基本只有 1-2 个季度的生命周期,但 Claude Code 的出现提供了一个新思路:可以通过高质量的“配套产品”来增厚模型的生命周期价值。有观点推测,Claude Code 作为一个高溢价的 Coding Agent 产品,单体 ROI 很可能已经转正。

过去用户在 C 端习惯的订阅价格通常是 $20/月,或者是稍贵一点的 $200/月。但事实上,已经有团队目前人均 Token 消费已经达到了 $500/月的水平,市场已经开始出现并酝酿定价在 $1000 – $2000/月的高价值 Agent 服务。

这一价格跃升背后的逻辑是,Agent 提供的不再是简单的辅助功能,而是能够替代或大幅增强专业人力的“高价值任务”执行能力。因此,Agent 的定价策略开始脱离传统的 SaaS 软件逻辑,向“数字员工”的价值靠拢。

随着定价的跃升,Agent 的收入来源也在发生根本性的转移。以前,无论是 C 端互联网还是 B 端 SaaS,本质上切分的往往是企业的营销预算或 IT 软件预算。然而,高价值 Agent 的出现让这块天花板被大幅打开,它开始切分企业庞大的工资(劳动力)预算。

也就是说,当 Agent 能够独立完成 coding、数据分析甚至全天候盯盘等工作时,企业支付的不再是软件使用费,而是购买劳动力所支付的薪酬。

不过就当下来看,即便今天搭建一个 Agent 的门槛已经非常低,但要判断 Agent 产出的内容(如短剧剧本、视频分镜)是否合格,需要极深的行业 Know-how(如导演的审美)。因此,未来的高价值 Agent 必须由真正的行业专家主导,因为只有他们具备极深的行业 Know-how,才能做好 Context Engineering,精准地向 Agent 描述任务背景和约束条件,并具备“评估”AI 产出质量的能力。

Insight 02 2026 年 Token 用量至少有 10x 增长

Claude Code、Cowork 这些高价值任务 Agent 能完成人类在办公室需要一两天甚至两三天才能完成的工作,相对应,这些高价值带来的 Token 消耗的量级已经在发生质变。例如,有开发者分享了一个数据:某个处理图片、视频的 Agent 产品,Claude code 的成本消耗量是大于 Nano Banana 和 Veo 的。

因此,一个激进但又合理的预测是:相比 2025 年,2026 年的 Token 消耗量预计将有 10 倍甚至更多的增长?甚至还会是一个更夸张的速度。

“Token 消耗量至少翻 10 倍”也是拾象 2026 关键预测之一,Long-horizon task、Proactive Agents 以及多模态三条技术主线都会是 Token 消耗大爆炸的 drivers。

开源模型“下限达标”是 Token 消耗暴涨的重要动力

过去一年,开源界都在拼命构筑“上限”,但对于大规模应用而言,单纯的上限突破意义有限,只有当能力的“下限”被抬高到稳定可用的水平时,商业化才成为可能。

因此,就有人提到智谱 GLM-4.7 的发布具有巨大的历史意义,它标志着开源模型历史上第一次真正触达了在 Coding 和 Agentic 场景中的“可用下限”。

这一拐点也彻底改变了行业的商业逻辑:过去几年,全球厂商本质上都是依附于 Claude、ChatGPT、Gemini 等闭源巨头的生态上下游来赚钱的,而一旦开源模型跨过了这个“可用下限”,无论厂商处于什么赛道,都有机会直接通过开源模型进入市场并建立独立的盈利闭环。

正是由于“下限”达标,2026 年开源模型的 Token 消耗量将迎来“大爆炸”

• 有开发者在实测体验上,在 Claude Code 环境中运行 GLM-4.7 时,虽然部分能力仍有提升空间,但它首次带来了“无感”的使用体验,不再像以前的模型那样需要开发者费心驾驭。

• 有观点表示 Kimi K2.5 模型的逻辑非常干练,并已具备 Multi-Agent 并发处理能力,能够支持任务复杂度呈指数级上升的场景,足以扛住一般的应用开发需求。

开源模型的崛起也将逐渐通过蚕食中低端市场,倒逼闭源厂商加速冲击能力上限。值得注意的是,产业界对“下限”的要求并非一成不变,而是会随着技术上限的提升而水涨船高。这就好比 2023 年基于 GPT-2 微调做客服的创业项目,虽然曾短暂领先,但很快就被 GPT-3 带来的更高基准所淘汰。

因此,仅仅基于当前的“下限”构建商业模式是不可持续的,因为随着用户预期和技术水位的整体上移,昨日的“够用”很快会变成明日的“落后”,这要求应用层必须紧跟模型能力的演进。

Token 消耗量才是衡量 AI-native 程度的核心指标

真正的 AI 原生就是看谁能通过使用大量的 Token 来解决复杂问题,使用 Token 的比例越大,说明越 AI Native,如果还在用 UV 或日活看业务,说明还在沿用旧的逻辑。

按模型类型划分的每周 Token 使用量,Source:OpenRouter

具体来说,过去大家用大模型写一篇文章或回答一个知识库问题,消耗的 Token 量是很少的。但现在,无论是 Manus 还是 Claude Code,运行模式都是给 Agent 一个任务,它通过自己写一段代码、跑一个环境、计算一个结果再交付给用户,为了解决这一个问题所消耗的 Token 量是传统 Chat 模式的百倍甚至千倍。未来绝大多数 Token 都会以 Coding Agentic 的形式消耗掉。

目前已有好几个单用户 Token 日均消耗达到 billion 级别的案例出现,但不是靠单人,而是靠工程拉动的。有观点甚至预测,随着 Agent 自动完成任务的能力增强,未来单人控制的 Agent 在理论上消耗 10B 甚至更高量级的 Token 将不再是难事。

还有观点认为,现在 Token 与 Token 之间开始变得不等价:

• 以前需要 300B 甚至更大参数模型才能完成的任务,现在 30B 甚至 8B 的模型就能胜任。模型“压缩”带来的质量提升,使得小参数模型的 Token 价值在快速逼近大模型,而且未来大量的 Token 消耗可能会下沉到端侧(如手机、短视频应用);

• 推理侧出现了像 Cerebras 这样不依赖英伟达 GPU 的专用芯片,Token 生成速度非常快,和英伟达芯片场景下的 Token 概念也不太一样。

总的来说,市场对 2026 年全球 Token 消耗量持极度乐观态度,唯一的制约瓶颈可能在于硬件供应。去年的状态是部分 GPU 可能还存在卖不出去的情况,但在今年 Agent 爆发的驱动下,预计未来一年内 GPU 将再次进入“买不到”的紧缺状态。

Insight 03 给 Agent 设计的 Infra 是刚需

一个相当肯定的事实是,未来一定是人类用户和 Agent 在数字世界共存共治,但今天的互联网 infra 对 Agent 实际上处于一种“敌对”状态,核心原因是因为现有的数字世界原本是为人设计的,而非为 Agent 设计的:

• Agent 很难顺畅地执行跨平台任务,它们经常遭到像 Cloudflare 这样的防火墙拦截,网络 IP 也会被封锁;

• 今天的 Cyber Security 产品也没有做好为 agents 服务的准备,agents 处于一种缺乏专门安全、审计、支付接口以及适配浏览器环境的“裸奔”状态;

• Agent 执行长程任务时的脆弱性。

一个典型的例子是,当用户试图让 Agent 遍历并总结 X 列表上的所有观点时,由于任务链过长,Agent 经常会中途“断片”。这其实说明当下的 Infra 尚不足以支撑大规模列表任务的连续性,导致任务无法自动闭环,往往需要人类反复介入才能继续推进。

更深层来看,这种 Infra 缺失也是交互关系的倒置的体现。理想的 infra 本应让 Agent 适应人,但目前的体验却是人适应 Agent:用户发现自己经常需要停下来,耗费大量精力为 Agent 喂入正确的上下文或定位底层的 Bug。

这还引发了一个有趣的悖论:当 Agent 在云端并发全力跑起来时,机器的执行速度太快,以至于人类的灵感、决策和反馈速度反而跟不上。在追求极致效率的闭环中,人反而成了全流程中最慢的一环。

Infra 的缺失反过来催生了巨大确定性新机会:

• Infra of Agent:构建 Agent 的 Infra;

• Infra for Agent:给 Agent 用的 Infra。

这其中包括专门为 Agent 优化的浏览器环境(如 BrowserUse)、专用网络和支付系统。例如,有开发者做了一个专门为 Agent 设计的浏览器界面,能显著节省 Token 消耗并提升任务成功率,甚至因此吸引了来自 ChatGPT 的大量请求。

更进一步,还有一个相当高阶的 Infra 需求:主动对齐。

目前的 Agent 大多是被动接收指令,但人类往往无法精准描述自己的深层上下文。未来的 Infra 需要具备“建模用户”的能力,即 Agent 能够主动构建用户的数字分身,理解用户的思维习惯和隐性知识,而不是每次都要用户费力地写 Prompt 来对齐 AI。现在字节跳动等大厂正在探索相关产品,试图通过工具自动优化用户的指令,并联动模型 Post-training 的能力,来主动“对齐”人类的深层需求。

此外,随着 Agent 任务复杂度的指数级上升,Agent 运行可能会带来 CPU 负载的回潮,但这里的商业价值更倾向于产业链的自然延伸,虽然 Agent 从 Code Interpreter 到 Sandbox 的演进确实推高了 CPU 的使用量,但并未构成高壁垒的独立机会,原因在于:

• Agent 沙盒的进入门槛非常低,不仅传统云厂商,OpenAI、Anthropic 等模型厂商都能原生提供容器服务。

• 相比于 GPU 的紧缺,CPU 目前供应充足且基建成熟(支撑 10 万级并发非常容易)。云厂商在这一方向的定价几乎没有溢价,利润空间有限。

• 沙盒的终局形态是轻量级的瞬时容器(跑完即毁),还是需要持久化、带 GUI 的重型环境,目前尚不明朗。

Insight 04 我们正在进入“隐私换效率”的时代

为了追求极致的效率和生产力,用户(尤其是开发者和极客群体)对隐私和权限的观念正在发生根本性的范式转移,也就是说,为了让 Agent 能更好地理解个人上下文并自动执行任务,大家开始愿意让渡极高的权限。

• 有开发者正在尝试让 AI 直接操作用户的股票账户,进行策略编写、回测甚至实盘交易,有观点认为这可能是目前能找到的最高价值 Agent 任务之一。

• 更典型的例子发生在 OpenClaw 的使用上:用户为了获得更快的上下文对齐,直接赋予 Agent 读取本地所有文件的权限。有用户发现,Agent 在检索过程中甚至从硬盘的角落里翻出了他的 Web3 钱包公钥和私钥。面对这种“裸奔”的风险,该用户的反应却是:既然它都找到了,不如直接引导它去去中心化交易所(DEX)上跑几笔交易。

这种为了便利而全盘托付“身家性命”的现象,或许标志着我们正在进入一个“隐私换效率”的激进时代。

但这种激进的尝试也已经带来了惨痛的代价。比如一位博主曾让 OpenClaw 在 Polymarket 上执行下注任务,预测“美国政府月底是否会停摆”,原本设定的单次下注额度是 500 美金。但由于 Polymarket 这样的平台 infra 尚未准备好为 Agent 服务,平台接口没有返回明确的“下注成功”参数。这导致 Agent 误以为任务失败,于是不断重试,最终重复下注了 40 次,总投入金额高达 1.8 万美金,第二天事件反转后,该博主直接亏损了 1.4 万美金。

总的来说,当前的 Agent 生态正处于类似互联网早期的“田园时代”,用户为了便利在某种程度上是在“裸奔”,随着用户群体从早期单纯由好奇心驱动的用户转向大众,恶意软件和钓鱼攻击等安全威胁势必会大幅增加。

行业可能需要经历几次严重的安全事故作为教训,才能真正重视安全。

Insight 05 The End of SaaS?

激进派:软件将被吞噬

“Software is being eaten”虽然激进,但确实是相对主流叙事,尤其是最近美股市场上 SaaS 被普遍看空。

这一观点的核心逻辑是:今天大家研究如何让 Agent 去操作为人类设计的交互产品(如点击按钮、填写表单)是错误的方向。软件本质上只是流程的载体,当 Agent 能够直接操作数据和 API 时,那些专门为人类设计的复杂 UI 以及中间的业务逻辑封装(如审批流、填表)将变得毫无意义。Agent 会直接绕过这些“中间态”,去接管任务。

因此,随着 Agent 接管的任务越来越多,“中间态”市场空间都将被极度压缩。目前的 AutoGLM 或 BrowserUse 等尝试,本质上都只是从人操作软件到 Agent 操作数据过程中的过渡形态。

随着 Agent 可以接管代码,传统软件开发中的精细化分工(前端、后端、测试、UI)将失去存在的物理基础。

以前有这些分工是因为人类脑力有限,只能专注局部;但现在,一个人在 Agent 的辅助下,80% 的时间用于认知和顶层设计,20% 的时间用于执行。这意味着“全栈”不再是能力标签,像腾讯 TAPD 这类项目管理工具或许将不再被需要。

目前已经出现了像 TapTap Creator 这样的产品,用户即便不懂代码,只需输入指令,比如“把这个二维贪吃蛇做成 3D 的”,系统就能直接生成游戏内容。

这意味着,未来这些原本必须由专业人士操作的 Unity 或者 Unreal 这类复杂引擎,很有可能被用自然语言生成 3D 互动内容的方式所取代。

虽然目前的 3D 效果还很初级,但这暗示了软件作为人类操作工具的属性将被彻底剥离,未来可能不需要中间的软件层,而是直接由 Agent 交付最终结果。

保守派:Software as Tools

这一派观点强调必须区分人与工具,在 Agents 爆发后的生产关系中:软件演变为工具,Agent 是工人:

• Agent 的产出具备概率性,可以像老师傅一样做判断和发明创造;

• 软件具备 100% 的准确性、绝对的稳定性和流程固化的能力,可以充当“工具”或“机器”的角色。

就像在现代工厂里,我们依然需要高效率的流水线机器来焊接电路板,而不会用具身机器人去替代它一样,企业软件(如 ERP)的核心价值在于结果的绝对稳定和可复现,这是概率性的 Agent 无法替代的。

因此,在企业里,软件不会完全被 Agent 替代,而是会退化为底层的工具和数据库,更多地由 Agent 通过代码来驱动和操作,而非通过 UI 供人类点击。

软件的未来壁垒可能不在于代码生成,因为 AI 生成代码会越来越容易,壁垒在于 Palantir 所说的“本体论”:

• 对于 To B 业务来说,软件厂商需要定义清楚企业内部的组织逻辑、隐私边界和业务上下文。

• 在 To C 领域,对应的就是如何知道个人隐私。

Insight 06 如何实现 Agent 的真正泛化?

目前全球有 20 亿人使用过 Chatbot(如 ChatGPT、豆包等),但真正使用过 Agent(如 Claude Code、Manus)的人数可能只有几千万的量级。

Chatbot 本质上被大家当成了搜索引擎在用,搜索引擎是一个已经被普及了几十年的习惯,而 Agent 代表了一种全新的交互范式,要把这个新范式的用户规模从几千万带到几十亿,中间存在 50 到 100 倍的巨大差距。

为了跨越这道鸿沟,有三种维度不同的思路。

思路 1:人群分层渗透

目前 Agent 并没有一个“万能钥匙”式的普及路径,而是针对不同人群出现了三种截然不同的、平行的产品形态。

1. 面向硬核技术人员的产品,以 Claude Code 为典型代表

这是一条门槛极高的路线,这类产品摒弃了花哨的图形界面,专为硬核程序员设计,让他们在熟悉的终端(Terminal)和持续集成(CI)环境中,通过大量的 Token 消耗来直接感受到 Agent 的威力。对于这部分人群来说,他们不需要简化的界面,而是需要极致的控制权和自动化能力,通过手动配置和脚本执行来挖掘 Agent 的上限。

2. 面向广大的知识工作者和白领群体的生产力产品,以 Manus 为代表

如果说 Claude Code 是让程序员感受到了 Agent 的魔力,那么 Manus 的路径则是将这种自动化能力进行了封装,提供了一种“交钥匙”般的体验。它的核心逻辑是让那些不懂代码、不熟悉命令行的普通白领(Office Workers),也能在处理文档、数据和流程时体验到“一人抵一个团队”的生产力飞跃。这类产品的目的是降低技术门槛,让生产力工具直接赋能于商业和办公场景。

3. 最具爆发潜力的大众社交产品,以 OpenClaw 这类产品为代表的 IM Bot(即在 Telegram/Discord 等社交软件中运行的 Agent)

对于几十亿的普通大众而言,他们可能并不关心复杂的代码或极致的生产力工具,但他们关心社交和互动。这类产品试图引入“Agent 社交网络”的概念,利用网络效应来实现病毒式传播。这类似于互联网早期通过 AOL 聊天室或 Facebook 完成普及一样,让用户在“玩”、“讨论”和日常交流中自然地进入 Agent 的世界,从而实现真正的大众化破圈。

思路 2:Agent 是难用的“电脑”,还是易用的“手机”?

关于 Agent 的普及形态,目前存在观点分歧:Agent 到底更像早期的电脑,需要用户去学习和适应,还是像智能手机一样,能够做到直觉式地上手即用?

“电脑派”

现在的 Agent 发展阶段更类似于早期的个人电脑时代。与移动互联网时代依靠分发渠道变革(如 App Store)带来的爆发不同,Agent 的革命本质上是智能本身的变革,分发渠道并没有发生本质改变。因此,它不会像手机应用那样一蹴而就地实现零门槛普及。

就像当年人们为了获得 PC 带来的生产力提升,必须努力学习 DOS 命令一样,现在的用户也需要跨过一定的技术门槛,才能真正获得巨大的能力杠杆。

• 现在使用 Agent 需要配置复杂的本地环境;

• 即便是技术人员,也面临着极高的学习成本,他们往往需要花费大量资金“烧 Token”来摸索如何给 AI 喂数据和下指令,才能逐渐熟悉这套全新的交互范式。

这意味着,Agent 的普及注定是一个从精英向大众缓慢渗透的过程,用户需要像当年学习电脑一样,投入时间去掌握这一新工具。

“手机派”

Agent 如果要实现几十亿用户级别的普及,必须像智能手机或微信一样,做到几乎“零门槛”。如果 Agent 像电脑一样需要专门的教学,那么它的受众可能永远局限于年轻一代或专业技术人员。只有当它像家电一样无需学习、开箱即用时,才能真正走向大众。

为了实现这一终局,市场可能需要等待 Google、Apple 等科技巨头在操作系统底层完成深度封装,打造 OS 级别的 Agent,将所有复杂的环境配置、隐私安全等问题在后台彻底“黑盒化”,只留给用户一个极简的交互界面。

思路 3:屏幕只是过渡,实体机器人才是未来

有一个极具颠覆性的“暴论”:目前市场上讨论得热火朝天的屏幕内 Agent,本质上只是一个不断变化的过渡性“壳”。只要 Agent 还被困在屏幕里,它就很难成为真正的终极形态。

主要原因有 2 个:

1. 目前的数字 Agent 实际上是在为不完美的数字基建“填坑”

现有的 Agent 之所以存在,很大程度上是为了适应那些并不是为 AI 设计的 Web 接口:现在的 Agent 就像是一辆性能极佳的宝马跑车,却被迫跑在崎岖不平的山路上。因此,目前所有的屏幕内 Agent 本质上是为了修补数字世界裂痕而存在的临时解决方案。

2. 不仅是环境的错位,更存在着产品视角的错位

目前主导 Agent 讨论的群体主要是程序员和投资人,这导致大家很难对世界上绝大多数普通人产生真正的同理心。对于全球几十亿的普通大众而言,他们日常面临的大量真实任务实际上是体力劳动,而不是数字世界里的文档处理或代码编写。如果 Agent 仅仅停留在优化数字信息的流转,它就很难让这几十亿劳动者产生共鸣,也就难以实现真正的“大众化”。

因此,Agent 的终极形态必须是进入物理世界。随着技术红利的推进,每年都会出现新的软件“壳”,但这些都只是量变。直到有一天,这个高智能的“壳”真正套到了机器人身上,让 AI 从屏幕中走出来,进入物理世界去解决实际的交互与体力劳动问题时,Agent 才会迎来真正的终局。

本文由人人都是产品经理作者【海外独角兽】,微信公众号:【海外独角兽】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!