从“套壳”到“地壳”：Manus的工程化护城河与AI Agent产品化启示

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从“套壳”到“地壳”：Manus的工程化护城河与AI Agent产品化启示

511（AI产品）

2026-01-13

0 评论 1074 浏览 4 收藏

35 分钟

Meta以20亿美元收购Manus的消息在AI圈掀起轩然大波。这看似"套壳"的应用凭什么价值连城？关键在于它构建了一套能将大模型"聪明"转化为"能干"的工程体系——从提示词技巧到系统架构设计的工业化跃迁。本文将深度解析Manus如何通过极致的"上下文工程"成为数字世界的"终极打工人"。

说实话，当Meta用20亿美元收购Manus的消息传出来的时候，我朋友圈里做AI的同行们，反应挺两极分化的。一部分人觉得不可思议，一个自己不训练大模型，看起来就是调用别家API的“套壳”应用，凭什么值这么多钱。另一部分人，包括我，在短暂的震惊之后，更多的是一种“果然如此”的感觉。

为什么这么说呢?因为作为天天跟AI产品打交道的人，我们太清楚现在AI应用的痛点了。模型能力确实一天比一天强，能写诗、能画画、能聊天，看起来无所不能。可一旦你想让它干点正事，干点需要多个步骤、需要稳定输出的复杂任务，那翻车率简直高得吓人。就像你请了个天才儿童，他能背整本字典，你让他去帮你买瓶酱油，他可能走到半路就被蝴蝶吸引走了，最后空手而归。

大家都在讨论模型参数多大，上下文窗口多长，好像只要模型本身够强，一切问题就迎刃而解。可Manus这个案例，就像一记响亮的耳光，打醒了很多人。它告诉市场，真正的价值，可能藏在那些看起来不那么性感的、脏活累活的工程细节里。它根本就不是一个薄薄的“套壳”，它是在大模型这个“地幔”之上，硬生生构建出了一层厚重、稳定、有自己生态循环的“地壳”。

这20亿美金，买的不是一个更聪明的模型，而是买了一套能把“聪明”转化为“能干”的顶级工程体系。买的是一种从“提示词技巧”这种炼丹术，到“系统架构设计”这种工业化生产的思维跃迁。我觉得，这才是Manus案例给我们这些AI产品从业者最大的启示，也是我今天想跟你聊透的核心。

一、重新定义Agent：从“聊天”到“完工”的产品哲学

要理解Manus的价值，我们得先搞明白它到底是个什么东西。很多人把它跟我们手机里的各种智能助手混为一谈，觉得不就是个高级点的聊天机器人嘛。这个理解偏差可就大了去了。在我看来，Manus做的，是对AI Agent这个概念的一次产品层面的重新定义。

传统的Chatbot，本质上是一个“建议者”。你问它问题，它给你答案；你让它帮忙，它给你步骤。比如你问它“帮我规划一个五天的东京旅行”，它会给你一个详细的行程单，包括景点、餐厅、交通建议。看起来很棒，对吧。可接下来呢，订机票、订酒店、买门票，这些实际的“执行”动作，还得你自己一个一个去完成。Chatbot只负责“说”，不负责“做”。

Manus的哲学完全不同，它的定位是一个“交付者”，一个追求“完工”的通用Agent。你给它的指令不是“告诉我怎么做”，而是“帮我做完”。还是那个东京旅行的例子，你对Manus说“帮我规划并预订一个五天的东京自由行，预算两万，下周末出发，我喜欢动漫和美食”。理想情况下，它会自己去搜索航班、对比酒店、规划路线、购买门票，最后把所有的电子票据和一份确定的行程单交付给你。你从一个“执行者”变成了一个“委托者”。

这种从“给建议”到“交付成果”的转变，听起来简单，背后是产品哲学的根本差异。它意味着产品追求的不再是交互的流畅或者回答的巧妙，而是任务完成的“确定性”和“高质量”。它必须能理解复杂的意图，能把任务拆解成上百个步骤，能在执行过程中应对各种意外，并且最终交出一份让你满意的答卷。这难度完全不是一个量级的。

为了实现这个目标，Manus在用户定位上也做出了一个非常聪明的选择。它服务的不是普通大众，而是所谓的“Prosumer”，也就是那些有消费能力、愿意为效率和结果付费的专业人士或高端消费者。这些人时间宝贵，他们不关心你用了什么模型，也不想学习复杂的提示词技巧。他们要的就是一个可靠的助理，把事情交给你，你就能办妥。他们愿意为这种“确定性”和“省心”的服务支付高昂的费用。这就为Manus的商业化奠定了坚实的基石，让它有底气去投入巨大的研发成本，去打磨那些极致的工程细节。

所以你看，Manus从一开始就没想做一个陪聊的玩具，它的野心是成为数字世界里的“终极打工人”，一个能真正干活、能交付价值的生产力工具。这种产品哲学上的升维，是它能构建起“地壳”级护城河的起点。

二、核心护城河：极致的“上下文工程”

聊完了产品哲学，我们得深入到最硬核的部分了。Manus那层厚厚的“地壳”到底是用什么材料构建的？在我看来，核心就是四个字：“上下文工程”。这个词可能听起来有点玄乎，看我给你拆解一下，你就明白它为什么是Manus的命脉所在。

我们都知道，大模型就像一个只有几秒钟记忆的金鱼，它的所有思考都依赖于你给它的“上下文”。上下文就是它在回答你当前问题时，能看到的所有历史信息。上下文窗口越大，它能记住的东西就越多。可问题是，这个窗口是有限的，而且非常非常贵。每一次调用，上下文里的每个字都在烧钱。怎么在有限的、昂贵的上下文里，让Agent能记住关键信息、执行长任务、还能从错误中学习，这就是“上下文工程”要解决的核心问题。Manus在这方面，做到了近乎变态的极致。

2.1 性能与成本的精算师：KV-Cache导向设计

先说一个可能有点技术，但极其关键的东西：KV-Cache。你可以把它理解成大模型在处理上下文时，给自己打的一个“草稿”。每次模型生成一个新的字，它都要回顾一遍前面的所有内容，这个过程非常耗时。KV-Cache就是把前面内容计算后的中间结果存起来，下次就不用重复计算了，大大加快了速度。

这玩意儿是所有生产级Agent的生命线。为什么？因为它直接决定了两个核心指标：响应速度和推理成本。尤其是在Agent这种需要多轮对话、反复思考的场景里，如果每次都要从头计算，那用户体验会慢到爆炸，成本也会高到公司破产。

Manus的聪明之处在于，它把整个系统设计都围绕着“如何最大化KV缓存命中率”来展开。他们做了几个看起来很小，但效果拔群的工程选择。比如“前缀稳定”，就是确保每次发给模型的上下文，前面那一大段长长的、不变的部分，在字符串层面都是一模一样的。这样一来，模型的KV缓存就能百分之百命中，只有最后新增的一小部分需要重新计算。

还有“只增不减”和“确定性序列化”。意思是，整个任务过程中，上下文信息只会增加，不会随意删改，并且所有信息都按照一个固定的、可预测的格式来组织。这就像你整理书架，永远只往右边加新书，并且所有书都按同一个标准分类。这样做的好处是，模型的“草稿”可以被最大程度地复用，几乎不会浪费。

这些操作听起来像是程序员的洁癖，但带来的业务价值是巨大的。据说通过这些优化，Manus把首次响应延迟TTFT做到了极低，并且把推理成本降低了整整10倍。10倍是什么概念？就是别人做一个任务要花10块钱，它可能只需要1块。在AI时代，这就是生与死的区别。

这给我们的产品启示是，我们做AI产品，不能再只盯着模型参数了。很多时候，一个巧妙的缓存策略，一个看似不起眼的工程细节，对用户体验和商业模式的决定性作用，可能比你换个更强的模型要大得多。工程实现，本身就是产品设计的一部分，而且是越来越重要的一部分。

2.2 对抗“遗忘”：用“复述”机制操控注意力

Agent执行长任务，最大的敌人就是“遗忘”。当任务步骤一多，上下文信息一爆炸，模型就很容易“忘了我是谁，我要干嘛”。这就是所谓的“上下文爆炸”和“上下文腐烂”。就像一个人在信息洪流里，很容易就迷失了最初的目标。

很多团队的解决方案是寄希望于更大的上下文窗口，比如从几千个token卷到几百万个token。但这治标不治本，窗口再大也有极限，而且成本和延迟会急剧上升。Manus的思路就特别产品化，它没有硬刚技术瓶颈，而是设计了一个聪明的机制来“操控”模型的注意力。

这个机制，我称之为“主动复述”。具体怎么做呢？举个例子，当Agent开始一个复杂任务时，它会先创建一个叫 todo.md 的文件。这个文件里写着整个任务的最终目标和主要步骤。在接下来的每一步操作中，无论它在做什么，它都会被强制要求重新“背诵”一遍这个 todo.md 文件的核心内容，并把它放在上下文的最前面。

这就像一个登山队员，每走一段路，就停下来抬头看看山顶，确认一下自己的方向。通过这种不断的、主动的“复述”和“回顾”，Manus把最重要的全局目标，像一个图钉一样，死死地钉在了模型有限的注意力范围内。不管中间执行了多少步，产生了多少临时信息，那个最终目标永远不会被“淹没”。

这个设计给我的启发太大了。一个优秀的产品设计，不应该盲目依赖底层技术的能力，而是要通过机制的设计，去主动管理和引导用户的认知负荷。在这里，用户就是模型本身。我们不能假设模型是完美的，我们得把它当成一个聪明但容易分心的孩子，用一套行之有效的规则和流程，牵着它的手，确保它一步步走向终点这才是高级的产品思维。

2.3 从失败中学习：“错误保留”的反直觉智慧

在Agent产品中，最头疼的就是处理错误。Agent在执行任务时，出错是家常便饭，可能是代码写错了，可能是网页元素找不到了，可能是API调用失败了。常规的策略是什么？出错即重置。一旦发现走不通，就清空记忆，回到上一个检查点，换条路再试。这很符合直觉，对吧？

Manus的做法，恰恰相反，非常反直觉。它选择“保留错误轨迹”。当Agent执行某个操作失败时，系统不会把这次失败抹掉，而是会把整个出错的过程，包括它尝试的命令、返回的错误信息，完完整整地记录下来，并作为新的信息，喂回到上下文里。

这是什么操作？这不是在污染上下文，让模型更困惑吗？一开始我也这么想，后来才明白其中的智慧。Manus把每一次失败，都看作是一次宝贵的“负样本”学习机会。它告诉模型：“你看，你刚才这么做，失败了，错误信息是这个。现在，基于你已经知道‘此路不通’这个事实，再想想下一步该怎么办”。

这极大地提升了Agent的自我纠错和恢复能力。它不再是无头苍蝇一样反复试错，而是学会了从失败中总结经验。比如它第一次尝试用A方法解析数据失败了，它就会在下一次尝试中主动避开A方法，去尝试B方法。这让整个Agent系统变得非常有韧性，也就是我们常说的“鲁棒性”。

这个产品启示对我来说，就是重新思考了“智能”的定义。一个智能体的“智能”，或许不体现在它能一次性百分百成功，那更像是机械的自动化。真正的智能，体现在它从失败中恢复的能力，体现在它的反思和学习能力。所以我们设计产品时，不应该把所有精力都放在追求完美的单次执行上，而应该花更多心思去设计容错和自学习的循环。让系统在不断的磕磕碰碰中，变得越来越强大，这可能才是通往通用人工智能的正确路径。

2.4 无限记忆：文件系统即“外部大脑”

前面我们反复提到，上下文窗口是有限的，是Agent记忆的瓶颈。即使有百万级别的长上下文，对于一个需要处理大量文档、跨越数天甚至数周的复杂任务来说，也远远不够。而且，把所有东西都塞进上下文，成本高得离谱，性能也差得要命。

Manus的解决方案，是给Agent配了一个“外部大脑”——文件系统。这个想法不新鲜，很多系统都在用。但Manus把它做到了极致。它不只是简单地把文件存起来，而是建立了一套完整的、与模型交互的记忆管理策略。

它的核心思想是，把昂贵、有限的上下文窗口，只用来做“当前思考”，而把便宜、无限的文件系统，用来做“长期记忆”。当Agent需要处理一个大文件时，它不会傻乎乎地把整个文件读进上下文。它会先浏览一下文件列表，或者用搜索命令找到相关的文件。然后，它只把文件的“引用”或者一个极简的摘要放进上下文，告诉模型：“嘿，这里有个文件，叫report.pdf，里面是关于上个季度的销售数据”。

只有当模型在思考过程中，明确需要文件里的某个具体信息时，它才会生成一个命令，去读取文件的特定部分。比如“读取report.pdf的第三章”。系统执行这个命令，把那一章的内容取出来，再放进上下文供模型使用。这个过程，Manus称之为“可逆压缩”。信息在不需要的时候，被“压缩”成一个文件引用；在需要的时候，再“解压”加载到工作记忆里。

通过这种方式，Manus巧妙地绕过了上下文长度的物理限制，给了Agent一个理论上“无限”的记忆空间。它能处理海量的资料，能执行横跨很长时间的超长任务，而这一切，都建立在一个非常经济、高效的架构之上。

那给我们的产品启示是什么呢？当你的核心资源，比如这里的上下文长度，是有限且昂贵的时候，最优秀的产品架构，一定是懂得如何利用外部系统来做扩展的。不要试图在螺蛳壳里做道场，要学会“借力”。把文件系统、数据库、甚至是其他的API服务，都看作是AI“大脑”的延伸，通过巧妙的架构设计，实现一种“无限记忆”的用户体验。这是一种系统化的产品思维，远比单纯地堆砌资源要高明。

三、超越工程：产品化落地的关键抉择

如果说“上下文工程”是Manus的“地壳”内部的岩层结构，那它在产品化道路上做出的一系列关键抉择，就是决定这块“地壳”板块走向和边界的地质运动。这些选择，与工程细节相辅相成，共同构成了它深不可测的护城河。

3.1 定位选择：通用Agent vs. 垂直Agent

在Agent的赛道上，一直有两条路可以走。一条是做垂直领域的Agent，比如专注于UI设计的Lovart，或者专注于法律合同分析的某个工具。这条路的好处是场景明确，需求聚焦，更容易做出深度，也更容易商业化。另一条路，就是Manus选择的，做通用Agent。它想成为一个能干任何事的数字助理。

通用路径的诱惑是巨大的。它的市场天花板极高，一旦做成，就有可能成为下一个操作系统级的平台入口。可挑战也是地狱级的。通用意味着要应对千奇百怪、无穷无尽的任务类型，这对系统的泛化能力、稳定性和工程底座的要求高到了极点。绝大多数团队，根本不敢碰。

Manus敢走这条路，并且走通了，本身就说明了它对自己那套工程体系的极端自信。它相信自己的“上下文工程”足够扎实，能够支撑起一个通用任务执行的框架。这种定位上的选择，和它的技术核心是互为表里的。没有金刚钻，不揽瓷器活。正是因为它锻造了金刚钻，所以它敢于去挑战整个瓷器店。

3.2 技术范式：CodeAct vs. Tool-Use

这是另一个非常关键的技术路线选择。目前主流的Agent，大多采用“Tool-Use”范式。什么意思呢？就是你预先定义好一堆工具，比如“搜索工具”、“计算器工具”、“订票工具”。Agent在执行任务时，就像一个调度员，根据需要去选择调用哪个工具。这种方式的好处是稳定、可控，因为工具的行为是确定的。缺点是灵活性差，工具集是有限的，遇到工具箱里没有的锤子，它就敲不了钉子。

Manus采用了一种更激进、也更强大的范式：“CodeAct”，也就是“生成并执行代码”。在这种模式下，Agent不再是调用固定的工具，而是直接生成一小段代码比如Python或Bash脚本来完成任务。这给了它无与伦比的灵活性。它不再受限于预设的工具箱，而是拥有了一个可以动态构建任何工具的“代码工坊”。

需要分析一个复杂的Excel表格？它直接写一段Python脚本，用Pandas库来处理。需要跟一个没有官方API的网站交互？它直接写一段爬虫脚本去抓取数据。这种方式让Agent能够与真实世界的数字环境进行更细粒度、更深度的交互。它能像一个真正的程序员一样，去操作文件、调用系统命令、与各种服务互动。这是它能够完成那些极其复杂任务的根本原因。

3.3 执行环境：深度可控的“沙箱即操作系统”

选择了CodeAct范式，就必须解决一个致命问题：安全。让AI随便在你的电脑上写代码并执行，这无异于引狼入室。万一它写出个 rm -rf / 这样的命令，后果不堪设想。

所以，一个安全、隔离的执行环境就成了刚需。Manus在这方面投入了巨大的精力，自研并维护了一套云端的“沙箱”环境。这个沙箱，绝不仅仅是一个简单的安全隔离区。在我看来，它更像是一个为Agent量身定制的、功能完备的“迷你操作系统”。

这个沙箱环境是基于Linux的，预装了极其丰富的工具链。从Python、Node.js这些编程语言环境，到浏览器、文件编辑器，再到各种常用的命令行工具，应有尽有。Agent在这个环境里，就像一个拥有最高权限的系统管理员，可以随心所欲地施展拳脚，而不用担心会破坏外部世界。它可以在这里安装软件、运行服务、管理文件，几乎能模拟一个真实开发者的所有操作。

这个深度可控的沙箱，是Manus强大执行力的基础。它为CodeAct范式提供了一个完美的舞台。没有这个舞台，再好的演员也演不出戏。这也是一个极难被复制的壁垒，因为它需要长期的、持续的投入和维护，远不是调用一个API那么简单。

3.4 模型策略：“路由器”而非“造车厂”

最后聊聊Manus对大模型的态度，我觉得这体现了它极度的务实和聪明。在所有人都挤破头想“造车”，也就是训练自己的基座模型时，Manus选择做一个“路由器”。

它不自己训练千亿参数的大模型。相反，它接入了市面上所有最顶级的模型，比如来自不同顶级实验室的各种模型。它的核心系统里有一个“模型路由”模块。这个模块会根据当前任务的类型和特点，动态地、智能地选择最适合的模型来执行。比如，需要写代码的任务，它可能会把请求路由给在代码生成上表现最好的Claude系列；需要联网搜索和信息整合的任务，它可能会选择Gemini。需要进行一般性对话或创意写作，它又可能选择另一个模型。

这种策略的好处是显而易见的。它把训练和维护基座模型这个最烧钱、风险最高的环节，“外包”给了全世界最顶级的几个玩家。它自己则可以永远保持“模型中立”，始终为用户提供“当下最优解”的组合。今天这个模型强，我就多用它一点；明天那个模型有了突破，我就立刻把它集成进来。这让Manus能够把所有精力都聚焦在自己的核心优势上——也就是我们前面聊的上下文工程、执行环境和产品体验。

它不是在赌某一个模型的未来，而是在赌“模型能力会持续进步”这个大趋势。只要这个趋势不变，它的“路由器”策略就永远有效。这种产品战略上的清醒和克制，在今天这个浮躁的AI圈子里，显得尤为可贵。

四、启示与挑战：AI产品经理的新思维

聊了这么多Manus的细节，最终还是要回到我们自己身上。

作为一个AI产品经理，这个案例到底能给我们带来什么新思维？我觉得至少有两点是颠覆性的，同时，它也面临着巨大的挑战。

第一个启示，是护城河的转移。过去我们做产品，护城河可能是一个独特的算法，一个巧妙的交互设计，或者一个庞大的用户网络。但在AI应用时代，竞争的焦点正在快速地从模型算法本身，转移到系统工程的实现上。也就是说，你的护城河不再是你“用”了什么模型，而是你“怎么用”这个模型。

能不能在保证体验的同时，把成本控制到极致？能不能让Agent在执行上百个步骤的长任务时，保持稳定不“跑偏”？能不能构建一个既灵活又安全的执行环境？这些问题的答案，都藏在系统架构、成本控制、任务稳定性和用户体验的工程实现里。对于AI产品经理来说，这意味着我们不能再满足于画原型、写PRD了。我们必须更深入地理解技术，理解那些“看不见”的工程细节，因为那里才是未来产品竞争力的核心所在。

第二个启示，是体验的重构。Agent产品正在催生一种全新的交互范式，我称之为“异步委托”。传统的软件交互是“交互式问答”，你点一下，它动一下，你和软件是同步的。而Agent的核心体验是，你把一个复杂的任务委托给它，然后你就可以关掉页面，去干别的事了。几个小时甚至几天后，它完成了任务，再来通知你。这是一种异步的、基于信任的委托关系。

这种体验的转变，对产品设计提出了全新的要求。我们怎么设计任务的下达和澄清过程？怎么在Agent执行过程中，给用户提供恰到好处的、不打扰的进度反馈？怎么建立用户对一个“黑盒”系统的信任，让他敢于把重要的任务交出去？这些都是全新的课题，需要我们去探索全新的交互设计语言和信任构建机制。

当然，Manus的未来也并非一片坦途，它面临的挑战同样巨大。

最直接的挑战就是成本与规模化的平衡。它那套极致的工程体系，虽然优化了成本，但每一次成功的复杂任务执行，背后依然是海量的token消耗和计算资源的调用。这种高昂的推理成本，决定了它目前只能服务于少数高净值用户。未来如何降低成本，实现规模化的普及，同时还能保持盈利，这是一个巨大的商业难题。

另一个更长远的威胁，来自大模型平台自身的“降维打击”。像OpenAI、Google这样的巨头，也在不断地把Agent的能力内化到他们的模型底层。如果有一天，基础大模型自己就具备了超强的长任务执行能力、自我纠错能力和工具使用能力，那Manus这样的“中间层”价值会不会被稀释？这是悬在所有AI应用层公司头上的达摩克利斯之剑。

最后，还有生态整合的难题。被Meta收购后，Manus如何与Instagram、WhatsApp这些拥有数十亿用户的生态进行深度融合，是一个巨大的机遇，也是一个巨大的挑战。它能不能从一个独立的“智能工具”，真正跃迁成为驱动整个社交生态的“智能操作系统”？这不仅是技术问题，更是复杂的组织、文化和产品战略问题。走错一步，就可能从“香饽饽”变成“鸡肋”。

结语：智能体的未来，一次构建一个上下文

聊到这里，我们再回头看“从‘套壳’到‘地壳’”这个标题，或许会有更深的感触。

大模型的能力，就像潮水，它会周期性地涨落，今天你领先，明天他赶超。把公司的全部身家都押在潮水本身，风险是极大的。而Manus这样的公司，给我们展示了另一种可能性：在潮水之上，建造一艘坚固的、设计精巧的船。

这艘船的龙骨，是它“从聊天到完工”的产品哲学；船身的主体，是它极致的“上下文工程”；船上的帆和舵，是它在技术范式、执行环境和模型策略上做出的一系列关键抉择。潮水可以涨落，但只要船足够坚固，航海技术足够高超，它就能在任何水位的海面上航行。

我觉得，AI智能体的未来，不只在于模型变得更聪明、更强大。更关键的，在于我们如何像Manus一样，通过精巧的、体系化的“上下文工程”，把模型那强大的、不稳定的、昂贵的“潜力”，一步一步地转化为稳定、可靠、可大规模交付的用户价值。

对于我们这些身处其中的AI产品经理而言，这意味着一个时代的结束，和另一个时代的开始。那个靠着几个巧妙提示词就能做出爆款的时代，可能已经过去了。未来，我们需要像建筑师一样，去理解材料的特性，去设计稳固的结构，去关注每一个承重和连接的细节。我们需要深入到那些“看不见”的工程里去，因为那里，才是定义下一代AI产品的真正战场。

智能体的未来，或许就是这样，一次构建一个上下文，一行执行一段代码，在一个个看似枯燥的工程细节中，慢慢地，但无比坚实地，被建造出来。

本文由 @511（AI产品）原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App