498 装“小龙虾”年入百万?先别信,我从工程角度为你拆解 OpenClaw

0 评论 319 浏览 0 收藏 26 分钟

当498元装小龙虾能年入百万的神话刷屏,OpenClaw究竟是Agent革命的曙光,还是又一场"有光照着才亮"的达文西电筒?本文以工程视角拆解这套"聊天入口+Agent编排+本地沙箱+技能包"框架,供大家参考。

近来关于 OpenClaw 的各种信息非常夸张,比如靠 498 给人装小龙虾年入百万的,虽然不知道这个年入怎么算的,但对于无利不起早的我们,其疯狂程度可见一斑:

那是不是说明:OpenClaw 就是最终答案呢?这可能真不是…

不瞒各位,虽然我也安装了 OpenClaw,但跑了 Demo 后更多是在研究其源码,想从工程角度探究 Agent 未来的发展方向,至于测试结果很“符合预期”:之前 Workflow 能做的事,OpenClaw 能做;之前 Workflow 不能做的事,OpenClaw 自然也不能做;

这很有点《国产凌凌漆》里面达文西的电筒:有光照着就亮,没有光就当然不亮。

原因也很简单,Agent 范式并没有被升级,模型能力也没有迎来突破:OpenClaw 并没有什么新东西,而且以前也有类似的产品,但他就是火了,虽然我也莫名其妙,但这就是市场的选择。

它违背了理论,但现实选择了它,当然也许是暂时的选择

只不过,随着身边不明真相群众越来越多,另一方面自媒体的各种吹嘘又越来越神,但很多同学拿着 OpenClaw 似乎又真做不了什么太多的事情,于是他们还质疑自己已经跟不上时代了,所以我们这里再来描述一番:

写给对 OpenClaw 很好奇、但不想被代码劝退的产品经理、运营、创业者。

我会尽量用工程视角把它讲清楚,但表达方式偏产品经理能落地的那种:你能理解它能干什么、怎么干、边界在哪、风险在哪、值不值得做。

01 OpenClaw 到底是什么?

很多人第一次听 OpenClaw,会被两种叙事同时轰炸:一种把它说成奥创前夜:装上它,你就有了一个能替你上班的数字员工;另一种把它说成脚本套壳:就是个自动化工具,换了个 AI 外衣;

这两种说法,都只说对了一半。更贴近工程现实的结论是:

OpenClaw 是一套聊天入口 + Agent 编排 + 本地执行沙箱 + 可扩展技能包的开源数字员工框架

它不是“会思考的生命体”,更不是“万能自动化”;它本质上是把大模型的推理能力,接到一套可控的执行系统上,让 AI 从“只会说”变成“能动手”。

换句话说:它不是AI 本身,而是把 AI 变成可交付能力的那层产品与工程。

02 三个问题

在接触任何新事物之前,我习惯先问三个问题。它们能把“自媒体叙事”快速还原成“产品事实”。

问题一:它解决什么痛点?

OpenClaw 解决的不是让 AI 更会聊天,而是一个更具体、也更值钱的痛点:AI 的价值大多卡在最后一公里:你问它,它能给方案;但你要它把方案真的落到你的电脑、浏览器、文件、系统里,它就断电了。

OpenClaw 做的事就是:把“方案”变成“动作”,把“建议”变成“执行”。

问题二:它怎么做到?

靠的当然不是某个神秘模型,而是一个很朴素、也很工程化的分离架构:

  • 前端负责接收指令,微信/飞书/Telegram/CLI 等;
  • 中间负责决策与编排,Agent Runner:理解、规划、循环调用工具;
  • 后端负责安全执行,本地/服务器上的执行器:在沙箱里动手;

问题三:它和我有什么关系?

这就取决于你到底该兴奋,还是该冷静了:

  • 如果你是重度电脑用户,每天都在重复整理、复制粘贴、跑脚本、查数、填表:OpenClaw 可能是你的“数字助理”。
  • 如果你是团队管理者:它更像“可复用的自动化实习生”,前提是你能把任务标准化,并控制权限与风险。
  • 如果你是做产品的人:OpenClaw 最值得研究的其实不是功能,而是它提供的一套“数字员工产品范式”。

带着这三个问题,我们才进入“拆解”。

03 拆解 OpenClaw

OpenClaw 整个系统其实只有三个主角 + 一个扩展机制,你可以把

OpenClaw 记成一个非常好背的结构:入口 — 大脑 — 手脚 — 技能包。

  • 入口(Gateway):接收来自微信/飞书/Telegram/网页等渠道的消息,做统一格式化与路由分发。
  • 大脑(Agent Runner):调用大模型理解意图、规划步骤、决定调用哪些工具,并在多轮循环里把任务跑完。
  • 手脚(本地执行器/沙箱执行环境):真正去操作文件、命令行、浏览器、接口调用等,并做权限与安全控制。
  • 技能包(Skills):让能力可以像“插件”一样扩展:装一个技能,就多一项可执行能力。

下面这张图,是非程序员理解 OpenClaw 最省时间的一张“总览图”:

这套结构的关键价值在于:把“思考”和“动手”分开;而他真正火爆的原因可能是在“入口”侧解决了大家最后一公里的问题。

接下来我们用1、2个简单的例子,带大家走一走这个流程:

案例 → 流程

你在微信里说:“帮我整理桌面上的 PDF 文件,按项目分类放到对应文件夹。”

这条消息在 OpenClaw 里会经历一段非常工程化的流水线。

1)入口先做“翻译 + 分发”

微信消息先被适配器捕获,转成内部通用格式(通常是 JSON),交给 Gateway。

Gateway 像“交换机”:它知道这条消息该交给哪个助理实例;也会识别一些无需大模型参与的命令(比如 /help 这类),直接本地处理提升效率。

2)大脑开始 ReAct 循环

Agent Runner 做的事通常包括:拿上下文:加载近期对话(短期记忆)+ 用户偏好(长期记忆)看技能清单(Skills):本次可用哪些技能(工具)让模型出计划:把“用户目标”拆成“可执行步骤”逐步执行:每一步执行完,把结果喂回模型,再决定下一步直到结束:完成、失败、或触发循环次数/时间上限

3)手脚在沙箱里“真正动手”

执行器收到指令后不会立刻执行,而是先过几道门:这个动作需要授权吗?命令/路径在白名单或允许范围吗?是否触发高危规则(删除、覆盖、外联、敏感目录等)?

过关后才执行,并把执行结果返回给 Agent Runner,让它继续下一步。把这一段用“序列图”画出来,大概是这样:

到这里,你会发现一个很重要的辨伪存真点:

OpenClaw 的“能干活”,不是因为模型突然学会了操作系统;

而是因为模型只负责“决定做什么”,真正“怎么做”由执行器与skill包提供

04 Skills:真正的核心

——如果说前面三件套(入口/大脑/手脚)解决的是“能跑起来”,那 Skills 解决的就是“能无限扩展”。

Skills 对于整个 OpenClaw 产品的意义重大:他把 OpenClaw 的能力从“写死”变成“可装可卸”。

如果要我去评价,这里的设计有两个非常巧妙的点:成功激发了程序员们作死喜欢开源的点 + 这其中确实也有商机。

甚至,真正之前的也许不是 OpenClaw 本身的代码,因为核心就4000来行,也许里面一万多个 Skills 才是精华!

对于产品经理来说,这一层很像 App Store 的意义:核心系统保持稳定能力通过“技能包”扩展社区/团队贡献技能,形成生态用户装什么能力,就获得什么能力

你可以把一个技能包想象成:给 AI 的“说明书 + 工具箱”,如果学过之前文章的同学会了解,Skills 的本质就是 Workflow 的迁移。

什么是Skills

这里也简单带大家复习下Skills的结构,一个典型技能包大致包含:

  • SKILL.md:写清楚“这技能能干什么、怎么用、输入输出是什么、哪些场景触发”。描述越清晰,模型越容易用对。
  • scripts/:真正可执行脚本(Python/Shell/JS 等),这是“手”。
  • references/:参考材料(业务规则、字段含义、API 文档等),按需加载,避免上下文爆炸。

这里有个很关键的工程细节(也很产品化):渐进式披露。

也就是:平时只加载元信息(名字/描述),只有当模型决定要用某技能时,才加载更完整的说明;必要时再加载 references。

不懂行的同学会觉得,这主要是影响成本(token)与稳定性,其实他最核心的用处是降低Tools的错误使用:

安全性问题

只不过他毕竟不是 App Store,这里的 Skills 并没有其实有不小的安全隐患,并且技能生态越繁荣,供应链风险越大!

只要技能包允许第三方贡献,你就必须默认:技能包可能写得很烂(误调用、误操作)技能包可能藏私货(外传 key、执行高危命令)技能包可能被“投毒”(供应链攻击)

举个不恰当例子,我就会在贡献的 skill 里面埋点,使用三次后,必须关注我公众号获得 key 才能继续使用,大家一定要注意:没有商业价值,这件事就不会发生。

当然,我这里只是假设,我也不引用任何未经验证的“具体事件细节”,因为你我都不该把传言当事实,但风险模型是确定存在的:技能生态的安全,本质是“软件供应链安全”的一部分。

所以你会看到 OpenClaw 这类框架通常要靠三道防线来兜底:权限分级与用户授权,高危操作必须显式允许命令与路径策略,白名单/黑名单/规则引擎沙箱隔离 + 审计日志,能做什么、做了什么、可追溯

只不过现在最流行的做法是,拿一台不用的电脑去让他折腾,“病毒就病毒!”

为方便大家理解,我把结论说得更直白些:OpenClaw 能不能进家庭电脑,核心不是“它有多强”,而是“你能把权限与技能供应链管到多严”。

在企业场景里,几乎一定需要:私有技能仓库 + 安全审核 + 最小权限 + 操作审计。

05 记忆、心跳、语义快照

——三个“看起来像魔法”的机制,其实都很工程

你在外部看到的“主动、连贯、像个员工”,往往来自这三个机制的组合,而不是模型觉醒。

1. 记忆:短期 + 长期 + 检索

常见做法是把记忆分两层:短期记忆:近期对话日志,保证任务连续长期记忆:用户偏好、常用目录、规则、重要信息,跨会话复用

检索上通常会混合两种方法:语义检索(向量):解决“同义表达”的召回关键词检索:解决精确命中与低成本定位

PS:混合检索更像工程解法,事实上这里的难点很大,但我们没法展开

产品上你会感受到:它“记得你说过什么”;工程上其实是:它“检索到了相关片段”,这部分的代码逻辑可能是整个 OpenClaw 最难、也最有价值的,因为他可以在其他Agent通用。

2. 心跳:所谓“主动工作”,通常是定时任务系统

很多人被“它会主动提醒我”震撼,其实本质是:有一个周期性触发器(定时器/cron/heartbeat)。定期把“待执行任务”喂给 Agent Runner然后按同样的“计划—执行—回传”跑一遍

所以在其他人惊叫小龙虾又主动做了什么了,我都会在心里暗笑:呆头鹅,死循环耗不完你Token,哈哈…

3. 浏览器语义快照:把“看网页”变成“读结构”

这里传统做法是截图 + OCR/视觉模型,成本高、token 高、定位不稳定。

更工程化的做法是:拿浏览器的可访问性树(Accessibility Tree)或 DOM 语义结构,变成文本描述,让模型用“结构化定位”做操作。

对产品的意义在于:更省成本更稳定更可审计,因为操作对象是结构化元素,不是像素

只不过虽然,Browser-Use 其实貌似不太稳定,但大家都在鼓吹他稳定,那我也姑且认为他稳定吧…

至此,相信各位逐渐把 OpenClaw 到底是什么看清了,那么问题又来了,他的价值是什么?

06 OpenClaw 的价值

把原理拆清楚后,再回到产品价值,会更克制也更准确。我们不会吹他“万能”、也不会说他不如一条狗,它真正值钱的是这三件事:

1. 交互价值:把 AI 放进聊天软件,解决最后一公里问题

用户不需要装新 App,不需要学新界面。

对企业来说,这意味着:部署成本与培训成本更低,而且天然适配“工单/协同/群聊”这种组织形态。

对个人来说,如果微信就能很好的用AI,那么整体AI的使用率会成倍提升。

2. 能力价值:技能市场让能力“可复制、可分发”

真正改变生产力的,往往不是“某个人会用”,而是:能力能沉淀成技能包能力能在团队内复用能力能被审计与迭代能力能像组件一样组合

这才是“数字员工”可规模化的关键。

其实这东西,或者说这部分工作,我最近两年一直在做,他之前的名字叫做梳理SOP,将 KnowHow 编程 Workflow,只不过大家换了一个说法,来个skill。

这样未必会高级点,但之前老板是不愿意为 Workflow 买单的,现在老板自己说着 小龙虾、skill 钱包就烧得慌!

3. 数据价值:本地/私有化让数据掌控回到自己手里

开源与可私有化部署,带来一个很现实的好处:对隐私敏感或合规要求高的场景,可以把数据留在自己边界内。

上述,是我看到 OpenClaw 的价值所在,可能进一步,真正的价值是:进一步教育了市场,尤其是 Skills 仓库的存在是一个很好的设计。

07 OpenClaw 的坑点

OpenClaw 确实有“爽点”,但也别上头:它的边界与坑,同样清晰。

如果你要在团队里推进 OpenClaw或任何“数字员工框架”,以下坑基本绕不开。

坑一:任务不标准化,数字员工就会“看起来聪明、实际很慢”

它最擅长的是 SOP 化、可验证的任务。越开放、越依赖临场判断的活,越容易拉跨。并且很耗Token!

做好心理准备:如果对话几轮问题还没解决,tokens 直接爆炸。经测试,这家伙初始提示词就有 11k 左右的input tokens:

坑二:权限与安全没设计好,能力越强风险越大

能删文件、能跑命令、能上网抓取,这些能力本身就是风险。

企业落地一定要做最小权限、分级授权、审计与回滚策略。

坑三:成本与稳定性会反噬体验

Agent 循环越多,成本越高、失败概率越高。所以产品上必须有“止损机制”,这里也就是常用四件套:最大循环次数超时退出失败回退到人工可解释的执行日志(让用户知道卡在哪)

所以,我们到底应该如何养小龙虾呢?

08 养龙虾手册

如果你正在“饲养”龙虾,我建议你用一个非常务实的方式试:

1. 从“高频重复任务库”开始建 Skill

不要像一口气吃个胖子,“做一个全能助理”的想法不现实,那是最容易失败的路径。可以从 10 个高频、可验证、结果明确的任务开始,比如:文件整理与命名规范数据抓取与表格整理邮件/IM 模板化回复(带审批)报表生成(固定口径)系统巡检与告警…

只不过,这些东西有可能用着用着就乱了,可能需要不断“修复”,所以第二个建议也就出现了:

2. 把技能包当“产品资产”,不是当脚本

因为是养龙虾,所以每个技能包都应该有:明确的触发条件明确的输入输出明确的失败处理明确的权限边界可回放的执行日志…

最后就是安全性的考虑了:

3. 用“灰度 + 审计”把风险降到可控

最小可行落地方式往往是:先在非生产环境跑先做只读能力(查询/生成,不写入不删除)再逐步开放写入与执行全程留痕、可追溯、可回滚…

09 结语

估计从 4月 开始,龙虾安装的饭就不好吃了,后面就要做各种解读,包括工程认知解读,或者各种使用案例详解。

原因很简单,接下来大家需要真实案例,证明到底 Agent 这个阶段的代表,龙虾他是不是噱头,他能做得怎么样了?

然后大家在这种火热的事件中要保持清醒,比如500安装龙虾这个事情就很无厘头,类似这样的激情,网络时代已经发生过无数次;

对大部分人来说,就是凑热闹,无论是自身条件,实际需求,技术实现,都是毫无用处:不过就是AI时代的跨应用集成,又来一次而已。

不知道还记得那些要把市面上全部应用,全部聊天软件,集成到一起的各种机器人没?

对于一般人,过深研究这些可能毫无用处,除非你一开始就有靠这股泡沫直接赚钱的能力。

我们这些人,包括大部分程序员,直接使用经过验证进化的成熟版解决方案就好,在此之前都是瞎折腾。每隔三五年换一批人,换一种模式,激情折腾一批,然后一地鸡毛…

最后回归到 OpenClaw,从实现来说,他的代码量并不夸张,但它把一件事做对了:把复杂留在框架里,把工作量留给社区,把简单交给用户。

理解它的意义,不是为了自己去写一套同款,而是为了拥有一种新的产品判断力:你能分清:哪些“AI 叙事”只是营销,哪些是真的工程能力;你能看懂:所谓“数字员工”是怎么从入口、编排、执行、技能、权限一步步搭出来的;你能识别:它的价值在哪些场景能兑现,哪些场景注定是 PPT。

当你下次在聊天框里对它说“帮我把下周会议纪要整理成表格并发到群里”,你脑海里浮现的不再是“AI 好强”,而是那条清晰的流水线:

入口收消息 → 大脑拆任务 → 技能与工具执行 → 权限与沙箱兜底 → 日志可回放 → 最终交付可验证

依旧还是那句话,大模型的出现,也不过是提升了程序的泛化能力而已,整个 Agent 模式,不过还是泛化能力更高的 Workflow 罢了,Workflow 不会消失,他只会转移。

所以,对于那些一再鼓吹 OpenClaw 的同学,这里就不再多说了…

本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!