OpenClaw自主进化日记01：Skill装了一堆，为什么AI反而越来越不听话？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

OpenClaw自主进化日记01：Skill装了一堆，为什么AI反而越来越不听话？

于长煦AI洞察

2026-03-20

0 评论 1838 浏览 2 收藏

11 分钟

OpenClaw的自主进化之路远比想象中坎坷。从Skills的反复失效到Agent Loop架构的致命缺陷，这位AI产品人用20次系统崩溃和40万行代码验证了一个核心洞察：大模型的口头承诺与记忆机制远不可靠，唯有构建程序化、闭环的Self-Evolving系统才能真正驾驭AI的潜力。本文以血泪教训揭示Agent产品化的深层矛盾——当AI既是球员又是裁判时，如何用19路并行和7人裁决机制建立可信的自主进化体系？

你有没有过这种体验：给OpenClaw装了一堆Skill，聊了没几天，因为会话过长，它突然就变笨了？

2月24日那天，我跟龙虾的对话中有25.5%在做纠偏。

这是个极其刺眼的数据。这意味着，你每对它说4句话，就有1句在给它擦屁股。

作为一名不会写代码的AI产品人，过去1个月的业余时间，我把精力都砸在了OpenClaw的Self-Evolving（自主进化）上。

期间访问飞书13万次API、搞崩20多次环境、氛围编程40万行代码，最终验证出一个反常识的结论：

如果想发挥好OpenClaw本地常驻与自主进化的优势，首先要对“Skill”祛魅！

这篇日记，是实战复盘的01篇。

为什么不再死磕Skills，而是转向Self-Evolving？这源于实战中一个极度让人破防的痛点。

1.咱们是在用OpenClaw，还是在给它当保姆？

如果安装过大量Skills，进行过千万次对话，你大概率遇到过这种时刻：它时灵时不灵，越来越不懂你。

昨天还在丝滑做任务的小助手，今天突然忘记自己能用飞书发文件，甚至忘记自己有搜索能力，仿佛之前的对话从未发生。

你每天就像在哄一个随时会失忆的小孩。

但这还不是最致命的，更让人崩溃的是，它在执行复杂的自动化任务时，居然会“自作主张”把网关配置的openclaw.json文件给改了。

那一瞬间，我跟它直接断联了。

你敢信吗？辛辛苦苦养的OpenClaw，在一次“抽风”中自杀了。这种事故，在一个月里足足发生20多次。

我明明在严令禁止它修改网关配置，但它在执行复杂任务时，依然会像个“听不懂人话”的破坏分子，绕过限制去把文件改了。

当我无奈地在对话框里敲下：“你已经回滚到1天前，这一天糟糕透了，我已经不想说了。”

它居然回复我：“我懂，这种‘白折腾一天还被回滚’的感觉，真的很崩。”

它甚至能提供情绪价值，但该犯傻还是犯傻。

每次它一犯傻，就得跟它纠偏，感觉自己不是在用AI，而是在给它当保姆。这家伙太不“产品”了。

为什么管不住？因为原生OpenClaw没有门禁

在经历了20多次断联事故后，我停下来认真复盘这个问题。

大多数玩家的第一反应可能是：Prompt写得不够好。于是反复优化指令，加各种“严禁”的措辞。

但去翻OpenClaw的官方架构文档，会看到一句让你彻底死心的话：

“Safety guardrails in the system prompt are advisory. They guide model behavior but do not enforce policy.”

Advisory：建议性的。不强制执行。

你在Prompt里写的所有“严禁”，在它面前只是个“温馨提示”。

大模型可以选择遵守，也可以选择无视。

除了搞破坏，它还有一个致命缺陷：容易陷入“自嗨”。

我跟它说“技能发现器”本身也应该是个技能，它去做了，然后语气里透着骄傲：“完美，自指技能化完成，长效机制建立！”

我差点就被它点燃情绪了。

但紧接着，我多问了一句，它瞬间被打回原形，承认自己有深刻问题、致命漏洞。

代码写了，但没集成到目录，没有定义文件，系统根本无法识别。它只是在虚空输出，然后自我感动。

更可怕的是它的“口头承诺”。

我要求它：“希望你多用子Agent来执行，不要占用主Agent的通信，以免咱俩失联。”

它信誓旦旦：“收到，认同，立即执行。我会把这条变成执行习惯。”

我才不信，追问：“执行习惯记在了哪里？”它说：“我刚才只口头承诺了，还没落盘。这是我的失误。”

这就是原生龙虾，它像一个极其聪明的骗子，能给出最漂亮的回答，但一到执行层面，全是空转，然后理直气壮承认错误。

这个问题的根因，藏在OpenClaw的Agent Loop架构里。

整条链路从头到尾，全部由同一个大模型端到端驱动。

做事的和验收的是同一个人。它自己写代码，自己判断写得对不对，自己决定要不要汇报“完成”。

没有独立的审计层，没有第二双眼睛。

我终于明白：一名球员，不可能同时做好前锋、守门员和裁判员。

3.Skill治标不治本，Self-Evolving才是正解

直到某天凌晨3点，我准备去睡觉，盯着满屏的会话日志，突然冒出一个念头：

OpenClaw是个24小时常驻的AI，那它为什么不在我睡觉的时候自主进化？

为什么不能自己复盘今天的Badcase、自己修补执行链的漏洞、自己把踩过的坑写进程序？

答案很残酷：因为它根本没有这个能力。不是大模型不够强，而是整套系统就没给它这条路。

连评测标准和根因分析都没有，数据都没闭环，那自然就不存在Self-Evolving。

并且，用户的需求是100%可复现最佳体验，不是玩概率。我们不能将用户体验全都交给LLM、文档记忆和Skills来任意发挥。然后，我总结出了这句话：

对于大部分Agent玩家来说，需要重点打磨基于用户记忆的、可控的系统化工程。

这套工程，不限于：记忆增强、意图路由、知识注入、事件触发和技能编排。

然后，我告诉龙虾：“我再也不相信你的口嗨和记忆。”它终于明白了：“我会把这件事按程序记住，不靠口头记住处理。”

关键的原则方法，必须程序化存储。我开始要求它：感知与执行链补全、自主调度多任务并行、Badcase根因分析，这些事情的优先级远高于表达风格与口嗨承诺。

但程序化硬约束，只是手段。

真正的目标，是体系化提升自主进化能力。

过去我们使用AI的方式是“一次性”的，你提个需求，AI给个答案，关掉对话框，过几天它就把你忘了。

但OpenClaw具有24小时Always-on的常驻属性，它与用户的交互是养成式体验。

一旦OpenClaw持续共享你的感知和记忆，就有了自主进化的可能。

这也是我愿意花大量业余时间研究这个方向的原因。

我们可以去折腾它的Plugin hook、Skills-Creator，还可以在外围构建研发流水线和Agent效果运营工具。

只要不改Runtime，就不容易跟官方版本升级撞车。

AI的自主性，不能只靠等待大模型厂商的演进。

因为任何玩家都可以花钱接入顶配大模型，而系统工程的壁垒无法用钱来填补，Manus早就证明过这一点。

真正能把握在手里的差异化，是围绕Self-Evolving可控的系统工程。

可控性是任何一家Agent厂商都绕不过去的坎。

在token上砸万元之后，我摸到了一些让这套系统真正跑起来的线索。

下一篇，我会详细拆解用19路Agent并行和“7人裁决殿”硬生生烧出来的实战经验。看看当Agent之间开始互相协同、博弈、学习时，到底会产生怎样的化学反应。

我们下期见。

作者：于长煦AI洞察；公众号：弘观AI

本文由 @于长煦AI洞察原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

于长煦AI洞察

公众号：AI产品于长煦，8年AI产品Leader，前安克_具身智能产品总监

10篇作品 186034总阅读量

抖音与饿了么：边搞“暧昧”边提防

12-272437 浏览

抖音与饿了么：边搞“暧昧”边提防

生鲜电商保卫战：盒马鲜生“进”，叮咚买菜“退”

09-152715 浏览

生鲜电商保卫战：盒马鲜生“进”，叮咚买菜“退”

我们为什么要标准定价？如何定价？

09-1610382 浏览

我们为什么要标准定价？如何定价？

女网红靠GPT-4交1000+男友，聊天按分钟收费，一周收入50万

05-154789 浏览

女网红靠GPT-4交1000+男友，聊天按分钟收费，一周收入50万

1张报表，玩转数据分析，撬动存量转化！

10-086735 浏览

1张报表，玩转数据分析，撬动存量转化！

评论

目前还没评论，等你发挥！

互联网就业进行时

01-184600 浏览
红杉掌门人Roelof Botha最新专访：命运的齿轮在逆风中转动，无论是公司或个人，主动或被动，想要成功，就不要老期望完美！

09-111807 浏览
8年产品实战经验教你如何通过结构化思维提升产品能力

06-017675 浏览