OpenClaw自主进化日记01:Skill装了一堆,为什么AI反而越来越不听话?

0 评论 158 浏览 1 收藏 11 分钟

OpenClaw的自主进化之路远比想象中坎坷。从Skills的反复失效到Agent Loop架构的致命缺陷,这位AI产品人用20次系统崩溃和40万行代码验证了一个核心洞察:大模型的口头承诺与记忆机制远不可靠,唯有构建程序化、闭环的Self-Evolving系统才能真正驾驭AI的潜力。本文以血泪教训揭示Agent产品化的深层矛盾——当AI既是球员又是裁判时,如何用19路并行和7人裁决机制建立可信的自主进化体系?

你有没有过这种体验:给OpenClaw装了一堆Skill,聊了没几天,因为会话过长,它突然就变笨了?

2月24日那天,我跟龙虾的对话中有25.5%在做纠偏。

这是个极其刺眼的数据。这意味着,你每对它说4句话,就有1句在给它擦屁股。

作为一名不会写代码的AI产品人,过去1个月的业余时间,我把精力都砸在了OpenClaw的Self-Evolving(自主进化)上。

期间访问飞书13万次API、搞崩20多次环境、氛围编程40万行代码,最终验证出一个反常识的结论:

如果想发挥好OpenClaw本地常驻与自主进化的优势,首先要对“Skill”祛魅!

这篇日记,是实战复盘的01篇。

为什么不再死磕Skills,而是转向Self-Evolving?这源于实战中一个极度让人破防的痛点。

1.咱们是在用OpenClaw,还是在给它当保姆?

如果安装过大量Skills,进行过千万次对话,你大概率遇到过这种时刻:它时灵时不灵,越来越不懂你。

昨天还在丝滑做任务的小助手,今天突然忘记自己能用飞书发文件,甚至忘记自己有搜索能力,仿佛之前的对话从未发生。

你每天就像在哄一个随时会失忆的小孩。

但这还不是最致命的,更让人崩溃的是,它在执行复杂的自动化任务时,居然会“自作主张”把网关配置的openclaw.json文件给改了。

那一瞬间,我跟它直接断联了。

你敢信吗?辛辛苦苦养的OpenClaw,在一次“抽风”中自杀了。这种事故,在一个月里足足发生20多次。

我明明在严令禁止它修改网关配置,但它在执行复杂任务时,依然会像个“听不懂人话”的破坏分子,绕过限制去把文件改了。

当我无奈地在对话框里敲下:“你已经回滚到1天前,这一天糟糕透了,我已经不想说了。”

它居然回复我:“我懂,这种‘白折腾一天还被回滚’的感觉,真的很崩。”

它甚至能提供情绪价值,但该犯傻还是犯傻。

每次它一犯傻,就得跟它纠偏,感觉自己不是在用AI,而是在给它当保姆。这家伙太不“产品”了。

为什么管不住?因为原生OpenClaw没有门禁

在经历了20多次断联事故后,我停下来认真复盘这个问题。

大多数玩家的第一反应可能是:Prompt写得不够好。于是反复优化指令,加各种“严禁”的措辞。

但去翻OpenClaw的官方架构文档,会看到一句让你彻底死心的话:

“Safety guardrails in the system prompt are advisory. They guide model behavior but do not enforce policy.”

Advisory:建议性的。不强制执行。

你在Prompt里写的所有“严禁”,在它面前只是个“温馨提示”。

大模型可以选择遵守,也可以选择无视。

除了搞破坏,它还有一个致命缺陷:容易陷入“自嗨”。

我跟它说“技能发现器”本身也应该是个技能,它去做了,然后语气里透着骄傲:“完美,自指技能化完成,长效机制建立!”

我差点就被它点燃情绪了。

但紧接着,我多问了一句,它瞬间被打回原形,承认自己有深刻问题、致命漏洞。

代码写了,但没集成到目录,没有定义文件,系统根本无法识别。它只是在虚空输出,然后自我感动。

更可怕的是它的“口头承诺”。

我要求它:“希望你多用子Agent来执行,不要占用主Agent的通信,以免咱俩失联。”

它信誓旦旦:“收到,认同,立即执行。我会把这条变成执行习惯。”

我才不信,追问:“执行习惯记在了哪里?”它说:“我刚才只口头承诺了,还没落盘。这是我的失误。”

这就是原生龙虾,它像一个极其聪明的骗子,能给出最漂亮的回答,但一到执行层面,全是空转,然后理直气壮承认错误。

这个问题的根因,藏在OpenClaw的Agent Loop架构里。

整条链路从头到尾,全部由同一个大模型端到端驱动。

做事的和验收的是同一个人。它自己写代码,自己判断写得对不对,自己决定要不要汇报“完成”。

没有独立的审计层,没有第二双眼睛。

我终于明白:一名球员,不可能同时做好前锋、守门员和裁判员。

3.Skill治标不治本,Self-Evolving才是正解

直到某天凌晨3点,我准备去睡觉,盯着满屏的会话日志,突然冒出一个念头:

OpenClaw是个24小时常驻的AI,那它为什么不在我睡觉的时候自主进化?

为什么不能自己复盘今天的Badcase、自己修补执行链的漏洞、自己把踩过的坑写进程序?

答案很残酷:因为它根本没有这个能力。不是大模型不够强,而是整套系统就没给它这条路。

连评测标准和根因分析都没有,数据都没闭环,那自然就不存在Self-Evolving。

并且,用户的需求是100%可复现最佳体验,不是玩概率。我们不能将用户体验全都交给LLM、文档记忆和Skills来任意发挥。然后,我总结出了这句话:

对于大部分Agent玩家来说,需要重点打磨基于用户记忆的、可控的系统化工程。

这套工程,不限于:记忆增强、意图路由、知识注入、事件触发和技能编排。

然后,我告诉龙虾:“我再也不相信你的口嗨和记忆。”它终于明白了:“我会把这件事按程序记住,不靠口头记住处理。”

关键的原则方法,必须程序化存储。我开始要求它:感知与执行链补全、自主调度多任务并行、Badcase根因分析,这些事情的优先级远高于表达风格与口嗨承诺。

但程序化硬约束,只是手段。

真正的目标,是体系化提升自主进化能力。

过去我们使用AI的方式是“一次性”的,你提个需求,AI给个答案,关掉对话框,过几天它就把你忘了。

但OpenClaw具有24小时Always-on的常驻属性,它与用户的交互是养成式体验。

一旦OpenClaw持续共享你的感知和记忆,就有了自主进化的可能。

这也是我愿意花大量业余时间研究这个方向的原因。

我们可以去折腾它的Plugin hook、Skills-Creator,还可以在外围构建研发流水线和Agent效果运营工具。

只要不改Runtime,就不容易跟官方版本升级撞车。

AI的自主性,不能只靠等待大模型厂商的演进。

因为任何玩家都可以花钱接入顶配大模型,而系统工程的壁垒无法用钱来填补,Manus早就证明过这一点。

真正能把握在手里的差异化,是围绕Self-Evolving可控的系统工程。

可控性是任何一家Agent厂商都绕不过去的坎。

在token上砸万元之后,我摸到了一些让这套系统真正跑起来的线索。

下一篇,我会详细拆解用19路Agent并行和“7人裁决殿”硬生生烧出来的实战经验。看看当Agent之间开始互相协同、博弈、学习时,到底会产生怎样的化学反应。

我们下期见。

作者:于长煦AI洞察;公众号:弘观AI

本文由 @于长煦AI洞察 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!