企业拥抱AI,一定要读下Anthropic踩过的坑
Anthropic最新实践揭示了AI时代数据治理的残酷真相:Claude完成95%分析请求的背后,是数据定义、指标治理与持续维护的复杂博弈。当准确率从21%跃升至95%又跌至65%,这场实验暴露出企业数字化最棘手的困境——数据问题本质是组织执行力问题,而非技术问题。本文将深度解析这场数据治理实验的启示与AI First的破局关键。

有些文章是现场实践的实录,就特别值得细读下,而这种文章不多,近来看到一篇。这里我做些解读。文章原文在:https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude
文章说了什么
Anthropic 这篇《How Anthropic enables self-service data analytics with Claude》的核心观点其实不是“Claude 会写 SQL”,而是:
分析准确性本质上是数据问题,而不是代码生成问题。

(这个比较当然有意义,但我想说的是这比较本身其实是有问题的,有问题的点在于:比较两头猪是可以的,但比较猪和蜻蜓就意义不大)
这文章也明确承认:数据和软件模型不是一个问题。类似的观点我们前面各种文章多有表达,比如:数据是生产关系的折射等等。
我建立了一个AI本体论的“宇宙”
此外文章透露了几个非常关键的数据:
- Anthropic 内部约95% 的分析请求已经由 Claude 自动完成。
- 整体准确率约95%。
- 如果没有专门构建的 Skills(领域知识和操作规范),准确率只有21% 左右。
- 即使上线时达到约 95%,如果不持续维护这些 Skills,一个月后准确率会下降到65% 左右。
这种蹦跳也是上面观点的另一种佐证,如果是模型的精度问题,那绝不可能快速从21%跳到95%,然后再跳回到65%。
彻底搞清楚这是为什么,对于拥抱AI至关重要。侧面则是这种蹦跳说明Anthropic其实并没搞定这个。
Anthropic认为分析系统主要有三类错误:
1)实体歧义(Entity Ambiguity)
- “收入”“活跃用户”到底对应哪个定义?
- 同一个概念可能对应几十张表和多种计算方式。
2)数据陈旧(Staleness)
- 业务变了,文档没更新。
- 表结构变了,分析逻辑没更新。
3)检索失败(Retrieval Failure)
- 正确答案其实存在,但 Agent 没找到。
因此他们构建了一个完整的数据治理体系:
- Semantic Layer(语义层)
- Canonical Metrics(统一指标定义)
- Skills(领域知识文档)
- 持续维护机制
- PR 和 CI 联动校验
甚至明确提到:
没有执行力的治理会迅速失效。
不管怎么样,这篇文章给出的实践细节,很值得一读。具体的技术措施反倒是不一定有用。
我的评论
我读完这篇文章后的第一感受是:Anthropic其实并没有解决 Self-Service Analytics,而是证明了数据治理才是真正的问题。
文章最有价值的部分不是那句“95%的分析请求由Claude完成”,而是他们反复强调:数据不是软件。当然数据也不是模型。
事实上,Claude写SQL并不难。
真正难的是:
- 什么叫 Revenue?
- 什么叫 Active User?
- 哪张表是权威来源?
- 哪个指标定义是当前有效版本?
这些都不是模型能力问题,而是数据治理问题。
这和技术也没有关系,技术难度几乎是0,但现实难度却指数级上升。
我甚至预感,其实他们的95%也还是保持不住。如果计算机科学家们还是尝试用更好的技术来解决这个问题,那大概率会有这个结果。
原因正是上面说的数据不是软件,也不是模型。它是生产关系的表现。
AI first说的是生产关系上AI优先,从这个角度看其实Anthropic还不是彻底的AI first。
从精度波动充分暴露了这个问题。Anthropic的数据外部性其实不强,比如石油公司真想数据充分,那至少依赖传感器,而Anthropic其实主要是团队的运转规则。
Anthropic展示的数据非常有意思:
- 没有 Skills:21%
- 有 Skills:95%
- 不维护 Skills:95% → 65%(一个月)
如果这是一个纯 AI 问题,那么随着模型能力增强,精度应该持续上升。
但这种横跳呈现出的现实却是:
模型能力已经足够强,而系统表现仍然高度依赖数据层和治理层。
换句话说:
Claude这种模型并不是决定系统质量的主要因素。
真正决定质量的是:
- 数据模型
- 指标治理
- 元数据管理
- 文档维护
- 组织流程
Claude更像是最后一层接口。
也就是说横跳是内部运转状态的横跳,好坏都是生产关系的临时扭曲后的结果。
我经常直播的时候说,我的《无人公司》其实是三部曲,马上要出来的是前传,讲的正是上面的问题。明年出后传。没看过《无人公司》的还是要先读下。
数据难度的来源
一个必须的思想钢印是:数据难度和技术难度根本不在同一个维度。
技术问题通常是:知道怎么做 → 投入资源 → 最终能做出来。
而数据问题通常是:知道怎么做 ≠ 能长期做到。
Anthropic自己已经知道:
- 哪些指标是标准指标;
- 哪些文档必须维护;
- 哪些知识需要同步;
- 哪些表是权威来源。
但即便如此,如果停止维护,一个月内准确率仍然从95%跌到65%。

(除了skills这种说法发,其实是不是和过去差别不大)
这里说明的是:
数据治理最大的挑战从来不是认知问题,而是人的执行问题。
这很像治理河流污染。
大家通常都知道:
- 污染源在哪;
- 哪些工厂排污;
- 应该采取什么措施。
真正困难的地方不是找到问题,而是:
- 持续监管;
- 持续执法;
- 持续维护。
否则治理成果很快反弹。
数据治理也是一样,知道哪些表有问题不难,知道哪些指标定义不一致也不难,难的是让整个组织在数年时间里:
- 保持统一定义;
- 保持文档同步;
- 保持数据质量;
- 保持执行纪律。
(这图看着很复杂其实是在技术性的定义什么是active)
那种情况数据精度极高?我想外卖小哥、滴滴司机、甚至主播的数据其实精度是很高的。因为你所有的举动都是被充分数据化的,数据化的规则在人的上面(上古时代的AI first)。
那种情况数据注定腐烂呢?人是一套独立的组织体系,然后这些数据被后面的规则进行治理。原因很简单的足够的活性=足够的数据混乱。从数据精度看,如果用治理河流来类比,人其实是污染源。
我不相信哪些天才科学家和程序员,愿意循规蹈矩的贡献自己的数据。如果他愿意了,他可能也就没那么大的价值。
假设换到OpenAI,奥特曼让Greg Brockman天天精准贡献数据,那OpenAI的折腾历史没准还能更丰富一些。
这还真是两难。很多人可能不知道,《无人公司》这书真就是我做了大量上面类似的工作后写的。
透视
正常的话很多人会在这里总结出一堆新的数据治理原则。(文章里面也总结了一些)。类似下面这样:
Claude解决的是:如何使用数据。而企业真正困难的是:如何拥有可信的数据。这两件事看起来接近,但实际上是完全不同层级的问题。如果说过去十年企业数字化最大的挑战是数据治理,那么未来十年的AI落地,可能依然绕不开同一个问题。而这,恰恰是这篇文章最值得企业管理者思考的地方。
我觉得关键恰恰不是这个。上面这类思路也有用,但会错过AI带来的最大红利。
为什么?
因为数据治理这事难度没变化,过去搞起来费劲,现在也费劲,你整个3年的数据治理,世界早不知道什么样子了。
那关键是什么呢?
不要说产生数据,再做什么数据治理。而是一开头就按照AI First重新设计业务。要评估的是是否这活能完全由AI来干,人去辅助AI。一旦这个目标达成,你就会发现虽然数据治理的成本不是0,但已经指数级下降。
因为数据本来就是按规则产生的数据。这是《无人公司》的基本出发点,很多人当技术书来看,可能会错过最关键的点。
这是撕开过去经济形态,并且树立未来智能体经济的“窍门”!
本文作者:李智勇,《无人公司》《终极复制》作者
本文由人人都是产品经理作者【琢磨事】,微信公众号:【琢磨事】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Claude官网截图

起点课堂会员权益





如果95%准确率一个月就跌至65%,那么企业投入数据治理的周期是否决定了能持续享受AI红利的窗口期?
非常认同数据治理本质是组织问题,但执行力的关键可能在于激励设计,比如将数据维护纳入绩效指标,让利益相关者主动协作。
把数据治理归因于组织执行力很到位,但95%的准确率可能被高估了,因为实际业务中指标定义更复杂,长期维护成本更高。