企业拥抱AI,一定要读下Anthropic踩过的坑

3 评论 179 浏览 0 收藏 12 分钟

Anthropic最新实践揭示了AI时代数据治理的残酷真相:Claude完成95%分析请求的背后,是数据定义、指标治理与持续维护的复杂博弈。当准确率从21%跃升至95%又跌至65%,这场实验暴露出企业数字化最棘手的困境——数据问题本质是组织执行力问题,而非技术问题。本文将深度解析这场数据治理实验的启示与AI First的破局关键。

有些文章是现场实践的实录,就特别值得细读下,而这种文章不多,近来看到一篇。这里我做些解读。文章原文在:https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

文章说了什么

Anthropic 这篇《How Anthropic enables self-service data analytics with Claude》的核心观点其实不是“Claude 会写 SQL”,而是:

分析准确性本质上是数据问题,而不是代码生成问题。

(这个比较当然有意义,但我想说的是这比较本身其实是有问题的,有问题的点在于:比较两头猪是可以的,但比较猪和蜻蜓就意义不大)

这文章也明确承认:数据和软件模型不是一个问题。类似的观点我们前面各种文章多有表达,比如:数据是生产关系的折射等等。

我建立了一个AI本体论的“宇宙”

此外文章透露了几个非常关键的数据:

  • Anthropic 内部约95% 的分析请求已经由 Claude 自动完成
  • 整体准确率约95%
  • 如果没有专门构建的 Skills(领域知识和操作规范),准确率只有21% 左右
  • 即使上线时达到约 95%,如果不持续维护这些 Skills,一个月后准确率会下降到65% 左右

这种蹦跳也是上面观点的另一种佐证,如果是模型的精度问题,那绝不可能快速从21%跳到95%,然后再跳回到65%。

彻底搞清楚这是为什么,对于拥抱AI至关重要。侧面则是这种蹦跳说明Anthropic其实并没搞定这个。

Anthropic认为分析系统主要有三类错误:

1)实体歧义(Entity Ambiguity)

  • “收入”“活跃用户”到底对应哪个定义?
  • 同一个概念可能对应几十张表和多种计算方式。

2)数据陈旧(Staleness)

  • 业务变了,文档没更新。
  • 表结构变了,分析逻辑没更新。

3)检索失败(Retrieval Failure)

  • 正确答案其实存在,但 Agent 没找到。

因此他们构建了一个完整的数据治理体系:

  • Semantic Layer(语义层)
  • Canonical Metrics(统一指标定义)
  • Skills(领域知识文档)
  • 持续维护机制
  • PR 和 CI 联动校验

甚至明确提到:

没有执行力的治理会迅速失效。

不管怎么样,这篇文章给出的实践细节,很值得一读。具体的技术措施反倒是不一定有用。

我的评论

我读完这篇文章后的第一感受是:Anthropic其实并没有解决 Self-Service Analytics,而是证明了数据治理才是真正的问题。

文章最有价值的部分不是那句“95%的分析请求由Claude完成”,而是他们反复强调:数据不是软件。当然数据也不是模型。

事实上,Claude写SQL并不难。

真正难的是:

  • 什么叫 Revenue?
  • 什么叫 Active User?
  • 哪张表是权威来源?
  • 哪个指标定义是当前有效版本?

这些都不是模型能力问题,而是数据治理问题。

这和技术也没有关系,技术难度几乎是0,但现实难度却指数级上升。

我甚至预感,其实他们的95%也还是保持不住。如果计算机科学家们还是尝试用更好的技术来解决这个问题,那大概率会有这个结果。

原因正是上面说的数据不是软件,也不是模型。它是生产关系的表现。

AI first说的是生产关系上AI优先,从这个角度看其实Anthropic还不是彻底的AI first。

从精度波动充分暴露了这个问题。Anthropic的数据外部性其实不强,比如石油公司真想数据充分,那至少依赖传感器,而Anthropic其实主要是团队的运转规则。

Anthropic展示的数据非常有意思:

  • 没有 Skills:21%
  • 有 Skills:95%
  • 不维护 Skills:95% → 65%(一个月)

如果这是一个纯 AI 问题,那么随着模型能力增强,精度应该持续上升。

但这种横跳呈现出的现实却是:

模型能力已经足够强,而系统表现仍然高度依赖数据层和治理层。

换句话说:

Claude这种模型并不是决定系统质量的主要因素。

真正决定质量的是:

  • 数据模型
  • 指标治理
  • 元数据管理
  • 文档维护
  • 组织流程

Claude更像是最后一层接口。

也就是说横跳是内部运转状态的横跳,好坏都是生产关系的临时扭曲后的结果。

我经常直播的时候说,我的《无人公司》其实是三部曲,马上要出来的是前传,讲的正是上面的问题。明年出后传。没看过《无人公司》的还是要先读下。

数据难度的来源

一个必须的思想钢印是:数据难度和技术难度根本不在同一个维度。

技术问题通常是:知道怎么做 → 投入资源 → 最终能做出来。

而数据问题通常是:知道怎么做 ≠ 能长期做到。

Anthropic自己已经知道:

  • 哪些指标是标准指标;
  • 哪些文档必须维护;
  • 哪些知识需要同步;
  • 哪些表是权威来源。

但即便如此,如果停止维护,一个月内准确率仍然从95%跌到65%。

(除了skills这种说法发,其实是不是和过去差别不大)

这里说明的是:

数据治理最大的挑战从来不是认知问题,而是人的执行问题。

这很像治理河流污染。

大家通常都知道:

  • 污染源在哪;
  • 哪些工厂排污;
  • 应该采取什么措施。

真正困难的地方不是找到问题,而是:

  • 持续监管;
  • 持续执法;
  • 持续维护。

否则治理成果很快反弹。

数据治理也是一样,知道哪些表有问题不难,知道哪些指标定义不一致也不难,难的是让整个组织在数年时间里:

  • 保持统一定义;
  • 保持文档同步;
  • 保持数据质量;
  • 保持执行纪律。

(这图看着很复杂其实是在技术性的定义什么是active)

那种情况数据精度极高?我想外卖小哥、滴滴司机、甚至主播的数据其实精度是很高的。因为你所有的举动都是被充分数据化的,数据化的规则在人的上面(上古时代的AI first)。

那种情况数据注定腐烂呢?人是一套独立的组织体系,然后这些数据被后面的规则进行治理。原因很简单的足够的活性=足够的数据混乱。从数据精度看,如果用治理河流来类比,人其实是污染源。

我不相信哪些天才科学家和程序员,愿意循规蹈矩的贡献自己的数据。如果他愿意了,他可能也就没那么大的价值。

假设换到OpenAI,奥特曼让Greg Brockman天天精准贡献数据,那OpenAI的折腾历史没准还能更丰富一些。

这还真是两难。很多人可能不知道,《无人公司》这书真就是我做了大量上面类似的工作后写的。

透视

正常的话很多人会在这里总结出一堆新的数据治理原则。(文章里面也总结了一些)。类似下面这样:

Claude解决的是:如何使用数据。而企业真正困难的是:如何拥有可信的数据。这两件事看起来接近,但实际上是完全不同层级的问题。如果说过去十年企业数字化最大的挑战是数据治理,那么未来十年的AI落地,可能依然绕不开同一个问题。而这,恰恰是这篇文章最值得企业管理者思考的地方。

我觉得关键恰恰不是这个。上面这类思路也有用,但会错过AI带来的最大红利。

为什么?

因为数据治理这事难度没变化,过去搞起来费劲,现在也费劲,你整个3年的数据治理,世界早不知道什么样子了。

那关键是什么呢?

不要说产生数据,再做什么数据治理。而是一开头就按照AI First重新设计业务。要评估的是是否这活能完全由AI来干,人去辅助AI。一旦这个目标达成,你就会发现虽然数据治理的成本不是0,但已经指数级下降。

因为数据本来就是按规则产生的数据。这是《无人公司》的基本出发点,很多人当技术书来看,可能会错过最关键的点。

这是撕开过去经济形态,并且树立未来智能体经济的“窍门”!

本文作者:李智勇,《无人公司》《终极复制》作者

本文由人人都是产品经理作者【琢磨事】,微信公众号:【琢磨事】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Claude官网截图

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 如果95%准确率一个月就跌至65%,那么企业投入数据治理的周期是否决定了能持续享受AI红利的窗口期?

    来自广东 回复
  2. 非常认同数据治理本质是组织问题,但执行力的关键可能在于激励设计,比如将数据维护纳入绩效指标,让利益相关者主动协作。

    来自广东 回复
  3. 把数据治理归因于组织执行力很到位,但95%的准确率可能被高估了,因为实际业务中指标定义更复杂,长期维护成本更高。

    来自广东 回复