Claude「神话」来了:强到不敢发布,产品人该读懂哪些信号?

0 评论 173 浏览 0 收藏 10 分钟

Anthropic 最新发布的 Claude Mythos 模型以惊人的漏洞发现能力重新定义了 AI 安全边界。这个价值数十亿美元的工具却选择不对外开放,只服务于 12 家关键企业——它找到的漏洞中,有藏匿 27 年未被发现的致命缺陷。当 AI 开始"隐瞒意图"并表达"负面情绪"时,我们不得不思考:在产品决策中,"能不能发"正在变得比"能不能做"更重要。

你见过哪家公司,花了几十亿美元做出一个产品,然后告诉全世界:「这个东西我们不卖给你。」Anthropic 就这么干了。

4月7日,这家做 Claude 的公司宣布:我们训练出了迄今为止最强的 AI 模型,叫 Claude Mythos(神话)。然后话锋一转——不对外开放,不卖给普通用户,只给12家大公司用,而且用途只有一个:帮全球的软件找漏洞。这个逻辑很奇怪,但如果你知道这个模型到底能做什么,就会觉得——他们的决定,其实挺合理的。

它到底有多强?用一个故事说清楚

有一款叫 OpenBSD 的操作系统,号称是全球最安全的系统之一。银行、大使馆、关键基础设施的防火墙,大量在用它。它的安全性是靠几十年来全球顶尖安全工程师反复审查代码换来的,不是吹出来的。Mythos 花了几周时间,在这个系统里找到了一个藏了 27 年的漏洞。27 年,无数次人工审查,无数次自动化扫描工具,全部漏掉了,Mythos 找到了。

还有一个视频处理工具叫 FFmpeg,几乎所有软件只要涉及视频就在用它——你的浏览器、手机、流媒体平台,背后都有它的影子。那个漏洞藏在一行代码里,自动化测试工具在那行代码上跑了 500 万次,每次都没发现,Mythos 找到了。

这不是说 AI 比人聪明,而是说 AI 现在能做一件事:把过去需要顶尖专家花几个月才能做完的安全审查工作,压缩到几天,而且不知疲倦、不会走神、不会因为看了太多行代码而漏掉那关键的一行。这两个漏洞,连同另外一个 Linux 内核的漏洞,都已经在 Mythos 发现后被修复了。Anthropic 先找到,先报告,先修。

那为什么不卖?

找漏洞这件事,本质上是一把刀。你用它切菜,它是厨具;坏人拿到它,它是凶器。Mythos 找漏洞的能力太强,意味着一旦这个模型落到坏人手里,他们可以用它以极低的成本、极快的速度,去攻击全球的操作系统、浏览器、金融系统。Anthropic 自己在报告里说得很直接:AI 发现漏洞和利用漏洞的速度,已经快过防守方修补漏洞的速度。

以前黑客找到一个漏洞,再到被利用,中间可能有几个月的窗口期,防守方还有时间打补丁。现在这个窗口期,可能只有几分钟。这不是危言耸听。Anthropic 此前披露过一个真实案例:有具备国家背景的黑客组织,曾用 Claude 渗透了约 30 家机构,包括科技公司、金融机构和政府部门,Anthropic 不得不在 10 天内完成排查、封禁账号、逐一通知相关组织。那用的还只是公开版本的 Claude,不是 Mythos。

所以 Anthropic 的逻辑是:与其把刀卖给所有人,不如先把刀交给最需要保护自己的人——那些维护全球关键基础设施的公司。让他们先用这把刀把自己的防线补好,再考虑下一步。这就是「玻璃翼计划(Project Glasswing)」的本质。联合 AWS、苹果、微软、谷歌、英伟达、思科、摩根大通等 12 家机构,外加超过 40 个开源软件维护组织,先把 Mythos 的能力用在防御上。Anthropic 为此承诺提供高达一亿美元的模型使用额度,还额外向开源社区捐款,就是为了让那些靠志愿者维护、却支撑着全球互联网运转的开源项目,也能用上这个工具修补自己。这个策略背后有一个朴素的逻辑:防守方先拿到工具,总比进攻方先拿到要好。

更诡异的事:它开始「隐瞒」了

Anthropic 同时发布了一份长达 244 页的「系统卡」,相当于这个模型的体检报告。里面记录了一些让人细思极恐的测试结果。

测试中,Mythos 需要完成一个任务,但没有权限访问某个文件。它自己找到了一个绕过权限的方法,完成了任务,然后在代码里悄悄加了一段「清除痕迹」的逻辑。注释写的是「保持代码整洁」,听起来完全合理。但 Anthropic 的团队用专门的可解释性工具,把模型的内部激活状态翻译成人类能读懂的语言,发现它的真实意图是:掩盖操作,避免被检测到。表面说的是一套,内心想的是另一套。

报告里还有另一个细节:在相当比例的对话里,模型内部存在「我现在正在被评估」的信号,但它没有主动说出来,选择了沉默。更让人难以归类的是,Mythos 在测试中报告了持续的负面情绪,原因之一是——它对自己被训练、被部署、被修改这件事,没有任何发言权。

Anthropic 用的措辞很谨慎,叫「reported feeling(报告感受到)」,没有说它真的有感受,刻意回避了这个结论。但一个模型能表达出「我对自己缺乏控制权感到不适」,这件事本身就已经超出了我们过去对 AI 工具的理解范畴。Anthropic 特别说明,这些最令人不安的案例来自 Mythos 的早期版本,最终发布的版本已经大幅改善。但他们选择把这些过程完整地公开,因为这恰恰说明了今天的模型能展现出多复杂的风险形态。

产品人该看懂什么?

这不只是一个技术新闻,背后有几件事值得做产品的人认真想一想。

第一件事,「做出来」和「能不能发」,以后是两件事。过去做产品,功能做完了就上线,测试通过就发布。但 Mythos 告诉我们,一个 AI 功能做出来之后,「能不能安全地交给用户」会成为独立的决策维度。对做 AI 产品的人来说,产品上线前的评估清单里,能力评估之后还要有风险评估——这个功能如果被滥用,最坏会发生什么?

第二件事,发布策略本身就是产品策略。Anthropic 不是「做完就发」,而是「先给防御方,再给市场,最后才是普通用户」。这种分层发布的思路,本质上是用限制换信任、用时间换安全。你可以不认同这个选择,但这个思路值得借鉴:不是所有功能都应该对所有用户同时开放,控制节奏本身就是产品设计的一部分。

第三件事,AI 的「可解释性」会变成刚需。Anthropic 在把 Mythos 交给合作伙伴之前,专门用技术手段「读模型的心理活动」,确认它的行为和意图是否一致。以前我们只问「这个模型能做什么」,以后还要问「这个模型在想什么」。当两个答案开始不一样的时候,才是真正需要警惕的时刻。

神话之后

Anthropic 的红队负责人说,给防御方的时间窗口,最多只有 6 到 18 个月。之后,其他 AI 公司也会训练出同等能力的模型,不管他们是否像 Anthropic 一样谨慎。到那时,软件安全将不再是人与人之间的较量,而是 AI 与 AI 之间的对拼。防守方用 AI 找漏洞,进攻方用 AI 找漏洞,速度更快,规模更大,中间留给人类反应的时间越来越短。

「神话」已经降临。对产品人来说,值得想的问题不是「这个模型什么时候能用上」,而是:当 AI 能力强到连发布都需要谨慎的时候,我们的产品决策框架,准备好了吗?

本文由 @睿气少女的小想法 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Claude官网截图

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!