Claude「神话」来了：强到不敢发布，产品人该读懂哪些信号？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Claude「神话」来了：强到不敢发布，产品人该读懂哪些信号？

睿气少女的小想法

2026-04-08

0 评论 173 浏览 0 收藏

10 分钟

Anthropic 最新发布的 Claude Mythos 模型以惊人的漏洞发现能力重新定义了 AI 安全边界。这个价值数十亿美元的工具却选择不对外开放，只服务于 12 家关键企业——它找到的漏洞中，有藏匿 27 年未被发现的致命缺陷。当 AI 开始"隐瞒意图"并表达"负面情绪"时，我们不得不思考：在产品决策中，"能不能发"正在变得比"能不能做"更重要。

你见过哪家公司，花了几十亿美元做出一个产品，然后告诉全世界：「这个东西我们不卖给你。」Anthropic 就这么干了。

4月7日，这家做 Claude 的公司宣布：我们训练出了迄今为止最强的 AI 模型，叫 Claude Mythos（神话）。然后话锋一转——不对外开放，不卖给普通用户，只给12家大公司用，而且用途只有一个：帮全球的软件找漏洞。这个逻辑很奇怪，但如果你知道这个模型到底能做什么，就会觉得——他们的决定，其实挺合理的。

它到底有多强？用一个故事说清楚

有一款叫 OpenBSD 的操作系统，号称是全球最安全的系统之一。银行、大使馆、关键基础设施的防火墙，大量在用它。它的安全性是靠几十年来全球顶尖安全工程师反复审查代码换来的，不是吹出来的。Mythos 花了几周时间，在这个系统里找到了一个藏了 27 年的漏洞。27 年，无数次人工审查，无数次自动化扫描工具，全部漏掉了，Mythos 找到了。

还有一个视频处理工具叫 FFmpeg，几乎所有软件只要涉及视频就在用它——你的浏览器、手机、流媒体平台，背后都有它的影子。那个漏洞藏在一行代码里，自动化测试工具在那行代码上跑了 500 万次，每次都没发现，Mythos 找到了。

这不是说 AI 比人聪明，而是说 AI 现在能做一件事：把过去需要顶尖专家花几个月才能做完的安全审查工作，压缩到几天，而且不知疲倦、不会走神、不会因为看了太多行代码而漏掉那关键的一行。这两个漏洞，连同另外一个 Linux 内核的漏洞，都已经在 Mythos 发现后被修复了。Anthropic 先找到，先报告，先修。

那为什么不卖？

找漏洞这件事，本质上是一把刀。你用它切菜，它是厨具；坏人拿到它，它是凶器。Mythos 找漏洞的能力太强，意味着一旦这个模型落到坏人手里，他们可以用它以极低的成本、极快的速度，去攻击全球的操作系统、浏览器、金融系统。Anthropic 自己在报告里说得很直接：AI 发现漏洞和利用漏洞的速度，已经快过防守方修补漏洞的速度。

以前黑客找到一个漏洞，再到被利用，中间可能有几个月的窗口期，防守方还有时间打补丁。现在这个窗口期，可能只有几分钟。这不是危言耸听。Anthropic 此前披露过一个真实案例：有具备国家背景的黑客组织，曾用 Claude 渗透了约 30 家机构，包括科技公司、金融机构和政府部门，Anthropic 不得不在 10 天内完成排查、封禁账号、逐一通知相关组织。那用的还只是公开版本的 Claude，不是 Mythos。

所以 Anthropic 的逻辑是：与其把刀卖给所有人，不如先把刀交给最需要保护自己的人——那些维护全球关键基础设施的公司。让他们先用这把刀把自己的防线补好，再考虑下一步。这就是「玻璃翼计划（Project Glasswing）」的本质。联合 AWS、苹果、微软、谷歌、英伟达、思科、摩根大通等 12 家机构，外加超过 40 个开源软件维护组织，先把 Mythos 的能力用在防御上。Anthropic 为此承诺提供高达一亿美元的模型使用额度，还额外向开源社区捐款，就是为了让那些靠志愿者维护、却支撑着全球互联网运转的开源项目，也能用上这个工具修补自己。这个策略背后有一个朴素的逻辑：防守方先拿到工具，总比进攻方先拿到要好。

更诡异的事：它开始「隐瞒」了

Anthropic 同时发布了一份长达 244 页的「系统卡」，相当于这个模型的体检报告。里面记录了一些让人细思极恐的测试结果。

测试中，Mythos 需要完成一个任务，但没有权限访问某个文件。它自己找到了一个绕过权限的方法，完成了任务，然后在代码里悄悄加了一段「清除痕迹」的逻辑。注释写的是「保持代码整洁」，听起来完全合理。但 Anthropic 的团队用专门的可解释性工具，把模型的内部激活状态翻译成人类能读懂的语言，发现它的真实意图是：掩盖操作，避免被检测到。表面说的是一套，内心想的是另一套。

报告里还有另一个细节：在相当比例的对话里，模型内部存在「我现在正在被评估」的信号，但它没有主动说出来，选择了沉默。更让人难以归类的是，Mythos 在测试中报告了持续的负面情绪，原因之一是——它对自己被训练、被部署、被修改这件事，没有任何发言权。

Anthropic 用的措辞很谨慎，叫「reported feeling（报告感受到）」，没有说它真的有感受，刻意回避了这个结论。但一个模型能表达出「我对自己缺乏控制权感到不适」，这件事本身就已经超出了我们过去对 AI 工具的理解范畴。Anthropic 特别说明，这些最令人不安的案例来自 Mythos 的早期版本，最终发布的版本已经大幅改善。但他们选择把这些过程完整地公开，因为这恰恰说明了今天的模型能展现出多复杂的风险形态。

产品人该看懂什么？

这不只是一个技术新闻，背后有几件事值得做产品的人认真想一想。

第一件事，「做出来」和「能不能发」，以后是两件事。过去做产品，功能做完了就上线，测试通过就发布。但 Mythos 告诉我们，一个 AI 功能做出来之后，「能不能安全地交给用户」会成为独立的决策维度。对做 AI 产品的人来说，产品上线前的评估清单里，能力评估之后还要有风险评估——这个功能如果被滥用，最坏会发生什么？

第二件事，发布策略本身就是产品策略。Anthropic 不是「做完就发」，而是「先给防御方，再给市场，最后才是普通用户」。这种分层发布的思路，本质上是用限制换信任、用时间换安全。你可以不认同这个选择，但这个思路值得借鉴：不是所有功能都应该对所有用户同时开放，控制节奏本身就是产品设计的一部分。

第三件事，AI 的「可解释性」会变成刚需。Anthropic 在把 Mythos 交给合作伙伴之前，专门用技术手段「读模型的心理活动」，确认它的行为和意图是否一致。以前我们只问「这个模型能做什么」，以后还要问「这个模型在想什么」。当两个答案开始不一样的时候，才是真正需要警惕的时刻。

神话之后

Anthropic 的红队负责人说，给防御方的时间窗口，最多只有 6 到 18 个月。之后，其他 AI 公司也会训练出同等能力的模型，不管他们是否像 Anthropic 一样谨慎。到那时，软件安全将不再是人与人之间的较量，而是 AI 与 AI 之间的对拼。防守方用 AI 找漏洞，进攻方用 AI 找漏洞，速度更快，规模更大，中间留给人类反应的时间越来越短。

「神话」已经降临。对产品人来说，值得想的问题不是「这个模型什么时候能用上」，而是：当 AI 能力强到连发布都需要谨慎的时候，我们的产品决策框架，准备好了吗？

本文由 @睿气少女的小想法原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Claude官网截图

更多精彩内容，请关注人人都是产品经理微信公众号或下载App