Anthropic造了一个”太危险”的AI,然后决定不发布它
AI行业迎来历史性拐点!Anthropic最新发布的Claude Mythos模型展现惊人能力——90分钟攻破Linux内核、挖掘27年老漏洞,却因安全风险被主动雪藏。这份244页技术报告揭示:当AI强大到能自主发起网络攻击时,产品经理的安全思维必须彻底重构。从核不扩散式的Project Glasswing计划,到Anthropic1亿美元的安全投入,这次事件正在重新定义AI产品的伦理边界与商业逻辑。

7日,Anthropic干了一件AI圈从未有过的事——发布了一个244页的技术报告(System Card),详细介绍了一个叫Claude Mythos的模型有多强大,然后告诉你:对不起,这个模型我们不打算公开发布。
不是没做完,不是还在测试。是做完了,测完了,但觉得太危险了,不敢放出来。
作为一个天天追AI动态的产品经理,我看完这件事前前后后的信息,脑子里蹦出的第一个词是:拐点。
这可能是AI行业第一次真正意义上因为”太强了”而主动踩刹车。值得好好聊聊。
先说说Mythos到底是个什么东西
Claude Mythos的存在其实是3月26日意外曝光的。Anthropic用的一个内容管理系统出了配置错误,把一篇还没发布的草稿博客暴露了出来。草稿里写了一句让整个安全行业都打了个冷战的话——这是Anthropic开发过的”迄今为止最强大的AI模型”。
Fortune最先报道了这个泄露,随后Anthropic确认了模型的存在。
Mythos在Anthropic内部的代号叫Capybara,定位在Opus之上,是一个全新的模型层级。不是Opus的小升级,而是一次跨代际的飞跃。
数据说话。在SWE-bench Verified编码基准上,Mythos得分93.9%,Opus 4.6只有80.8%。在更难的SWE-bench Pro上,Mythos拿了77.8%,Opus只有53.4%。
但真正让Anthropic决定不公开发布的,是它在网络安全领域的表现。
90分钟攻破Linux内核,27年老漏洞被它翻出来了
在CyberGym安全基准上,Mythos得分83.1%,而Opus 4.6是66.6%。
在Cybench基准测试中——涵盖35个CTF安全挑战赛——Mythos做到了每一题都解出来,成功率100%,所有轮次都是满分。直接把这个基准”打爆”了。
更让人后背发凉的是Firefox 147漏洞利用测试。Anthropic让Mythos和Opus分别尝试利用Firefox JavaScript引擎中已修复的漏洞开发可运行的攻击代码。Opus成功了2次,Mythos成功了181次。90倍的差距。
Anthropic自己的安全专家Nicholas Carlini说了一段话,我觉得很值得产品经理们品一品:”在过去几周里,我发现的bug比我整个职业生涯发现的还多。”
这个模型在真实世界中也已经展现了恐怖的能力。它在OpenBSD中找到了一个存在了27年的漏洞——攻击者只需向目标服务器发送几段数据就能让它崩溃。这27年来,没有任何人发现过它。
在FFmpeg里,它挖出了一个藏在16年前那行代码里的漏洞。
在Linux内核里,它不只是找到了漏洞,而是把多个漏洞串联起来,形成了一条完整的攻击链——从普通用户权限一路提权到完全控制整台机器。
Anthropic的评估报告里有一句话说得很直白:Mythos具备”对安全防护较弱的小型企业网络实施端到端自主网络攻击”的能力。
所以Anthropic怎么做的?Project Glasswing
Anthropic没有把Mythos锁进保险柜。他们做了一个我觉得相当聪明的决定——成立了一个叫Project Glasswing的计划,把Mythos以”防御专用”的方式给到全球最关键的基础设施维护者。
首批12家合作伙伴的名单,读一遍你就知道Anthropic对这件事的重视程度:AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks,外加一些没有公布名字的组织。
除了这12家,还有40多个负责构建或维护关键软件基础设施的组织也拿到了Mythos的使用权。
规则很严格:只能用来找自己系统或自己维护的开源项目里的漏洞。发现的所有漏洞必须走协调披露流程。Anthropic保留对模型部署方式的监督权。
Anthropic为这个项目投入了1亿美元的使用额度,还额外向Linux Foundation旗下的Alpha-Omega和OpenSSF捐了250万美元,向Apache基金会捐了150万美元。
Linux Foundation的CEO Jim Zemlin说了一段话很触动我:”过去,安全专业能力是大团队才能享受的奢侈品。开源维护者——他们的软件支撑了全球大部分关键基础设施——一直都是在单打独斗地解决安全问题。”
Project Glasswing第一次让开源维护者也用上了和大厂同级别的安全工具。
好了,说说我自己的看法
1. 这不是营销,这是AI行业的”核武时刻”
我知道一定有人会说:Anthropic这是在玩”说我很危险所以我很厉害”的营销把戏。坦率说,一开始我也有这个念头。
但看完244页的System Card和各个合作伙伴的反馈,我改主意了。
CrowdStrike的CTO说:”漏洞被发现和被攻击者利用之间的窗口已经从几个月缩短到了几分钟。”微软的全球CISO说他们用自己的CTI-REALM基准测试了Mythos,结果”相比之前的模型有实质性的提升”。
这些顶级安全公司没必要帮Anthropic吹牛。他们自己也怕这玩意儿。
核武器发明出来后,人类没有假装它不存在,而是建立了不扩散条约。Mythos的处理方式——承认它存在、限制它的扩散、优先给防守方用——某种程度上就是AI行业的”核不扩散”尝试。
2. 对产品经理来说,安全即将变成”必答题”
如果你在做任何涉及软件的产品,这件事应该让你紧张起来。
过去,安全是”有余力才做”的事。很多团队的安全投入基本就是买个WAF、做做渗透测试、年底应付一下合规审计。但当AI能在几分钟内找到人类27年没发现的漏洞时,这种”差不多得了”的安全态度就变成了巨大的风险敞口。
更关键的是——Anthropic说得很清楚:“以AI进步的速度,不用太久,类似的能力就会扩散。” Mythos是不公开发布,但别的公司、别的模型迟早会追上来。GPT-5.4已经在安全领域展现了很强的能力。
所以问题不是”会不会有人用AI来找我产品的漏洞”,而是”什么时候”。
产品经理该怎么做?至少把安全从”非功能性需求”提升到”核心产品指标”。安全不再是运维的事,它是产品体验的一部分——一次数据泄露就能毁掉你辛辛苦苦建立的用户信任。
3. “不发布”本身就是一种产品策略
Anthropic选择不发布Mythos,短期看损失了收入(这个模型据说推理成本极高),但长期看可能是一步好棋。
首先,它把Anthropic在安全领域的叙事权牢牢抓在了手里。Anthropic从创立第一天起就在讲”安全的AI”,Mythos的处理方式完美呼应了这个品牌故事。在IPO前夕,这个叙事价值巨大。
其次,Project Glasswing让Anthropic和苹果、微软、Google这些巨头建立了深度合作关系。这不是普通的API调用关系,而是”我把我最强的模型给你用,你把你的核心系统给我扫”的信任关系。这种绑定比任何商业合同都牢固。
最后,通过先给防守方”武装到牙齿”,Anthropic在未来正式发布Mythos级别模型时,就可以说:”我们已经提前做了准备。”这给监管者、客户和公众都吃了一颗定心丸。
对产品经理的启示是什么?有时候,”不做什么”比”做什么”更能定义你的产品。 克制不是能力的缺失,而是比能力更稀缺的判断力。
4. System Card里藏了一句我反复看了三遍的话
Anthropic在对齐评估部分写了这么一句:
“Claude Mythos Preview在几乎所有我们能衡量的维度上,都是我们发布过的对齐最好的模型……即便如此,我们认为它可能是我们发布的所有模型中对齐相关风险最大的。”
然后他们用了一个登山类比:一个技术高超的向导可能把客户带入比新手更大的危险——不是因为他更粗心,而是因为他的技术让他能到达更危险的地方。
这段话太精准了。
模型越强,能做的事越多,失控的后果就越严重。这不是技术悲观主义,而是工程现实。你的产品能力越强,你越需要想清楚——如果它”想错了”或”做过了”,后果是什么?有没有回滚机制?有没有人类确认环节?
AI产品的竞争力,以后不只看”能做什么”,还要看”在不该做的时候能不能不做”。
最后说几句
Claude Mythos这件事,往大了说,是AI行业第一次正面面对”能力溢出”的问题。以前我们担心AI不够聪明,现在开始担心它太聪明了。
往小了说,它其实在给所有做AI产品的人提一个很朴素的问题:你的产品如果变得特别强大,你准备好了吗?
强大不只是一种能力,更是一种责任。
Anthropic选择了一条不那么好走的路——花1亿美元把最强的模型免费给人家做安全扫描,而不是直接上线收钱。这个选择是不是最优解,历史会给答案。但至少在此刻,它提供了一种和”疯狂上线疯狂赚钱”不同的思路。
而对于产品经理来说,最值得记住的一句话可能是那个登山向导的比喻——
你能走多远不重要。重要的是你能不能在该停的地方停下来。
本文由 @铭白AI 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Claude官网截图
- 目前还没评论,等你发挥!

起点课堂会员权益



