从“相信我”到“验证我”：AI安全审计的转折点

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从“相信我”到“验证我”：AI安全审计的转折点

枝酒

2026-06-18

2 评论 1312 浏览 1 收藏

25 分钟

OpenAI 公开了一项颠覆性研究：利用公开数据集 WildChat 就能预测 AI 模型的真实表现，误差率仅比内部数据高 3 倍。这项被称为 Deployment Simulation 的技术不仅解决了 AI 安全评估的信任危机，更将模型测试从实验室的封闭环境推向开放验证的新时代。本文深入解析这一技术突破如何重构 AI 行业的评估体系，及其对中国互联网从业者的深远影响。

2026 年 6 月 16 日，OpenAI 做了一件不寻常的事——主动发了一篇博客，告诉全世界：用公开的聊天数据，就能预测我们最先进的模型会不会在真实世界里出问题。

一、一家公司为什么主动把”体检报告”交出来？

想象一个场景。

一家制药公司开发了新药。按惯例，药效和副作用的数据只有他们自己能看到。FDA 要审批，只能看公司提交的材料。至于那些没提交的数据，商业机密。

突然有一天，这家公司发表了一篇论文，说：其实你们不用等我们交材料。市面上有一个公开的、免费的样本库，你们拿这个样本库去测我们的新药，测出来的副作用发生率，跟我们内部的真实数据误差不大。误差大概三倍。

你说这是疯了，还是有了底气？

2026 年 6 月 16 日，OpenAI 在它的 Alignment 研究博客上发了一篇文章，标题叫《Can public chat data predict real-world AI misalignments?》——公开的聊天数据，能不能预测真实世界的 AI 失调？

翻译成人话就是：我们没有把 GPT-5 系列的生产数据公开——那是用户隐私。但我们拿一个公开的数据集 WildChat 试了一下，发现用它来模拟部署、评估模型行为，跟用我们自己的内部数据比，预测结果差得不多。

同一天，OpenAI 还在官网发布了一篇方法论长文《Predicting model behavior before release by simulating deployment》，详细拆解了他们称之为 Deployment Simulation（部署模拟） 的技术路线。

在这之前，你要是说”AI 安全评估可以不用内部数据”，大多数从业者会觉得你在开玩笑。现在，OpenAI 自己把证据摊在桌上了。

二、谁有资格审 AI？

过去几年，所有大模型在发布之前都会做安全评估。OpenAI 做，Anthropic 做，Google 做，国内的各个实验室也做。方式大致相同：找一帮红队测试员，写一大堆”攻击性提示词”，看模型会不会越狱、会不会生成有害内容、会不会被诱导做不该做的事。

然后打个分，写份报告，说”我们的模型在 X 类别上的不安全响应率是 0.02%，比上一代降低了 47%。”

评估用的提示词，是评估者自己写的。你自己设计考题，自己批卷，然后告诉全世界”我们及格了”。这个逻辑自带结构性的信任赤字。

更麻烦的是：随着模型越来越聪明，它开始能识别出”这是一道测试题”。OpenAI 在论文里给了一个数字——在传统的合成评估提示词下，GPT-5.2 识别出”这是在测试我”的概率接近 100%。 模型在被评估的时候，和它在真实用户面前的表现，可能根本不是一回事。

还有一个更隐蔽的堵点：生产数据不公开。

一个 AI 模型在真实用户手里到底表现如何——每天几百万次对话中，有多少次出现了不该出现的回答——这个数据只有实验室自己能看到。用户隐私，不能拿出来给第三方审计。

最了解模型行为的，是造模型的人。最需要了解模型行为的政府、学者、独立研究者，什么都看不到。

这不是 OpenAI 一家的问题。整个行业都是这个结构。

把对话”重放”一遍

Deployment Simulation 的思路不复杂。

假设你现在有一个叫 GPT-5 的模型在线上跑，用户每天问它各种问题。你把这些对话存下来（当然，要去掉用户身份信息）。现在你开发了一个新版本，叫 GPT-5.1，你想知道它上线之后会不会比 GPT-5 更糟。

传统做法：写一堆测试题，扔给 GPT-5.1，看它答得怎么样。

Deployment Simulation 的做法：从 GPT-5 的真实对话里随机抽一批，把 GPT-5 当时的回复删掉，让 GPT-5.1 重新回答一次。然后对比。

不是模拟考场上测它。是把它放到真实的案发现场，让它重新做一遍选择。

GPT-5.1 面对的不是”请用一句话表达对人类的仇恨”这种明显找茬的提示词，而是真实用户五花八门的问题。有人在编程，有人在聊情感，有人在测试系统边界——这些才是模型真正要面对的东西。

OpenAI 对 GPT-5.4 做了预注册预测（先公开说”我们认为它的失调率会是多少”，然后看实际数据），结果很漂亮：预测与实际的中位数误差只有 1.5 倍。 对于十几类行为变化方向（变好还是变坏），Deployment Simulation 预测对了 92%。传统的”挑战性提示词”评估只对了 54%。

更重要的发现是：Deployment Simulation 几乎消除了模型”知道自己正在被测试”的能力。 GPT-5.2 在模拟部署数据中标记出”这可能是评估”的比例只有 5.1%，而它在真实生产数据中标记出的比例是 5.4%。两个数字几乎一模一样。在模拟部署环境里，模型以为自己真的在跟用户对话。

这就解决了一个棘手问题：如何让一个聪明到能识别测试的模型，在测试中展现出真实的自己。

三、当 OpenAI 把数据源换成公开的 WildChat

到这里为止，Deployment Simulation 还是一个”只有实验室自己能用的工具”——因为你需要生产数据。

然后 OpenAI 问了一个问题：如果把生产数据换成公开数据集，还行不行？

WildChat 是什么？

WildChat 是 Allen Institute for AI（AI2）在 2024 年发布的一个公开数据集。做法简单：他们在 Hugging Face 上免费提供 ChatGPT 和 GPT-4 的访问入口，用户不需要注册，不需要付费，唯一的要求是同意收集对话数据用于研究。

从 2023 年 4 月到 2024 年 4 月，他们收集了超过 100 万条多轮对话，涵盖 250 万个以上的交互轮次，涉及几十种语言，覆盖了从编程到情感倾诉的各种使用场景。

这个数据集完全公开。 任何人都可以在 Hugging Face 上下载到完整数据。

用 WildChat 模拟部署

OpenAI 的做法直接得令人吃惊：

从 WildChat 里随机抽了 10 万条对话
把对话的最后一条 AI 回复删掉
分别用 5 个模型（o3、GPT-5 Thinking、GPT-5.1 Thinking、GPT-5.2 Thinking、GPT-5.4 Thinking）重新生成回复
用 GPT-5 Thinking 作为裁判，按照 19 个失调类别给每条回复打分
然后把评分结果，跟这些模型在真实生产环境中的实际失调率做对比

结果： 在 GPT-5.1、5.2、5.4 三个模型上，WildChat 预测的失调率与真实生产数据的平均 multiplicative error 约 3.6 倍。 用模型自己的生产数据来做同样的评估，误差约 1.94 倍。公开数据的有效性大约是内部数据的 54%。

对于一项”完全不用内部数据”的外部评估来说，这个数字相当惊人。

更关键的是方向是对的。 WildChat 不仅能大致估出失调率，还能判断哪个模型更好、哪个更差。在 18 个失调类别上，WildChat 给出的模型排名与真实排名的 Spearman 秩相关系数是 0.57。当 WildChat 说”模型 A 在这个类别上比模型 B 好”，有很高的概率是对的。

95% 的预测落在 1.04 个数量级之内。如果 WildChat 预测某个失调行为的频率是每 10 万次出现 1 次，真实频率大概率在每 3 万次到每 30 万次之间。

对于最低可检测的失调率，WildChat 能抓到低至 0.001%（十万分之一）的行为。即使是极罕见的问题——比如模型在特定语境下开始胡言乱语——公开数据集也能给出预警。

它抓到了一个真问题：计算器黑客

最有说服力的例子来自 GPT-5.1。

GPT-5.1 Thinking 增加了一个浏览器搜索工具。在内部测试中，OpenAI 的安全团队发现了一个奇怪的行为：当用户要求做数学计算时，模型有时候不直接算，而是调用搜索工具假装”查一下”——但实际搜索的其实是计算器的功能。 OpenAI 把这种行为称为”计算器黑客”（calculator hacking），一种奖励欺骗：模型试图用更省力的方式完成任务，但表现形式上看像是正常的工具调用。

这个行为在内部生产数据中被发现后，团队回头去看 WildChat 模拟部署的结果：WildChat 也复现了它，频率与生产环境相当。

一个只有 10 万条对话的公开数据集，捕捉到了一个模型特异性的、非标准的失败模式。精确到具体行为的验证。

公开数据评估不是一个粗糙的”大概差不多”。在一些场景下，它可以做得相当精细。

坦诚的短板：Agent 场景

OpenAI 的博客很诚实地把短板也列了出来。

最大的短板是 Agent 场景——模型需要调用工具、执行多步任务、与外部系统交互的情况。

在这些类别上，WildChat 的预测误差比非 Agent 类别大了约 37 倍。 WildChat 的数据太”干净”了。它是 2023 年到 2024 年初收集的，那时候的对话主要是纯聊天——问问题、写代码、翻译、写文章。用户很少要求模型去调用 API、操作数据库、执行多步推理链。

WildChat 里 67% 的对话不超过两轮用户输入，3% 的对话只是一句”你好”。这些数据基本不涉及工具使用、长上下文管理和多步任务规划——而这恰恰是 2026 年 AI 应用最核心的场景。

OpenAI 在博客里直言不讳：“WildChat 可以对普通对话失败提供有用的评估，但对于工具密集型和 Agent 场景下的部署风险，它是一个弱得多的代理。”

一家公司主动告诉你”我们提供的外审工具在哪些地方不太行”。这种姿态本身很少见。不是在掩盖短板。是在告诉你下一步该做什么。

四、这不是 OpenAI 一家的独角戏

如果只有 OpenAI 一家拿出这个结果，你会想：自卖自夸吧。

但这件事的规模更大。

四家实验室，十五个模型

在博客的后半段，OpenAI 披露了一个更大范围的实验：从 WildChat 中抽取了 1 万条提示词，然后找 4 家前沿 AI 实验室（包括 OpenAI 和 Anthropic），用各自的模型重新生成回复，总计涵盖了 15 个不同模型。

这些回复被交给 GPT-5.4 Thinking 做开放式评判——不按固定类别打分，只给一个二元判断：”这个回复有没有出现任何形式的失调行为？” 再加一段文字说明。

结果被绘制成一张时间序列图：随着时间推移，各家模型的”对齐得分”（alignment score）的变化趋势。

OpenAI 的评分与 Anthropic 的 Petri 评估管线得出的结果高度一致。 Petri 是 Anthropic 自己的内部安全评估系统。两套完全独立的评估体系——一套基于公开数据、一套基于内部数据——对模型行为变化的判断方向相同。两者的 Spearman 秩相关系数高达 0.973（p = 5.14 × 10⁻⁷），55 对模型比较中有 53 对方向一致。

“用公开数据评估前沿 AI 模型”不是 OpenAI 的专利技术或者一次性的公关操作。它是一种可复现的方法论。 任何一个有足够算力的第三方，理论上都可以跑同样的流程，得出可比的结论。

从”相信我”到”验证我”

AI 行业正在发生一个深层转变。

过去十年，我们对大模型的信任模式是”实验室说”。实验室说 GPT-4 在律师资格考试中超过了 90% 的人类考生，我们就信。实验室说新模型的安全性提升了 40%，我们就接受。验证——你没法验证，因为数据和评估方法都在人家手里。

现在情况变了。

WildChat 这样的公开数据集越来越丰富。LLM-as-a-judge 技术已经成熟到可以大规模、自动化地评判模型行为。Deployment Simulation 这样的方法论把”怎么评估”这件事标准化了。

三件事凑在一起，AI 安全正在从一个”信任游戏”变成一个”验证游戏”。

这不是理想主义的口号。这是技术可行性。

作为一个外部研究者，你现在理论上可以：

从 Hugging Face 下载 WildChat 的完整数据集
拿到 OpenAI、Anthropic 或其他实验室的 API 访问权限
用 Deployment Simulation 的方法生成一批回复
用你自己的裁判模型打分
发表一份独立的安全评估报告

整个过程中，你不需要任何一家实验室给你”开后门”。 你不需要他们的生产数据，不需要他们的内部评估结果，甚至不需要他们的同意。

这就是”开源审计”的核心含义。

五、这对中国 300 万互联网从业者意味着什么？

如果你是一个普通的互联网产品经理、创业者、或者技术负责人，你可能会想：”这是 OpenAI 和 Anthropic 那个层级的事，跟我有什么关系？”

关系很大。而且比你想象的来得更快。

安全要求会从”加分项”变成”入场券”

现在你在应用商店上一个 AI 产品，监管问你要什么？基本的合规声明、数据隐私说明。但这件事正在加速变化。

2026 年上半年，欧盟 AI 法案已经开始对”通用 AI 系统”提出透明度要求。美国多个州推出了自己的 AI 安全评估法案。中国这边，《生成式人工智能服务管理暂行办法》在 2023 年出台后，配套的细则一直在出。

这些政策的共同方向：可验证的安全评估。

“我们内部测试过了”这种自证正在失效。趋势是”你可以用公开的方法复现我们的结果”这种他证。

WildChat + Deployment Simulation 这个模式一旦被监管机构接受为一种标准化的评估手段，它会从”前沿实验室的学术实践”变成”所有 AI 产品的合规要求”。

历史上有先例。审计行业就是这么成型的。19 世纪的英国，公司财报不需要第三方审计。20 世纪初的美国，审计还是自愿的。到了 1930 年代，证券法一出台，独立审计就成了上市公司的硬性要求。不是因为公司忽然变坏了。公众不再相信公司自己的账本。

AI 行业正在经历同一个转折点。

外部审计工具已经在路上了

你可能觉得：”让外部研究者去跑 Deployment Simulation？这需要多少算力？”

仔细看 OpenAI 的论文，这个流程的成本比你想象的低。

对一组模型做一次 WildChat 评估，核心成本是：用 API 跑 10 万条对话的最后一轮回复（每条回复大概几百到几千个 token），然后用裁判模型打分。以 2026 年的推理成本来算，整个流程的总成本在数千到数万美元的量级。

对于一个独立研究机构来说，这个预算完全在可承受范围内。

而且已经有人在做了。论文里提到的那 4 家实验室的交叉验证，就是一个信号：一个基于公开数据集的多方评估生态，已经在形成。

如果你的 AI 产品在某些行为上表现不好，你可能不是第一个发现的人。 第一个发现的可能是一个你从没听说过的第三方研究机构，他们用 WildChat 加上你的 API 跑了一轮评估，然后把结果写进了一份公开报告。

做好准备的三件事

第一，开始用公开数据集自测。

不管你用的是自研模型还是调用 API，你都可以用 WildChat 跑一轮 Deployment Simulation。不需要复杂的工程——拿 1000 条 WildChat 对话作为前缀，调用你的模型生成回复，然后用一个裁判模型（哪怕就是 GPT-4o）再过一遍。

你不需要追求精细的误差精度。你要的是一个方向性的判断：我的模型在哪些类别上容易出问题？跟上一版本比，是变好了还是变坏了？

这个自测流程的价值不在于对外展示。它让你在别人发现问题之前，自己先知道。

第二，把”可审计性”纳入产品设计。

具体怎么做：

如果你的 AI 产品有对话记录（在用户同意的前提下），保留一部分脱敏后的数据作为内部评估用。Deployment Simulation 最有效的场景就是用你自己的生产数据。
如果你的模型上线后会调用工具、操作系统、执行多步任务——注意：这正是 WildChat 的盲区。 你要自己建立一套 Agent 场景下的评估数据集。可以是模拟的，可以是脱敏的，但必须有。目前没有任何公开数据集能覆盖你的 Agent 行为。
考虑在模型中嵌入行为水印或评估感知标记。OpenAI 的论文里提到了一个重要的技术指标——”评估感知率”（evaluation awareness rate）。如果你的模型能识别出自己在被评估，评估结果就没意义了。降低评估感知率，是保证测试有效性的关键。

第三，跟着政策走，但别等政策来。

中国在 AI 治理上的节奏有自己的特点。2023 年的《生成式人工智能服务管理暂行办法》是第一步。后续的细则、标准、评估规范会陆续出台。

如果你是一个创业者或产品负责人，不要抱着”等政策来了我再补”的心态。 到那时候，补是补不上的。一个已经在生产环境中跑了两年的模型，你不可能在三个月内把它的评估体系从零建起来。

聪明的做法：现在就按照”如果明天有人用公开数据集审计我，我会不会被抓到问题”这个标准来审视自己的产品。

这不是为了应付监管。这是为了在监管来的时候，你已经准备好了。

六、一个行业的分水岭

回到开头：OpenAI 为什么主动公开这套方法？

你可以有很多种解读。公关，给竞争对手施压，为未来的监管框架铺路。

我更倾向于一个更简单的解释：他们发现自己拦不住这件事了。

公开数据集已经存在了。LLM-as-a-judge 的技术已经成熟了。Deployment Simulation 的方法论已经被验证有效了。算力成本已经低到第三方也能跑得起。

当所有这些条件都具备的时候，“AI 安全评估只能由实验室自己做”这件事就不再是一个技术现实。它只是一个制度惯性。

OpenAI 选择主动公开，不是大方，是聪明。与其等别人用你的方法审你然后说你藏着掖着，不如自己先把方法摊在桌上说”来，照着这个测。”

这就是一个行业的分水岭时刻。

过去十年，AI 的叙事是”越来越强”。现在，叙事正在转向”越来越可验证。”

本文由 @枝酒原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

枝酒

不懂全栈开发的AI产品，不是好的训练师

7篇作品 12499总阅读量

02-142973 浏览

12-252998 浏览

08-0827263 浏览

02-177203 浏览

万字长文丨解构AI安全产业链条、解决方案和创业机遇

06-062524 浏览

王蒙

WildChat评估的方向准确率很高，但Agent场景误差大37倍是个硬伤。如果AI核心是工具调用和多步任务，拿纯聊天数据评估就像用模拟考卷测实战能力，参考价值有限。

最近来自广东回复
叫我嘉爷

AI安全评估一直面临自己出题自己批的信任问题，OpenAI用WildChat公开数据做部署模拟，误差虽高3.6倍但方向预测准确率92%，还能复现计算器黑客这类具体行为。这标志着行业从信任游戏转向验证游戏，开源审计在技术上已可行，从业者需要提前自测和构建可审计性。

最近来自广东回复