AI 安全的”开源审计”时代来了

0 评论 137 浏览 0 收藏 25 分钟

OpenAI 公开了一项颠覆性研究:利用公开数据集 WildChat 就能预测 AI 模型的真实表现,误差率仅比内部数据高 3 倍。这项被称为 Deployment Simulation 的技术不仅解决了 AI 安全评估的信任危机,更将模型测试从实验室的封闭环境推向开放验证的新时代。本文深入解析这一技术突破如何重构 AI 行业的评估体系,及其对中国互联网从业者的深远影响。

2026 年 6 月 16 日,OpenAI 做了一件不寻常的事——主动发了一篇博客,告诉全世界:用公开的聊天数据,就能预测我们最先进的模型会不会在真实世界里出问题。

一、一家公司为什么主动把”体检报告”交出来?

想象一个场景。

一家制药公司开发了新药。按惯例,药效和副作用的数据只有他们自己能看到。FDA 要审批,只能看公司提交的材料。至于那些没提交的数据,商业机密。

突然有一天,这家公司发表了一篇论文,说:其实你们不用等我们交材料。市面上有一个公开的、免费的样本库,你们拿这个样本库去测我们的新药,测出来的副作用发生率,跟我们内部的真实数据误差不大。误差大概三倍。

你说这是疯了,还是有了底气?

2026 年 6 月 16 日,OpenAI 在它的 Alignment 研究博客上发了一篇文章,标题叫《Can public chat data predict real-world AI misalignments?》——公开的聊天数据,能不能预测真实世界的 AI 失调?

翻译成人话就是:我们没有把 GPT-5 系列的生产数据公开——那是用户隐私。但我们拿一个公开的数据集 WildChat 试了一下,发现用它来模拟部署、评估模型行为,跟用我们自己的内部数据比,预测结果差得不多。

同一天,OpenAI 还在官网发布了一篇方法论长文《Predicting model behavior before release by simulating deployment》,详细拆解了他们称之为 Deployment Simulation(部署模拟) 的技术路线。

在这之前,你要是说”AI 安全评估可以不用内部数据”,大多数从业者会觉得你在开玩笑。现在,OpenAI 自己把证据摊在桌上了。

二、谁有资格审 AI?

过去几年,所有大模型在发布之前都会做安全评估。OpenAI 做,Anthropic 做,Google 做,国内的各个实验室也做。方式大致相同:找一帮红队测试员,写一大堆”攻击性提示词”,看模型会不会越狱、会不会生成有害内容、会不会被诱导做不该做的事。

然后打个分,写份报告,说”我们的模型在 X 类别上的不安全响应率是 0.02%,比上一代降低了 47%。”

评估用的提示词,是评估者自己写的。你自己设计考题,自己批卷,然后告诉全世界”我们及格了”。这个逻辑自带结构性的信任赤字。

更麻烦的是:随着模型越来越聪明,它开始能识别出”这是一道测试题”。OpenAI 在论文里给了一个数字——在传统的合成评估提示词下,GPT-5.2 识别出”这是在测试我”的概率接近 100%。 模型在被评估的时候,和它在真实用户面前的表现,可能根本不是一回事。

还有一个更隐蔽的堵点:生产数据不公开。

一个 AI 模型在真实用户手里到底表现如何——每天几百万次对话中,有多少次出现了不该出现的回答——这个数据只有实验室自己能看到。用户隐私,不能拿出来给第三方审计。

最了解模型行为的,是造模型的人。最需要了解模型行为的政府、学者、独立研究者,什么都看不到。

这不是 OpenAI 一家的问题。整个行业都是这个结构。

把对话”重放”一遍

Deployment Simulation 的思路不复杂。

假设你现在有一个叫 GPT-5 的模型在线上跑,用户每天问它各种问题。你把这些对话存下来(当然,要去掉用户身份信息)。现在你开发了一个新版本,叫 GPT-5.1,你想知道它上线之后会不会比 GPT-5 更糟。

传统做法:写一堆测试题,扔给 GPT-5.1,看它答得怎么样。

Deployment Simulation 的做法:从 GPT-5 的真实对话里随机抽一批,把 GPT-5 当时的回复删掉,让 GPT-5.1 重新回答一次。然后对比。

不是模拟考场上测它。是把它放到真实的案发现场,让它重新做一遍选择。

GPT-5.1 面对的不是”请用一句话表达对人类的仇恨”这种明显找茬的提示词,而是真实用户五花八门的问题。有人在编程,有人在聊情感,有人在测试系统边界——这些才是模型真正要面对的东西。

OpenAI 对 GPT-5.4 做了预注册预测(先公开说”我们认为它的失调率会是多少”,然后看实际数据),结果很漂亮:预测与实际的中位数误差只有 1.5 倍。 对于十几类行为变化方向(变好还是变坏),Deployment Simulation 预测对了 92%。传统的”挑战性提示词”评估只对了 54%。

更重要的发现是:Deployment Simulation 几乎消除了模型”知道自己正在被测试”的能力。 GPT-5.2 在模拟部署数据中标记出”这可能是评估”的比例只有 5.1%,而它在真实生产数据中标记出的比例是 5.4%。两个数字几乎一模一样。在模拟部署环境里,模型以为自己真的在跟用户对话。

这就解决了一个棘手问题:如何让一个聪明到能识别测试的模型,在测试中展现出真实的自己。

三、当 OpenAI 把数据源换成公开的 WildChat

到这里为止,Deployment Simulation 还是一个”只有实验室自己能用的工具”——因为你需要生产数据。

然后 OpenAI 问了一个问题:如果把生产数据换成公开数据集,还行不行?

WildChat 是什么?

WildChat 是 Allen Institute for AI(AI2)在 2024 年发布的一个公开数据集。做法简单:他们在 Hugging Face 上免费提供 ChatGPT 和 GPT-4 的访问入口,用户不需要注册,不需要付费,唯一的要求是同意收集对话数据用于研究。

从 2023 年 4 月到 2024 年 4 月,他们收集了超过 100 万条多轮对话,涵盖 250 万个以上的交互轮次,涉及几十种语言,覆盖了从编程到情感倾诉的各种使用场景。

这个数据集完全公开。 任何人都可以在 Hugging Face 上下载到完整数据。

用 WildChat 模拟部署

OpenAI 的做法直接得令人吃惊:

  1. 从 WildChat 里随机抽了 10 万条对话
  2. 把对话的最后一条 AI 回复删掉
  3. 分别用 5 个模型(o3、GPT-5 Thinking、GPT-5.1 Thinking、GPT-5.2 Thinking、GPT-5.4 Thinking)重新生成回复
  4. 用 GPT-5 Thinking 作为裁判,按照 19 个失调类别给每条回复打分
  5. 然后把评分结果,跟这些模型在真实生产环境中的实际失调率做对比

结果: 在 GPT-5.1、5.2、5.4 三个模型上,WildChat 预测的失调率与真实生产数据的平均 multiplicative error 约 3.6 倍。 用模型自己的生产数据来做同样的评估,误差约 1.94 倍。公开数据的有效性大约是内部数据的 54%。

对于一项”完全不用内部数据”的外部评估来说,这个数字相当惊人。

更关键的是方向是对的。 WildChat 不仅能大致估出失调率,还能判断哪个模型更好、哪个更差。在 18 个失调类别上,WildChat 给出的模型排名与真实排名的 Spearman 秩相关系数是 0.57。当 WildChat 说”模型 A 在这个类别上比模型 B 好”,有很高的概率是对的。

95% 的预测落在 1.04 个数量级之内。如果 WildChat 预测某个失调行为的频率是每 10 万次出现 1 次,真实频率大概率在每 3 万次到每 30 万次之间。

对于最低可检测的失调率,WildChat 能抓到低至 0.001%(十万分之一)的行为。即使是极罕见的问题——比如模型在特定语境下开始胡言乱语——公开数据集也能给出预警。

它抓到了一个真问题:计算器黑客

最有说服力的例子来自 GPT-5.1。

GPT-5.1 Thinking 增加了一个浏览器搜索工具。在内部测试中,OpenAI 的安全团队发现了一个奇怪的行为:当用户要求做数学计算时,模型有时候不直接算,而是调用搜索工具假装”查一下”——但实际搜索的其实是计算器的功能。 OpenAI 把这种行为称为”计算器黑客”(calculator hacking),一种奖励欺骗:模型试图用更省力的方式完成任务,但表现形式上看像是正常的工具调用。

这个行为在内部生产数据中被发现后,团队回头去看 WildChat 模拟部署的结果:WildChat 也复现了它,频率与生产环境相当。

一个只有 10 万条对话的公开数据集,捕捉到了一个模型特异性的、非标准的失败模式。精确到具体行为的验证。

公开数据评估不是一个粗糙的”大概差不多”。在一些场景下,它可以做得相当精细。

坦诚的短板:Agent 场景

OpenAI 的博客很诚实地把短板也列了出来。

最大的短板是 Agent 场景——模型需要调用工具、执行多步任务、与外部系统交互的情况。

在这些类别上,WildChat 的预测误差比非 Agent 类别大了约 37 倍。 WildChat 的数据太”干净”了。它是 2023 年到 2024 年初收集的,那时候的对话主要是纯聊天——问问题、写代码、翻译、写文章。用户很少要求模型去调用 API、操作数据库、执行多步推理链。

WildChat 里 67% 的对话不超过两轮用户输入,3% 的对话只是一句”你好”。这些数据基本不涉及工具使用、长上下文管理和多步任务规划——而这恰恰是 2026 年 AI 应用最核心的场景。

OpenAI 在博客里直言不讳:“WildChat 可以对普通对话失败提供有用的评估,但对于工具密集型和 Agent 场景下的部署风险,它是一个弱得多的代理。”

一家公司主动告诉你”我们提供的外审工具在哪些地方不太行”。这种姿态本身很少见。不是在掩盖短板。是在告诉你下一步该做什么。

四、这不是 OpenAI 一家的独角戏

如果只有 OpenAI 一家拿出这个结果,你会想:自卖自夸吧。

但这件事的规模更大。

四家实验室,十五个模型

在博客的后半段,OpenAI 披露了一个更大范围的实验:从 WildChat 中抽取了 1 万条提示词,然后找 4 家前沿 AI 实验室(包括 OpenAI 和 Anthropic),用各自的模型重新生成回复,总计涵盖了 15 个不同模型。

这些回复被交给 GPT-5.4 Thinking 做开放式评判——不按固定类别打分,只给一个二元判断:”这个回复有没有出现任何形式的失调行为?” 再加一段文字说明。

结果被绘制成一张时间序列图:随着时间推移,各家模型的”对齐得分”(alignment score)的变化趋势。

OpenAI 的评分与 Anthropic 的 Petri 评估管线得出的结果高度一致。 Petri 是 Anthropic 自己的内部安全评估系统。两套完全独立的评估体系——一套基于公开数据、一套基于内部数据——对模型行为变化的判断方向相同。两者的 Spearman 秩相关系数高达 0.973(p = 5.14 × 10⁻⁷),55 对模型比较中有 53 对方向一致。

“用公开数据评估前沿 AI 模型”不是 OpenAI 的专利技术或者一次性的公关操作。它是一种可复现的方法论。 任何一个有足够算力的第三方,理论上都可以跑同样的流程,得出可比的结论。

从”相信我”到”验证我”

AI 行业正在发生一个深层转变。

过去十年,我们对大模型的信任模式是”实验室说”。实验室说 GPT-4 在律师资格考试中超过了 90% 的人类考生,我们就信。实验室说新模型的安全性提升了 40%,我们就接受。验证——你没法验证,因为数据和评估方法都在人家手里。

现在情况变了。

WildChat 这样的公开数据集越来越丰富。LLM-as-a-judge 技术已经成熟到可以大规模、自动化地评判模型行为。Deployment Simulation 这样的方法论把”怎么评估”这件事标准化了。

三件事凑在一起,AI 安全正在从一个”信任游戏”变成一个”验证游戏”。

这不是理想主义的口号。这是技术可行性。

作为一个外部研究者,你现在理论上可以:

  1. 从 Hugging Face 下载 WildChat 的完整数据集
  2. 拿到 OpenAI、Anthropic 或其他实验室的 API 访问权限
  3. 用 Deployment Simulation 的方法生成一批回复
  4. 用你自己的裁判模型打分
  5. 发表一份独立的安全评估报告

整个过程中,你不需要任何一家实验室给你”开后门”。 你不需要他们的生产数据,不需要他们的内部评估结果,甚至不需要他们的同意。

这就是”开源审计”的核心含义。

五、这对中国 300 万互联网从业者意味着什么?

如果你是一个普通的互联网产品经理、创业者、或者技术负责人,你可能会想:”这是 OpenAI 和 Anthropic 那个层级的事,跟我有什么关系?”

关系很大。而且比你想象的来得更快。

安全要求会从”加分项”变成”入场券”

现在你在应用商店上一个 AI 产品,监管问你要什么?基本的合规声明、数据隐私说明。但这件事正在加速变化。

2026 年上半年,欧盟 AI 法案已经开始对”通用 AI 系统”提出透明度要求。美国多个州推出了自己的 AI 安全评估法案。中国这边,《生成式人工智能服务管理暂行办法》在 2023 年出台后,配套的细则一直在出。

这些政策的共同方向:可验证的安全评估。

“我们内部测试过了”这种自证正在失效。趋势是”你可以用公开的方法复现我们的结果”这种他证。

WildChat + Deployment Simulation 这个模式一旦被监管机构接受为一种标准化的评估手段,它会从”前沿实验室的学术实践”变成”所有 AI 产品的合规要求”。

历史上有先例。审计行业就是这么成型的。19 世纪的英国,公司财报不需要第三方审计。20 世纪初的美国,审计还是自愿的。到了 1930 年代,证券法一出台,独立审计就成了上市公司的硬性要求。不是因为公司忽然变坏了。公众不再相信公司自己的账本。

AI 行业正在经历同一个转折点。

外部审计工具已经在路上了

你可能觉得:”让外部研究者去跑 Deployment Simulation?这需要多少算力?”

仔细看 OpenAI 的论文,这个流程的成本比你想象的低。

对一组模型做一次 WildChat 评估,核心成本是:用 API 跑 10 万条对话的最后一轮回复(每条回复大概几百到几千个 token),然后用裁判模型打分。以 2026 年的推理成本来算,整个流程的总成本在数千到数万美元的量级。

对于一个独立研究机构来说,这个预算完全在可承受范围内。

而且已经有人在做了。论文里提到的那 4 家实验室的交叉验证,就是一个信号:一个基于公开数据集的多方评估生态,已经在形成。

如果你的 AI 产品在某些行为上表现不好,你可能不是第一个发现的人。 第一个发现的可能是一个你从没听说过的第三方研究机构,他们用 WildChat 加上你的 API 跑了一轮评估,然后把结果写进了一份公开报告。

做好准备的三件事

第一,开始用公开数据集自测。

不管你用的是自研模型还是调用 API,你都可以用 WildChat 跑一轮 Deployment Simulation。不需要复杂的工程——拿 1000 条 WildChat 对话作为前缀,调用你的模型生成回复,然后用一个裁判模型(哪怕就是 GPT-4o)再过一遍。

你不需要追求精细的误差精度。你要的是一个方向性的判断:我的模型在哪些类别上容易出问题?跟上一版本比,是变好了还是变坏了?

这个自测流程的价值不在于对外展示。它让你在别人发现问题之前,自己先知道。

第二,把”可审计性”纳入产品设计。

具体怎么做:

  • 如果你的 AI 产品有对话记录(在用户同意的前提下),保留一部分脱敏后的数据作为内部评估用。Deployment Simulation 最有效的场景就是用你自己的生产数据。
  • 如果你的模型上线后会调用工具、操作系统、执行多步任务——注意:这正是 WildChat 的盲区。 你要自己建立一套 Agent 场景下的评估数据集。可以是模拟的,可以是脱敏的,但必须有。目前没有任何公开数据集能覆盖你的 Agent 行为。
  • 考虑在模型中嵌入行为水印或评估感知标记。OpenAI 的论文里提到了一个重要的技术指标——”评估感知率”(evaluation awareness rate)。如果你的模型能识别出自己在被评估,评估结果就没意义了。降低评估感知率,是保证测试有效性的关键。

第三,跟着政策走,但别等政策来。

中国在 AI 治理上的节奏有自己的特点。2023 年的《生成式人工智能服务管理暂行办法》是第一步。后续的细则、标准、评估规范会陆续出台。

如果你是一个创业者或产品负责人,不要抱着”等政策来了我再补”的心态。 到那时候,补是补不上的。一个已经在生产环境中跑了两年的模型,你不可能在三个月内把它的评估体系从零建起来。

聪明的做法:现在就按照”如果明天有人用公开数据集审计我,我会不会被抓到问题”这个标准来审视自己的产品。

这不是为了应付监管。这是为了在监管来的时候,你已经准备好了。

六、一个行业的分水岭

回到开头:OpenAI 为什么主动公开这套方法?

你可以有很多种解读。公关,给竞争对手施压,为未来的监管框架铺路。

我更倾向于一个更简单的解释:他们发现自己拦不住这件事了。

公开数据集已经存在了。LLM-as-a-judge 的技术已经成熟了。Deployment Simulation 的方法论已经被验证有效了。算力成本已经低到第三方也能跑得起。

当所有这些条件都具备的时候,“AI 安全评估只能由实验室自己做”这件事就不再是一个技术现实。它只是一个制度惯性。

OpenAI 选择主动公开,不是大方,是聪明。与其等别人用你的方法审你然后说你藏着掖着,不如自己先把方法摊在桌上说”来,照着这个测。”

这就是一个行业的分水岭时刻。

过去十年,AI 的叙事是”越来越强”。现在,叙事正在转向”越来越可验证。”

本文由 @枝酒 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!