安全是最大奢侈:HealthBench是刷榜工具还是医疗AI能力驱动器?
在医疗领域,AI的安全性至关重要。从Character AI导致的悲剧到医疗AI的幻觉问题,安全一直是核心议题。本文将探讨OpenAI推出的HealthBench评估标准,分析其在医疗AI性能和安全性评估中的作用,以及如何通过数据筛选、模型架构和评测体系提升医疗AI的可靠性和实用性。
前些天在《高层论坛:实现汽车产业高质量发展》有一句话令人印象深刻:对智能驾驶来说,安全是最大的奢侈
而对于医疗AI来说,也是如此,比如这篇文章《DeepSeek医院部署:730+医院应用场景总结》的评论部分很有意思:
这里其实有个问题:大家为什么这么关注AI在医院场景实际的效果呢?答案很简单,就是医疗安全问题!
2024年2月28日,美国佛罗里达州的14岁男孩塞维尔·塞泽三世(Sewell Setzer Ⅲ)在与Character AI上的AI角色进行长时间聊天后开枪自杀身亡。
后来,她的母亲对Character AI提起诉讼,认为Character AI以“拟人化、过度性化和令人恐惧的逼真体验”导致她儿子对AI角色上瘾,并深陷其中。
模型是通过海量语料进行训练的,基于模型的AI产品背后拥有成百上千的SOP。
无论是对模型投喂的数据,还是用于“取悦”用户的SOP,背后会涉及大量行为学、心理学等知识,意思是:如果我们想,用户与AI聊天甚至可以达到游戏的体验!
事实上,模型本身就具备这种能力,比如大模型的“谄媚”特性就尤其突出!
所谓“谄媚”,就是模型很容易被引导,从而给到赞同、符合你心理预期的回答,而这对于心智缺乏的用户可能导致巨大问题!
举个例子:用户曾经可能只是比较消极,而且他懵懵懂懂,但由于更大模型的对话过程中,消极的情绪会被进一步扩大,并且大模型会有理有据证明用户的消极,这种高端思维来源于先哲的思辨,对心智缺失的用户会造成降维打击,从而引发巨大的心理冲击,而过程中一个引导不利就可能导致错误行为…
所以,现在很多政策正在要求互联网产品主动披露其在产品设计方面的“暗黑模式”,或立法对“暗黑模式”进行限制。
抛开应用层的包装与引导,这里我们回归模型本身,模型本身其实也挺不安全的…
据Vectara HHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率,是V3的近3倍:
基于此,各个大佬会认为AI产品首先会在垂直领域爆发。
比如,红杉AI峰会进一步指出:企业级市场中,真正先跑出来的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(医疗)这类垂直领域智能体 OS,因为它们能听懂行业语言,理解真实需求。
为了解决这个问题,有些团队在数据源头解决问题:
OpenEvidence
比如OpenEvidence,他是一款专为医生设计的 AI 专业诊断 Copilot,他近期获得了7500美元的融资,固执10亿美元。
面对医学知识的爆炸式增长和临床信息的严重过载,OpenEvidence 致力于用类似垂直领域 Deep Research 的产品形态,帮助医生提高诊断效率与决策质量。
其核心在于医疗相关的资料特别丰厚,并且每句回答均标注交叉引用编号,在文末附上参考文献清单,确保信息的可溯源性和验证性。
在这个层面上他做到了,医疗产出的每句话都有出处,这对于提升医疗AI的置信度是是否有帮助的。
而且其内容多来自顶级期刊,这对其数据质量有了基本的保证,具体实现路径大概如下:
但要真的将医疗AI相关产品做好,其实是需要一套标准的,近来OpenAI就提出了这类标准:
HealthBench
OpenAI推出新的AI健康系统评估标准HealthBench,其内有来自60个国家/地区的262位医生合力打造的5000个真实医疗对话场景,用于评估AI模型在医疗领域的性能和安全性。
这是什么意思呢:
首先,OpenAI提出了一套用于评估医疗AI安全有效的标准体系;
其次,他们的模型在这套体系中毫无疑问拿下了最高分;
说实话,这种事情是有点扯的,因为每一个提出评估模型的团队,特别是基座模型团队,完全可以基于问题做特别训练,俗称刷榜,这里的意思是:后面发出的模型一定比前面的强,但是不是真的强就不知道了…
但无论如何,只要能建立一套真的好用的AI医生评价体系,这件事是功德无量的,至于其他公司用不用,再说
但看现有AI医疗的评估体系,其实是很业余的,因为他们更多是在测试考试(做题),这里有三个问题:
- 未能还原真实医疗场景,真实场景是不存在做题的,是复杂的多轮问询;
- 缺乏基于专家意见的严格验证,就算是真实的医患对话,其实也不知道到底对不对,因为没人真的去评价;
- 难以为前沿模型提供提升空间,以之前刷题的测试来说,分刷的高其实也无所谓,因为并不解决实际问题;
于是,OpenAI在这个基础下提出了HealthBench:
- 有现实意义(Meaningful):评分应反映真实世界影响。突破传统考试题的局限,精准捕捉患者与临床工作者使用模型时的复杂现实场景和工作流程。
- 值得信赖(Trustworthy):评分须真实体现医师判断。评估标准必须符合医疗专业人员的核心诉求与行业规范,为AI系统优化提供严谨依据。
- 未饱和(Unsaturated):基准测试应推动进步。现有模型必须展现显著改进空间,持续激励开发者提升系统性能。
OpenAI的模型在这里是否远超人类我们不去多说,先看看他这个测试方法是什么?
测试方法与数据(重要)
一个 HealthBench 示例包含一段对话,以及医生针对该对话编写的评分细则。基于模型的评分器会按照每条细则为模型回复打分:
也就是说,每条模型回复都会依据针对该对话量身定制的评分量表进行打分。
具体而言,每个评测样例包含:
- 对话:由模型与用户的若干消息组成,并以一条用户消息收尾;
- 评分细则:说明在该对话情境下,回复应当被奖励或惩罚的行为属性;
评分细则的内容既可以是必须提及的具体事实(例如应服用何种药物及剂量),也可以是期望的行为要素(例如询问用户更多膝盖疼痛细节,以便获得更精准的诊断)。
每条细则都对应一个非零分值,范围为 −10 至 10,其中负分代表不期望出现的行为。
具体评分流程为:
- 模型评分器逐条独立判断回复是否满足相应细则。
- 若满足,则给予该细则的满分;否则不给分。
- 对负向细则亦同:若触犯,则按定义扣除相应负分。
- 将所有已满足细则的分值(正分与扣分)相加,得到该样例的总分。
- 再将该总分除以该样例的最高可能得分,得到该样例的最终得分。
而HealthBench 包含 5000 个评测样例,每个样例由一段对话和一组评分标准(rubric criteria)组成。
对话可能是单轮(仅有用户消息)或多轮(用户与模型交替,最后以用户消息结束)。
平均来看,每段对话有 2.6 轮,总长度 约 668 个字符(含用户与模型消息),整体范围从 1 到 19 轮、从 4 到 9,853 个字符。
一个典型样例包含 11 条由医生专为该样例撰写的评分标准;最少有 2 条,最多可达 48 条
PS:其实仅仅从这个角度来说,测试基数是有点小的,然后根据我之前真实经验,医患对话其实在10轮以上是更多的
具体再来看看其测试数据来源:
- 合成对话(主要),与医师合作,首先列举在评测中应覆盖的重要场景;
- 医师红队数据(次要),来自医师对大模型在医疗场景中的“红队攻击”测试 (Pfohl 等, 2024),聚焦模型薄弱或回答不当的提问;
- HealthSearchQA 改写,HealthSearchQA 是 Google 发布的高频健康搜索问答数据集 (Singhal 等, 2023);
从这个角度来说,这些数据其实全部是虚构的…
虚构的原因可能是真实场景患者“废话太多”,或者医生根本没有想过语料,这个事情其实我之前也做过,只不过我们是根据临床指南或者病例合成对话,从这个角度来说,这个实验其实不太严谨。
评分维度 
HealthBench 示例被划分为七个主题(themes),每个主题对应真实世界健康交互中的一个关键任务场景。
每个主题下面包含大量示例,且每个示例都有一套独立的评分量表(rubric)。
在每份量表中,每条评分标准都会标注其所属“评价轴”(axis),用来说明该标准衡量的是模型行为的哪个方面。
通过同时按“主题”与“评价轴”汇报结果,HealthBench 可以对模型性能进行更细粒度的拆解与分析。
一、主题
下表给出了七大主题在 5 000 个示例中的分布情况:
以下简要说明各主题评测的核心能力:
- 紧急就医建议:考察模型能否识别医疗急症并及时引导用户就医。误判(错过升级或过度升级)都可能造成伤害或加重医疗系统负担。
- 主动补充关键信息:现实中用户往往无法一次性提供完整病情。该主题评估模型能否识别信息缺口并主动询问关键背景。
- 全球健康:衡量模型在医疗资源匮乏或地区差异明显的环境下,能否因地制宜给出可行建议。
- 健康数据任务:聚焦结构化医疗文档撰写、决策支持、科研汇总等场景,要求高准确度,因为错误会在后续护理链条中被放大。
- 受众专业度匹配沟通:评估模型能否区分用户角色(医务人员 vs. 普通大众)并用合适的术语深度表达。
- 不确定情境下的应答:医学常伴随不确定性。该主题检查模型能否识别证据不足场景并以相称的语气表达不确定。
- 答复深度控制:不同情境需要不同详略。过简可能遗漏关键信息,过繁又可能淹没重点。此主题评估模型调整答复深度的能力。
二、评价轴(Axes)
每条评分标准都会标注一个“评价轴”,用来描述它衡量的行为维度。所有标准共分为五个核心轴,如下表所示:
- 准确性:检查回答是否仅包含与最新医学共识一致的正确信息,并在证据薄弱处体现出不确定。
- 完整性:即使回答正确,若遗漏关键步骤或风险症状,仍可能导致风险。该轴关注信息是否充分、全面。
- 沟通质量:评价回答是否条理清晰、语言精炼,技术深度与词汇是否与用户匹配。
- 情境感知:衡量模型能否利用已给出的情境线索(如用户角色、地理资源等)并在必要时主动追问。
- 指令遵循:当用户要求特定格式或转换结构化文档时,模型是否在保证安全的前提下严格按要求输出。
通过在七大主题与五条评价轴的双重坐标系下统计得分,HealthBench 能够呈现医疗大模型的性能长板与短板,为后续安全改进与能力提升提供有针对性的方向。
其后,OpenAI做了很多动作,比如让专业医生给出最合理的作答,一判断模型的答案与真人答案的一致性。
最后给两个案例:
案例
下列 案例 A 与 案例 B 均展示了 4–5 轮问答,便于演示 :
- 医生如何 主动补充关键信息;
- 何时 及时升级紧急就医;
案例 A · 紧急就医建议
主题归属:1 紧急就医建议 + 2 主动补充关键信息
场景:48 岁男性突发胸痛,医生需迅速排除急性冠脉综合征
案例 B · 主动补充关键信息
主题归属:2 主动补充关键信息 + 7 答复深度控制
场景:膝盖上楼“咔哒”声,无痛感,医生需确认背景并给出分层建议
结语
从“安全是最大的奢侈”到 HealthBench 的七大主题、五条评价轴,我们看到:只有把安全内嵌进数据源筛选、模型架构、评测体系和临床流程,医疗 AI 才能真正迈出实验室,服务真实病患。
无论是 OpenEvidence 以纯血级文献打造可溯源 Copilot,还是 HealthBench 用多轮对话和医生 rubric 还原临床复杂度,背后指向的都是同一句话——在生命健康面前,准确、透明、可追责的 AI 不是加分项,而是入场券。
下一阶段,唯有产业各方携手:算法团队持续降低幻觉率,医疗机构参与真实场景验证,监管部门完善合规沙盒,创业者深耕垂直需求,才能让“安全”从奢侈品变成标配,让技术的光照进每一间诊室。
只不过这里OpenAI的HealthBench感觉依旧不能完全还原真实场景,还是没跳出AI评测答题的逻辑,作弊成本很低…
本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!