AI辅助诊断的幻觉问题是源自数据忽略

罗福如
1 评论 969 浏览 1 收藏 4 分钟
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

在医疗诊断领域,人工智能技术的应用正日益普及,但其准确性和可靠性仍然是公众和专业人士关注的焦点。本文深入探讨了AI辅助诊断中存在的挑战,特别是AI如何突破人类医生诊断准确率的“天花板”,以及如何识别和利用那些可能被人类医生忽视的隐藏特征。

前段时间读了杰罗姆·格鲁普曼的《医生如何思考》(How Doctors Think)。这本书我觉得任何接受过重大治疗的人都应该读一下,它会彻底改变你对医生的看法。书里提到一个让我震惊的事实:即使是通过委员会认证的放射科医生,他们大约有 15% 的时间会对自己的诊断意见不一致(如果没记错的话)。

让我好奇的是,既然人类医生都有这种限制,那我们怎么让人工智能的诊断准确率比人类高?

目前的方法,比如放射科医生的诊断,准确率可能在 95% 左右。如果我们用这些准确率只有 95% 的方法来训练 AI,那么 AI 怎么能突破这条“天花板”?它需要一些我们还没意识到的知识来提高到 99.999% 的准确度,但这些知识我们自己却并不知道它们是什么。

举个极端但形象的例子。假设有种叫红流感的疾病,患者脸上会出现红点,这点大家都知道,但更少人注意到的是,这种病可能会在发病前四周让脚趾甲变紫。人类医生可能永远不会发现这个细节,但 AI 可能会自动发现两者的联系。问题是,我们如何主动找到这些“紫脚趾甲”式的隐藏特征?

更复杂的是,我们的数据本身可能会欺骗 AI。拿肺癌来说,训练数据相对简单。我们可以只用活检确认过的癌症患者的 CT 和 XR(而不是那些放射科医生怀疑有癌症但未确诊的样本),这样训练出来的 AI 特异性几乎是 100%。敏感性如何?这很难说,但实际上人类医生的敏感性也没有明确的标准。

但如果是肺炎,情况就完全不同了。肺炎没有像活检一样的“金标准”来验证,诊断往往依赖 XR 上的特征和医生的经验判断。训练数据不可避免会掺杂噪声,这种情况下,AI 的特异性一定低于 100%。

不过即便如此,AI 的一致性可能让它在实际表现中仍然优于平均水平的医生。即便训练数据并不完美,AI 也有可能接近顶级放射科医生的表现,这比普通医生要好得多。

然而,AI 还有一个问题是它的“黑箱”属性。我们不知道它在检测癌症时究竟看到了什么,忽略了什么,也无法完全理解它的决策过程。就像医学本身更像一场概率游戏一样,AI 也并非绝对确定的工具。

本文由人人都是产品经理作者【罗福如】,微信公众号:【罗福如】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 毕竟ai大模型就是用大量的数据训练出来的,总有没训练到位的地方。

    来自广东 回复
专题
15315人已学习12篇文章
用户故事在软件开发过程中被作为描述需求的一种表达形式,本专题的文章分享了如何讲好用户故事。
专题
12264人已学习12篇文章
在日常生活中,使用APP或者网页加载时,加载按钮常常会出现,加载效率影响着用户体验。本专题的文章分享了加载功能的原理和设计。
专题
14966人已学习15篇文章
智能硬件产品经理需要做什么工作内容呢?与互联网产品经理有什么区别呢?本专题为刚入行的智能硬件产品经理分享了入门指南。
专题
133562人已学习23篇文章
产品经理,除了会写竞品分析,还要会写产品分析。
专题
13724人已学习15篇文章
私域流量是与公域流量相对的概念,本专题的文章主要通过几个核心的问题,为大家解读私域流量背后的底层逻辑。
专题
14974人已学习14篇文章
用户生命周期是每个产品经理都必须要注意的一个点,它能够衡量用户对产品产生的价值,也是运营手段的最终衡量指标。本专题的文章分享了如何做好用户生命周期管理。