AI辅助诊断的幻觉问题是源自数据忽略

罗福如
1 评论 1050 浏览 1 收藏 4 分钟
🔗 B端产品和C端产品的区别在于,B端产品的用户是企业客户,C端产品的用户是个人消费者。因此,B端产品经理和...

在医疗诊断领域,人工智能技术的应用正日益普及,但其准确性和可靠性仍然是公众和专业人士关注的焦点。本文深入探讨了AI辅助诊断中存在的挑战,特别是AI如何突破人类医生诊断准确率的“天花板”,以及如何识别和利用那些可能被人类医生忽视的隐藏特征。

前段时间读了杰罗姆·格鲁普曼的《医生如何思考》(How Doctors Think)。这本书我觉得任何接受过重大治疗的人都应该读一下,它会彻底改变你对医生的看法。书里提到一个让我震惊的事实:即使是通过委员会认证的放射科医生,他们大约有 15% 的时间会对自己的诊断意见不一致(如果没记错的话)。

让我好奇的是,既然人类医生都有这种限制,那我们怎么让人工智能的诊断准确率比人类高?

目前的方法,比如放射科医生的诊断,准确率可能在 95% 左右。如果我们用这些准确率只有 95% 的方法来训练 AI,那么 AI 怎么能突破这条“天花板”?它需要一些我们还没意识到的知识来提高到 99.999% 的准确度,但这些知识我们自己却并不知道它们是什么。

举个极端但形象的例子。假设有种叫红流感的疾病,患者脸上会出现红点,这点大家都知道,但更少人注意到的是,这种病可能会在发病前四周让脚趾甲变紫。人类医生可能永远不会发现这个细节,但 AI 可能会自动发现两者的联系。问题是,我们如何主动找到这些“紫脚趾甲”式的隐藏特征?

更复杂的是,我们的数据本身可能会欺骗 AI。拿肺癌来说,训练数据相对简单。我们可以只用活检确认过的癌症患者的 CT 和 XR(而不是那些放射科医生怀疑有癌症但未确诊的样本),这样训练出来的 AI 特异性几乎是 100%。敏感性如何?这很难说,但实际上人类医生的敏感性也没有明确的标准。

但如果是肺炎,情况就完全不同了。肺炎没有像活检一样的“金标准”来验证,诊断往往依赖 XR 上的特征和医生的经验判断。训练数据不可避免会掺杂噪声,这种情况下,AI 的特异性一定低于 100%。

不过即便如此,AI 的一致性可能让它在实际表现中仍然优于平均水平的医生。即便训练数据并不完美,AI 也有可能接近顶级放射科医生的表现,这比普通医生要好得多。

然而,AI 还有一个问题是它的“黑箱”属性。我们不知道它在检测癌症时究竟看到了什么,忽略了什么,也无法完全理解它的决策过程。就像医学本身更像一场概率游戏一样,AI 也并非绝对确定的工具。

本文由人人都是产品经理作者【罗福如】,微信公众号:【罗福如】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 毕竟ai大模型就是用大量的数据训练出来的,总有没训练到位的地方。

    来自广东 回复
专题
100907人已学习30篇文章
想要脱围而出,你必须升级你的技能和思维。
专题
16720人已学习13篇文章
在产品的运营过程中,无论是产品、运营还是市场团队,都希望能清晰地了解用户的行为路径,通过用户行为分析,优化用户体验,实现更精准的运营和营销。
专题
13868人已学习13篇文章
发票是财务中必不可少的物品,那发票系统该如何设计呢?本专题的文章分享了发票系统设计指南。
专题
17382人已学习12篇文章
本专题的文章分享了数据的分析方法。
专题
12539人已学习12篇文章
金融产品的流程与常见策略规则类型是从事相关行业人员需要了解的重要内容。本专题的文章分享了消费金融APP流程详解。
专题
22056人已学习15篇文章
AARRR模型是一个经典的增长漏斗模型。本专题的文章针对AARRR模型进行拆解解读。