AI产品的真正壁垒,不在模型在数据:燃料、标尺与飞轮
在AI产品同质化严重的今天,真正的竞争壁垒已经从模型转向了数据。本文以医疗健康领域为例,深度剖析构成AI产品护城河的三大关键要素:燃料(数据质量)、标尺(评估体系)和飞轮(业务闭环),揭示为何合规的数据积累与专业处理流程才是拉开产品差距的胜负手。

坦白讲,今天市面上不少所谓“AI 产品壁垒”,并不结实。换个模型、换套提示词就能复现的能力,更像库存,不像壁垒。AI + 医疗健康产品做久了,我越来越相信一句话:下限可以靠模型托住;上限要拉开,最后还得回到数据。
为了不把“数据”讲成口号,我把它拆成三件东西:燃料、标尺和飞轮。燃料决定模型学到什么,标尺决定你怎么判断它有没有变好,飞轮决定业务跑得越久,材料会不会越厚、越准。
01 核心判断:模型开始像“水电煤”
大模型能力正在变得相似。开源底座一批批放出来,闭源 API 调用门槛也越来越低,实习生半天就能跑通 demo。两个团队接入同一类底座,基础语言理解、常识问答、格式生成的下限差不了太多。模型让你不至于太差,但领先是另一回事。
早期做 AI 健康管家时,我们和竞品用的底座十有八九同源。demo 里,用户问“最近老头晕怎么办”,两边回答都像那么回事。可一进真实场景,差距就出来了:用户描述含糊,夹着方言,症状之间藏着关联,还可能埋着不能漏掉的危险信号。系统稳不稳,已经不是看模型名字能判断的了。
同样的底座,差距多半在样本里。我们喂进去的是专业医护清洗、标注、反复校准过的真实健康记录;别人如果只是拿公开网络上“看起来像医疗”的语料去凑,模型也会把噪声学得很像真的。底层能力趋同后,胜负手会从“你接了哪一个”,转到“你手里有什么、怎么用”。
02 燃料:你喂进去什么,它就吐出来什么
工程师常说,垃圾进,垃圾出。底座越强,越会把样本里的噪声和偏差学得像模像样。模型不是绕过脏数据的魔法,它的天花板,很大一部分就卡在训练和校准材料本身。
我印象很深的一次,是处理三年、36 个月的历史工单:用户健康咨询、客服回复、问诊记录。听起来像金矿,真正上手后才发现,更像 95% 是渣、5% 是矿的山。用户说不清,客服会敷衍,大量闲聊与健康无关,还有前后口径互相打架的内容。直接拿去喂模型,差不多等于让医学生捧着错字连篇的盗版教材学习。
最后只能老老实实清洗:一万多条原始材料反复过滤、去重、剔除无效和有害样本,只留下 1500 条敢说“这条是对的”的记录。这个比例残酷,但也说明,原始材料和可用样本之间隔着很长一段苦活。很多团队宁愿守着一堆脏数据找安全感,也不愿面对一千条干净记录才真正有用。
清洗之后还要有纪律。第一,双盲标注,Kappa 系数必须 ≥ 0.75。同一条数据由两个专业标注员独立标,再看一致性。如果两个人都标不到一起,要么规则含糊,要么人员不稳定,都得返工。第二,Golden Set(黄金测试卷)不能给调参团队开放读取权限。分数可以给,错题归类可以给,但卷子本身不能泄漏,否则很容易变成“看着答案改提示词”。
所以,“燃料”不是一句“我们有很多数据”。它是一串具体动作:清洗比例、标注一致性门槛、测试集隔离制度。这些动作不性感,却常常决定产品天花板。
03 标尺:没有评估题库,就别急着谈变好
材料好不好,决定你大概能跑多高;尺子准不准,决定你是不是跑偏了。AI 产品经理时常问:你怎么证明这一版 AI 比上一版好?如果答案只是“试了几个 case,感觉更全面”“同事反馈不错”“投诉好像少了”,本质上就是没量过。
大模型特别擅长把答案说得“看起来很对”:语气专业,逻辑顺,哪怕内容错了也很有底气。随手拿几个 case 一试,人很容易被卖相骗过去。真实流量不会这么温柔,线上一出事故,楼盖在沙滩上的问题就藏不住了。
所以我反复提醒自己:先立评估题库,再谈优化。没有那套题,就别急着谈能力好坏。题库立起来,“我觉得变好了”才会变成“L1 召回率从 97% 涨到 99.2%”这种能争论、能追溯、能对赌的事实。
在医疗健康场景里,L1 召回要卡到 ≥ 99%。L1 是最高优先级场景,主要是“漏了会出大问题”的危险信号,比如必须立刻就医的急症。这里召回比准确率更要命,宁可多提醒,也不能漏。另一个硬指标,是 11 个关键字段准确率 ≥ 98%,包括年龄、主诉、持续时间、既往史等。地基歪一寸,后面整栋楼都会跟着歪。
有了标尺,看任何 AI 效果都先问一句:“这个数,用哪套题、按什么口径量出来的?”问“哪套题”,是在看样本够不够真实、够不够覆盖长尾;问“什么口径”,是在看分母有没有偷懒。很多漂亮分数,多追问两句就泄气了。
04 飞轮:业务里长出来的数据,对手买不到也爬不到
燃料和标尺解决的是当下这一版好不好;再往后看,壁垒还取决于时间。业务跑得越久,你手里的材料会不会跟着变厚、变好,这就是飞轮。
AI 健康管家背后有专业陪诊师做人工作复核。AI 先给初步建议,陪诊师把关、修正后再发给用户。后来我们加了一个很小的强制动作:陪诊师每改一次 AI 产出,都必须在下拉框里选择“错误类型”,修改记录和错误类型一起落库。
没有这个动作,人工修改就是一次性的:用户拿到正确答案,事情结束,后台只知道“AI 错了、人改对了”,却不知道错在哪里。加上分类后,每次人工修正都会变成一条带标签的训练信号:事实性错误、口径错误、遗漏、过度承诺、语气不当……错题本越厚,下一轮优化越有方向。
这种材料为什么买不到、也爬不到?因为它来自真实用户的真实健康问题,经过专业人员判断对错,标了错误类型,并且在合规授权下采集。真实、专业把关、合规可用,少一个条件都不成立。公开医疗问答没有结果验证,买来的公开题库所有对手也都能买。真正难复制的,是长期业务里一条条跑出来、每天还在生长的记录。
所以壁垒不是单纯因为量大。难的是:它真实发生,有专业人持续把关,授权链条站得住,还能随着业务继续增长。对手就算挖走算法团队,也带不走这套流水,因为它不在某个人脑子里,而是长在真实场景里。
05 合规与治理:不是成本,是壁垒的一部分
在医疗健康领域,绕开合规谈数据,等于在雷区里讨论跑步姿势。健康信息属于敏感个人信息,采集和使用门槛本来就高。靠灰色手段爬、靠买来的材料,即使拿到,也很难合法用到产品里;一旦较真,都是定时炸弹。
相反,通过正规签约、明确授权、合规流程积累的记录,才能光明正大使用。合规这道墙,其实是在替你挡掉走捷径的人。生成式 AI 服务要看算法备案、审计和追责,数据标注也要有清晰规则、质量评估和人员培训;相关资料使用前要去标识化、匿名化,多方协作时还要考虑联邦学习、差分隐私、多方安全计算等“可用不可见”的技术。
可解释性同样是医疗场景的刚需。关键判断最好能标注参考来源、给出依据,让陪诊师和用户都能追溯。合规不是上线前不得不交的过路费,更像数据资产的产权证。没有这张证,攒得再多也可能被清零;有了它,长期积累才真正变成别人动不了的资产。
06 落到执行:明天上班先做什么
第一件事不是换底座,而是建标尺。哪怕先从 200 条题开始,也比没有强。给最核心指标定红线,比如 L1 召回率 ≥ 99%,以后所有“变好了”都要用这把尺子量。
第二件事,是把质量门槛写成数字。标注一致性 Kappa ≥ 多少,清洗后保留率多少,字段准确率红线在哪里,都要能考核。
第三件事,是把题库的“出题权”和“答题权”分开,Golden Set 对调模型、写提示词的人锁死读取权限。
第四件事,是在业务流程里找一个“强制落库”的钩子。凡是人在修正 AI 的地方,比如审核、复核、客服改写,都尽量加上分类和落库动作。每一次人工把关,都顺手留下一条可复用的训练样本。
第五件事,是优先攒合规可用的私有材料。先问自己:这些东西,对手能不能花钱买到,或者直接爬到?如果能,就别急着叫壁垒。
最后,每个版本上线前问四个问题:这一版比上一版好,用哪套题、什么口径证明?喂进去的材料,质量门槛量化了吗,谁把的关?本月业务有没有留下下一轮可用样本?手里的材料,对手买得到还是爬得到,合规上站得住吗?
回到开头:顶尖底座会把所有人的下限托高,这是好事。但真正的竞争,越来越不只是“谁接的模型更强”。借来的,是通用能力给你的下限;自己一点点长出来的,才是上限。AI 时代真正抹不平的,是日复一日、一条一条、合规攒下来的真实记录,以及愿意认真处理这些记录的笨功夫。
本文由 @Niney 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议

起点课堂会员权益




“原始材料和可用样本之间隔着很长一段苦活”,这话太真实了,很多团队宁可堆数也不愿做脏活累活,结果就是模型学了一堆错误模式。
非常认同“标尺先于优化”的判断。很多团队忙着调提示词但缺乏量化指标,结果优化方向全靠感觉。先立200道题定红线,哪怕粗糙也比盲调强。
数据质量、评估体系、业务闭环这三点的确关键,但把模型同质化作为前提可能有点绝对了。模型本身也在快速演进,不同架构和训练策略的差异未来或许会重新拉开距离,不能完全押注在数据上。