AI项目搭建一时爽,优化火葬场:我的大模型选型六原则

3 评论 331 浏览 0 收藏 8 分钟

大模型项目从Demo到落地,往往面临预期管理、效果优化等多重挑战。本文基于真实项目经验,提炼出六大实战原则:从数据可观测性到场景时效性,从准确性阈值到测评效率,手把手教你避开AI+BI项目的深坑,找到真正值得投入的黄金赛道。

最近做的几个大模型项目到了一个阶段性节点,主要是 AI+BI 方向的,后续会专门跟大家分享这部分内容。今天先跟大家聊聊我在做这些项目过程中的一些真实感受和思考,尤其是关于怎么选大模型项目这件事,给大家做个参考。

“AI 类的项目,搭建一时爽,优化火葬场。”

想要跑起来真的很简单,网上随便找个开源项目或者调个 API 就能 demo 演示。但真到了系统上线要给业务用、要提效果的时候,那才是真的折磨人,特别耗精力。

所以一开始选对一个好的切入点就显得特别重要。下面是我自己判断大模型项目值不值得做的一套思考框架,供大家参考。

01 数据可观测

做产品功能总归是要讲收益的,AI 类项目尤其如此。

传统功能上线,做了就是做了,没做就是没做,业务侧的预期很容易对齐。但大模型不一样,它天生就会有 bad case(答错、答不准的情况),这个预期管理本身就很难。而且如果是创新类应用,你到底给业务带来了多少实际价值,也需要拿数据说话。

所以最好的情况是:项目收益能直接量化;退一步说,至少也要有可观测的数据指标。给大家举两个例子对比下就懂了:

AI 导购:

让用户通过聊天对话的方式完成商品选择和下单。这个收益就很直接,最终看下单量、成交量涨了多少,完全能量化。

企业内部 AI 知识库:

给员工提供一个问答工具,直接检索内部的知识和文档。这个的直接收益就很难量化——毕竟以前手动搜也能找到,现在用 AI 搜,效率到底提升了多少,很难算清楚,还涉及到用户要不要愿意改变使用习惯的问题。

但知识库也算是相对不错的项目,因为至少有明确的使用频次数据,能侧面反映大家认不认可这个产品,也能间接推导出效率提升的情况。

02 优先选择时效不敏感的场景

为什么这么说?因为时效不敏感的场景,你能玩的策略就多。如果是要求实时响应的场景,受限于大模型本身的推理速度,能加的策略非常有限,后续优化空间会被卡死。

还是拿 AI 知识库举例:我之前做的知识库是给一线现场履约用的,用户在现场等着答案,对响应时间要求特别高。后来为了提升准确率,我们想加一些策略(比如场景路由,先判断用户问的是哪个领域的问题再走对应流程),但为了保证不超时,费了老大劲了。后续再想叠加更多策略,只会越来越难。

AI 检核类:

让大模型去检查内容合不合规、符不符合标准。如果是事后检核(不是实时的),那我们能叠加的策略就太多了。比如我们做视频检核,发现某个片段可能有问题,就可以把那个片段单独截出来,再让大模型精看一遍,提升信息密度。类似的优化手段可以上很多。

03 优先选择准确性要求较低的场景

LLM 本质上就是概率生成,它天生就做不到100% 准确。所以对准确率要求特别高的场景,其实写硬代码反而更合适,大模型真不擅长干这个。

AI 检核类:

还是拿 AI 检核举例:如果业务要求 100% 不能出错,那大模型肯定保证不了。这种时候从产品设计上就要留个申诉流程——大模型先筛一遍,有问题的再走人工复核,这样就变相降低了对准确率的要求。

04 优先选择容易测评的场景

这是我踩过最痛的坑!大模型项目上线后,业务肯定会不断给你反馈 bad case。但优化的时候特别容易陷入“打地鼠”:这个场景的问题修好了,另一个场景的效果又变差了。

所以如果一个项目能快速做测评、快速验证效果,那整个推进效率会高非常多。

AI 检核类:

结果就是简单的 “符合/不符合”。只要有一批人工标注好的测试数据,每次调整完提示词或者流程,跑一遍就能直接出准确率,优化起来特别直观,调整也敏捷。

企业内部 AI 知识库:

答案都是 AI 生成的,生成的内容对不对、准不准、偏不偏,每次调整完一版流程或者提示词,都需要大量人工去一条一条复核,效率特别低,过程又痛苦又折磨。

05 优先选择业务侧已经沉淀的规则

做 AI 新业务,光写提示词、搭流程就够麻烦的了,新产品还要花精力去推。所以最好的切入点,是找业务侧已经在线下跑通、有明确沉淀的场景。

还是拿 AI 知识库举例:如果公司内部本来就有完善的知识沉淀,那做这个产品就很顺。但如果公司本身的知识就很乱,那你做知识库的同时,还得去推业务侧先把知识整理好,推进难度就太高了。也很难短时间内拿到结果,不建议选择这个方向的产品。

06 总结

AI类的项目,兼具效果不确定性,应用场景探索性。既要考虑用户的接受度,又要考虑AI 准确性提升,所以选择一个合适的方向作为团队内部的切入点,快速落地拿到结果,树立团队的信息非常重要。

祝大家都能找到自己的切入点!

本文由 @寻走 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 但太依赖业务侧的沉淀规则,也可能导致团队只做辅助性工具,失去探索新场景的机会。平衡一下,拿一个既有规则的项目打底,再分一点精力试新方向。

    来自广东 回复
  2. 说优先选准确率要求低的场景有道理,但很多业务场景恰好是强准确率需求的,比如金融风控、医疗诊断。这个原则可能更适合内部辅助工具,对外产品还是得硬扛。

    来自广东 回复
  3. 想做大模型项目,别被Demo骗了。选方向要看数据能不能量化收益、对实时性要求高不高、准确率容忍度、测评是否容易、业务有无现成规则,否则优化时步步是坑。

    来自广东 回复