干了两年多AI产品,我想说几句没在小红书上看到的话
DeepSeek-R1的横空出世,再次掀起AI产品的狂热浪潮。本文通过实战案例揭示大模型在财税、法律等领域的真实表现:摘要生成稳定可靠,精确计算漏洞百出,幻觉问题如影随形。从Text-to-SQL的行业幻想到RAG方案的落地实践,作者用三年血泪经验总结出AI产品的两条铁律——谁为错误买单?错误能否被发现?

DeepSeek-R1出来那个礼拜,我每天接到三个老板的电话。
不夸张。一个是我前老板,字节系出来的;一个是我们现在的CEO;还有一个是天使轮投我们的那个投资人。每个人开头都是同一句”看到那个R1了吧”,然后就是焦虑和兴奋纠缠在一起的语气,”我们是不是要再投一波资源……”
我那时候在公司楼下抽烟。我跟我们CEO在电话里说了一句话,他后来在董事会上引用过:
R1解决的是大模型自己的问题。我们的产品做不好,不是因为模型不够强。
挂了电话回工位,我继续看Sentry里报错。一个客户上传的合同里有16%的字符识别错了,AI抽出来的金额是真实金额的100倍。这玩意儿要是直接推到他们的财务系统里,我赔不起。
这就是我做了三年AI产品之后的感受。
模型每涨一个版本,CEO们的兴奋感涨一个台阶。做事的人,焦虑感涨两个台阶。
26年初我在一个PM群里说过一句招打的话:Text-to-SQL这条路,再做两年都做不出来。群里大概十几个人@我抬杠,我没回。我自己拿这玩意儿做过一年。
不是说技术上做不出来,是说做不到生产可用。你做企业财税场景,老板问”上个月利润”,AI要先猜他要哪个字段,再猜要不要排除某些会计科目,再猜跨表关联的逻辑。三层概率乘下来,准确率你算算。
我之前那家——为了不被认出来就叫它T公司吧——做过一年,烧了大几百万,对话框上线两个月,留存为零。CEO本人都不用。
死法很简单:财务数据差一分钱都不行。第四象限的活,你不能丢给概率机器。
但你知道2025年还有多少PM在做Text-to-SQL么?我去Boss上搜过,”NL2SQL”或者”自然语言查数据”挂出来的岗位四十多个。
韭菜。是真的有。
它能干啥不能干啥
发布会那种演示真别看。豆包1.6发布那天,火山引擎那场直播,演示的Demo我跟我们RD看完都觉得这是挑出来的成功case,背后大概率跑了好几百遍才有一遍是这个效果。
真实业务里它什么水平,我用我们产品身上发生过的事讲。
它写东西是真行
我们一个功能:用户上传一份30页的尽调报告PDF,AI生成5页摘要。这个功能上线11个月,用户满意度(我们让用户每次主动打星)平均4.3。这种活AI干得比初级分析师好。原因也简单,摘要不要求增量信息,只要求重组现有信息。这是它的强项。
它算账是真不行
同一个产品,我们做过一个让AI帮用户算”如果按当前增速跑下去,第18个月现金流是多少”的功能。上线两周关掉。出错率高到无法兜底。
后来我们把这个功能拆了。AI只负责理解用户问的是什么、把参数提取出来。算账交给一段写死的Python代码。然后AI再把代码输出包装成自然语言回给用户。
这就是Function Calling。所有涉及精确计算的场景都得这么干。永远不要让模型自己算数。这是我跟我团队定的死规矩。
它的幻觉永远治不好
我们一个企业客户,律所,让AI整理庭审记录。有一次AI编了一个不存在的判例编号,”(2022)京01民终8847号”,格式完全正确,看起来完全可信。律所一个实习生信了,写进了一份发给客户的备忘录。客户去查,没这个案子。
老板那天打电话过来骂了我们半小时。后来我们硬上RAG,把全国法院公开判决书索引接进来,让AI只能从这个库里取数据,不许凭空生成。
这事儿我后来反思过,我们不应该让用户去发现这种事故,应该自己先做压力测试找出来。这是我做AI产品最大的教训之一。
它的注意力其实很差
百万Token上下文我用过。Gemini那个2M的也用过。听上去美好,跑起来真要命。
“大海捞针”测试这些年大家都知道。我自己做过更狠的——把一份30万字的法律文件喂进去问20个问题,记录下来:前1/4的问题准确率93%,中间1/2准确率61%,最后1/4准确率87%。中段就是被吃掉的。
所以别迷信长上下文。所有”我把整个数据库塞进Prompt”的方案都是naive的,最后一定要做RAG或者用Agent分块处理。
我想插一段跟主题关系不大的话
我们公司去年招了一个产品经理,简历上写的是”前X厂AI产品负责人”。面试问他做过什么项目,他说”主导过基于大模型的智能客服Copilot从0到1″。
我问DAU多少。他说没释放出来。 我问留存怎么样。他说还没拿到完整数据。 我问Token月消耗多少。他愣了三秒,说不太记得了。
我说算了,最后一个问题:你们的system prompt多长?他说大概几百字吧。
我没要他。后来这哥们去了另一家创业公司做CPO,听说三个月就被炒了。
我想说的是,AI产品经理这个title现在水分太大。真正干过的人,开口三句话就知道有没有在一线肉搏过。Token账记不住、留存说不清、Prompt结构讲不出来,那就是没做过。简历上写得再漂亮没用。
扯远了,回来
场景这事儿就两条
我做了三年AI产品总结下来就两条判断标准,比那些四象限九象限管用:
AI错了,谁付钱?
写营销文案,错了没人付钱(最多老板皱个眉)。这种场景大胆上。
医疗诊断错了病人付钱。法律意见错了客户付钱。财务报表错了公司付钱。
后一类里——只要付钱的不是用户自己,就别让AI拍板。让它做”建议者”,让真人做”决定者”。
错了能不能事后被发现?
我们一个客户用的内容审核工具:AI判错一条,几小时之内人工抽检会发现,标错的样本回流训练,下次就对了。这种场景错了无所谓,因为错了能修复。
我同行做过一个:AI自动给HR筛简历,被淘汰的简历直接进黑名单,不通知用户。这种场景的”错”会被永远埋葬,因为被淘汰的候选人不会回来质问你。这种场景就算准确率99%也不能上,因为那1%是看不见的伤亡。
不可逆+无法发现的错,是底线。
你猜哪家模型在我们这儿跑得好
行业里大家都吹自己做得好。我跟你讲点闲话。
豆包1.6在中文摘要的稳定性上,我个人观点,比Kimi高半档。我没拿benchmark数据,我用了一年。同样的输入,豆包十次有八次给一个稳定结构的答案,Kimi十次会给三种风格。这意味着我下游做后处理,豆包好做。
DeepSeek-R1适合做”推理代理”——你让它解一个复杂问题,让它一步步想,强。但拿它做生产环境的实时对话,延迟你扛不住。
Claude 3.7 Sonnet在长上下文的”中段记忆”上,我们内部测下来比国产几家都强。代价就是国内调用走代理,稳定性烂。
阶跃星辰那个Step-2在多模态上有点意思,但企业市场卖得难。
这些判断都可能错。但做AI产品三年还提不出几个这样的判断的人,就是没在一线。模型选型这事儿不是看benchmark,是看你真实业务跑下来什么手感。
翻车的几件事
财税那个T公司翻车我前面讲了。再讲一个。
去年我陪一个朋友去他公司提案,他公司做HR SaaS。他们AI产品做的是”AI自动生成员工季度绩效报告”——把员工OKR、周报、同事评价喂给模型,生成300字的绩效总结。
听起来很美。
上线两周出大事:一个员工拿到的报告里写到了一段他自己从来没填过的”自我评价”。AI编的。但语气、用词、跟那个员工平时的风格一模一样。员工把这段话截图发到脉脉,问公司”是不是在伪造我的言论”。
公关花了三个礼拜处理完。产品下线。
死因是——这种场景里,AI生成的内容会被当成”事实陈述”来读。而模型不分”我在生成”和”我在引用”。
我那朋友现在见我喝酒就要再骂一遍。”老子真不该信那个Demo。”
跑通的我也讲一个,不讲翻译那种通用例子。
我们公司做企业知识库搜索。用户问”我们去年Q3的客户流失有什么特征”,传统搜索给你列5份文档让你自己挖。我们的版本是:
检索→找到相关20份文档。 重排→小模型按相关度排序,挑前5份。 阅读→Claude把这5份的相关段落抽出来,写成300字的答案。 引用→每个claim后挂上来源文档链接。
听起来简单。我团队四个人做了七个月。
七个月里我们解决了一堆问题:怎么切chunk、怎么处理PDF里的图、怎么处理表格、怎么让模型在不知道时说不知道而不是编、怎么让用户能验证答案的依据。
效果是真好。我们这个产品的客户续约率比同行高十几个点。
这事儿教我一件事——AI产品的80%价值不在调API,在工程。Chunking策略、检索算法、Re-rank、引用追溯、错误处理——这些是真功夫。会调API的人现在批发价两块钱一打。能做出工程闭环的,凤毛麟角。
我现在每周还在做的几件事
写完上面那些再讲方法论太累了。我就说我现在每周还在做的几件事吧:
周一早上花两小时盯昨天的报错日志。AI产品的报错跟传统产品不一样,你看的不是5xx,是用户的”诶不对吧”。这个信号在Sentry里捕获不到,要在用户反馈系统里手抓。
每周二跟客服团队聊半小时。哪些问题用户最近问得多了,往往代表底层模型有些行为变了。OpenAI偷偷换模型版本不会有人告诉你,是客服先察觉。
每个月用网页版手测50条prompt。不接代码、不调API,就用网页版人工跑。这数据我用来推算”如果换更强的模型,我的天花板能上到哪儿”。
每个季度算一次Token账。不算不知道,我们去年Q4的API账单比Q3涨了40%。一查是某个客户搞了一个循环调用的bug烧出来的。
这些事儿都没有方法论可以教。干就完了。
最后讲一段没什么逻辑的话
我做AI产品最大的感受不是模型怎么样、不是技术怎么样。是人。
CEO们的预期管理。RD的工程能力。客户的容忍度。同行的吹牛。VC的押注。这些东西从2024年到现在变了好几轮。
去年这时候大家都在讲Agent。现在没人讲了。去年Manus那波出来,所有人都说要颠覆。现在不提了。
AI产品经理的本职,可能就是当好这场喧嚣里那个清醒的人。
知道什么能做、什么不能做。知道哪个老板的预期需要降温、哪个工程师的方案需要支持。知道这波热度会过、过完之后真正剩下来的是什么。
写到这儿我本来想升华一下”PM在AI时代的价值”什么的,写出来一看太傻了。
算了,就这样。
下周客户演示,我得回去备PPT了。
本文由 @Talen 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




