干了两年多AI产品，我想说几句没在小红书上看到的话

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

干了两年多AI产品，我想说几句没在小红书上看到的话

Talen

2026-05-12

0 评论 213 浏览 0 收藏

15 分钟

DeepSeek-R1的横空出世，再次掀起AI产品的狂热浪潮。本文通过实战案例揭示大模型在财税、法律等领域的真实表现：摘要生成稳定可靠，精确计算漏洞百出，幻觉问题如影随形。从Text-to-SQL的行业幻想到RAG方案的落地实践，作者用三年血泪经验总结出AI产品的两条铁律——谁为错误买单？错误能否被发现？

DeepSeek-R1出来那个礼拜，我每天接到三个老板的电话。

不夸张。一个是我前老板，字节系出来的；一个是我们现在的CEO；还有一个是天使轮投我们的那个投资人。每个人开头都是同一句”看到那个R1了吧”，然后就是焦虑和兴奋纠缠在一起的语气，”我们是不是要再投一波资源……”

我那时候在公司楼下抽烟。我跟我们CEO在电话里说了一句话，他后来在董事会上引用过：

R1解决的是大模型自己的问题。我们的产品做不好，不是因为模型不够强。

挂了电话回工位，我继续看Sentry里报错。一个客户上传的合同里有16%的字符识别错了，AI抽出来的金额是真实金额的100倍。这玩意儿要是直接推到他们的财务系统里，我赔不起。

这就是我做了三年AI产品之后的感受。

模型每涨一个版本，CEO们的兴奋感涨一个台阶。做事的人，焦虑感涨两个台阶。

26年初我在一个PM群里说过一句招打的话：Text-to-SQL这条路，再做两年都做不出来。群里大概十几个人@我抬杠，我没回。我自己拿这玩意儿做过一年。

不是说技术上做不出来，是说做不到生产可用。你做企业财税场景，老板问”上个月利润”，AI要先猜他要哪个字段，再猜要不要排除某些会计科目，再猜跨表关联的逻辑。三层概率乘下来，准确率你算算。

我之前那家——为了不被认出来就叫它T公司吧——做过一年，烧了大几百万，对话框上线两个月，留存为零。CEO本人都不用。

死法很简单：财务数据差一分钱都不行。第四象限的活，你不能丢给概率机器。

但你知道2025年还有多少PM在做Text-to-SQL么？我去Boss上搜过，”NL2SQL”或者”自然语言查数据”挂出来的岗位四十多个。

韭菜。是真的有。

它能干啥不能干啥

发布会那种演示真别看。豆包1.6发布那天，火山引擎那场直播，演示的Demo我跟我们RD看完都觉得这是挑出来的成功case，背后大概率跑了好几百遍才有一遍是这个效果。

真实业务里它什么水平，我用我们产品身上发生过的事讲。

它写东西是真行

我们一个功能：用户上传一份30页的尽调报告PDF，AI生成5页摘要。这个功能上线11个月，用户满意度（我们让用户每次主动打星）平均4.3。这种活AI干得比初级分析师好。原因也简单，摘要不要求增量信息，只要求重组现有信息。这是它的强项。

它算账是真不行

同一个产品，我们做过一个让AI帮用户算”如果按当前增速跑下去，第18个月现金流是多少”的功能。上线两周关掉。出错率高到无法兜底。

后来我们把这个功能拆了。AI只负责理解用户问的是什么、把参数提取出来。算账交给一段写死的Python代码。然后AI再把代码输出包装成自然语言回给用户。

这就是Function Calling。所有涉及精确计算的场景都得这么干。永远不要让模型自己算数。这是我跟我团队定的死规矩。

它的幻觉永远治不好

我们一个企业客户，律所，让AI整理庭审记录。有一次AI编了一个不存在的判例编号，”（2022）京01民终8847号”，格式完全正确，看起来完全可信。律所一个实习生信了，写进了一份发给客户的备忘录。客户去查，没这个案子。

老板那天打电话过来骂了我们半小时。后来我们硬上RAG，把全国法院公开判决书索引接进来，让AI只能从这个库里取数据，不许凭空生成。

这事儿我后来反思过，我们不应该让用户去发现这种事故，应该自己先做压力测试找出来。这是我做AI产品最大的教训之一。

它的注意力其实很差

百万Token上下文我用过。Gemini那个2M的也用过。听上去美好，跑起来真要命。

“大海捞针”测试这些年大家都知道。我自己做过更狠的——把一份30万字的法律文件喂进去问20个问题，记录下来：前1/4的问题准确率93%，中间1/2准确率61%，最后1/4准确率87%。中段就是被吃掉的。

所以别迷信长上下文。所有”我把整个数据库塞进Prompt”的方案都是naive的，最后一定要做RAG或者用Agent分块处理。

我想插一段跟主题关系不大的话

我们公司去年招了一个产品经理，简历上写的是”前X厂AI产品负责人”。面试问他做过什么项目，他说”主导过基于大模型的智能客服Copilot从0到1″。

我问DAU多少。他说没释放出来。我问留存怎么样。他说还没拿到完整数据。我问Token月消耗多少。他愣了三秒，说不太记得了。

我说算了，最后一个问题：你们的system prompt多长？他说大概几百字吧。

我没要他。后来这哥们去了另一家创业公司做CPO，听说三个月就被炒了。

我想说的是，AI产品经理这个title现在水分太大。真正干过的人，开口三句话就知道有没有在一线肉搏过。Token账记不住、留存说不清、Prompt结构讲不出来，那就是没做过。简历上写得再漂亮没用。

扯远了，回来

场景这事儿就两条

我做了三年AI产品总结下来就两条判断标准，比那些四象限九象限管用：

AI错了，谁付钱？

写营销文案，错了没人付钱（最多老板皱个眉）。这种场景大胆上。

医疗诊断错了病人付钱。法律意见错了客户付钱。财务报表错了公司付钱。

后一类里——只要付钱的不是用户自己，就别让AI拍板。让它做”建议者”，让真人做”决定者”。

错了能不能事后被发现？

我们一个客户用的内容审核工具：AI判错一条，几小时之内人工抽检会发现，标错的样本回流训练，下次就对了。这种场景错了无所谓，因为错了能修复。

我同行做过一个：AI自动给HR筛简历，被淘汰的简历直接进黑名单，不通知用户。这种场景的”错”会被永远埋葬，因为被淘汰的候选人不会回来质问你。这种场景就算准确率99%也不能上，因为那1%是看不见的伤亡。

不可逆+无法发现的错，是底线。

你猜哪家模型在我们这儿跑得好

行业里大家都吹自己做得好。我跟你讲点闲话。

豆包1.6在中文摘要的稳定性上，我个人观点，比Kimi高半档。我没拿benchmark数据，我用了一年。同样的输入，豆包十次有八次给一个稳定结构的答案，Kimi十次会给三种风格。这意味着我下游做后处理，豆包好做。

DeepSeek-R1适合做”推理代理”——你让它解一个复杂问题，让它一步步想，强。但拿它做生产环境的实时对话，延迟你扛不住。

Claude 3.7 Sonnet在长上下文的”中段记忆”上，我们内部测下来比国产几家都强。代价就是国内调用走代理，稳定性烂。

阶跃星辰那个Step-2在多模态上有点意思，但企业市场卖得难。

这些判断都可能错。但做AI产品三年还提不出几个这样的判断的人，就是没在一线。模型选型这事儿不是看benchmark，是看你真实业务跑下来什么手感。

翻车的几件事

财税那个T公司翻车我前面讲了。再讲一个。

去年我陪一个朋友去他公司提案，他公司做HR SaaS。他们AI产品做的是”AI自动生成员工季度绩效报告”——把员工OKR、周报、同事评价喂给模型，生成300字的绩效总结。

听起来很美。

上线两周出大事：一个员工拿到的报告里写到了一段他自己从来没填过的”自我评价”。AI编的。但语气、用词、跟那个员工平时的风格一模一样。员工把这段话截图发到脉脉，问公司”是不是在伪造我的言论”。

公关花了三个礼拜处理完。产品下线。

死因是——这种场景里，AI生成的内容会被当成”事实陈述”来读。而模型不分”我在生成”和”我在引用”。

我那朋友现在见我喝酒就要再骂一遍。”老子真不该信那个Demo。”

跑通的我也讲一个，不讲翻译那种通用例子。

我们公司做企业知识库搜索。用户问”我们去年Q3的客户流失有什么特征”，传统搜索给你列5份文档让你自己挖。我们的版本是：

检索→找到相关20份文档。重排→小模型按相关度排序，挑前5份。阅读→Claude把这5份的相关段落抽出来，写成300字的答案。引用→每个claim后挂上来源文档链接。

听起来简单。我团队四个人做了七个月。

七个月里我们解决了一堆问题：怎么切chunk、怎么处理PDF里的图、怎么处理表格、怎么让模型在不知道时说不知道而不是编、怎么让用户能验证答案的依据。

效果是真好。我们这个产品的客户续约率比同行高十几个点。

这事儿教我一件事——AI产品的80%价值不在调API，在工程。Chunking策略、检索算法、Re-rank、引用追溯、错误处理——这些是真功夫。会调API的人现在批发价两块钱一打。能做出工程闭环的，凤毛麟角。

我现在每周还在做的几件事

写完上面那些再讲方法论太累了。我就说我现在每周还在做的几件事吧：

周一早上花两小时盯昨天的报错日志。AI产品的报错跟传统产品不一样，你看的不是5xx，是用户的”诶不对吧”。这个信号在Sentry里捕获不到，要在用户反馈系统里手抓。

每周二跟客服团队聊半小时。哪些问题用户最近问得多了，往往代表底层模型有些行为变了。OpenAI偷偷换模型版本不会有人告诉你，是客服先察觉。

每个月用网页版手测50条prompt。不接代码、不调API，就用网页版人工跑。这数据我用来推算”如果换更强的模型，我的天花板能上到哪儿”。

每个季度算一次Token账。不算不知道，我们去年Q4的API账单比Q3涨了40%。一查是某个客户搞了一个循环调用的bug烧出来的。

这些事儿都没有方法论可以教。干就完了。

最后讲一段没什么逻辑的话

我做AI产品最大的感受不是模型怎么样、不是技术怎么样。是人。

CEO们的预期管理。RD的工程能力。客户的容忍度。同行的吹牛。VC的押注。这些东西从2024年到现在变了好几轮。

去年这时候大家都在讲Agent。现在没人讲了。去年Manus那波出来，所有人都说要颠覆。现在不提了。

AI产品经理的本职，可能就是当好这场喧嚣里那个清醒的人。

知道什么能做、什么不能做。知道哪个老板的预期需要降温、哪个工程师的方案需要支持。知道这波热度会过、过完之后真正剩下来的是什么。

写到这儿我本来想升华一下”PM在AI时代的价值”什么的，写出来一看太傻了。

算了，就这样。

下周客户演示，我得回去备PPT了。

本文由 @Talen 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Talen

极度冷静的“i人”，用最大的耐心拆解最复杂的业务需求。

3篇作品 1729总阅读量

02-103726 浏览

07-314138 浏览

06-083460 浏览

05-263883 浏览

抖音电商7大自营业务集体亮相，找到增长新密码？

06-072776 浏览

目前还没评论，等你发挥！

通过电商平台库存管理系统，告诉你如何设计To B系统

10-244276 浏览
和ChatGPT的首次合作：论单一职责原则

03-153079 浏览
VR/AR/MR-空间交互设计之“手势交互”

11-223632 浏览