AI产品真正的难题——为什么推荐系统的数据全绿了，用户却说越来越没意思

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI产品真正的难题——为什么推荐系统的数据全绿了，用户却说越来越没意思

AIGC阿齐齐齐齐

2026-05-19

0 评论 564 浏览 2 收藏

12 分钟

推荐系统的优化远不止数据指标的提升，当用户反馈'推的东西越来越无聊'时，背后隐藏的是意图理解与时机判断的深层问题。本文通过小红书、B站、今日头条等真实案例，揭示了推荐产品常见的三大故障模式，并指出大语言模型如何帮助系统更好地理解用户真实需求。产品经理的核心价值，在于将模糊的'感觉不对'翻译成系统可学习的语言。

2022年，我刚接手一个内容平台的推荐产品线没几个月。那年年底，团队交出了一份还不错的成绩单，点击率同比涨了将近12%，平均时长增加了18秒，DAU稳步上升。我们组当时坐在北京朝阳一栋写字楼的开放式区域，数据发出去那天，大家互相聊了几句，气氛挺好。

然后我打开了当周的用户反馈池。

排在前十的投诉里，有八条说的是同一件事：推的东西越来越无聊了。有个用户写了一条我至今记得的话：”我每天花两小时在这上面，但我记不得上个月看过什么有价值的内容了。”那条反馈后来在我们组周会上被念了三次。

那是我第一次真正意识到，”数据好看”和”产品真的有用”之间，可以同时存在，也可以越来越远。

一、继续调排序，为什么撞墙了

遇到推荐效果变差，绝大多数团队的第一反应是：优化排序。调特征权重、加新信号、提升召回、换精排模型。这套打法不是没用，产品早期相当有效。但到了一定规模，它就走死了。

说白了，排序优化有一个隐含前提，系统已经能大致理解用户和内容了。在这个前提下，调权重、优特征，是在帮系统做更精细的匹配。问题在于，这个前提很多时候根本不成立。

系统学会”用户点了什么”，远比学会”用户当下想要什么”容易。这两件事听起来差一个字，实际上差了好几个数量级。

用户行为信号，点击、时长、收藏、分享是结果，不是意图。在规模小的时候，结果和意图高度相关，信号体系能撑住。但到了亿级用户量，问题开始放大：用户会消费并不真正感兴趣的内容，纯粹因为没有更好的选择；被动行为盖过了主动反馈；少数派偏好和长尾兴趣消失在均值里；新内容因为历史数据为零，即使质量再好也很难浮现。

这时候继续调排序，动的只是存量信号的权重，用户真实的意图始终没被读懂。我在团队里反复说过一句话：当用户开始说”感觉推的不对”，通常不是模型在说谎，是模型根本没看到真实的问题是什么。

二、小红书踩过的坑，值得每个推荐PM认真看

举个具体的案例。

小红书在内容分发上有一类反复出现的问题，业内讨论不少：某些内容完播率、收藏率、关注转化都很漂亮，曝光量就是上不去。工程侧的本能反应是”这是个排序问题”，于是调权重、改特征，提升有限。

深挖之后，问题变得清晰。系统知道这篇内容是关于”护肤”的，但它不知道这篇内容对一个刚被朋友种草、第一次认真想搞清楚护肤流程的用户来说是高价值的，对一个已经深度研究护肤三年的用户则没什么新意。话题标签一样，但用户处在不同的”意图时刻”，内容的价值判然有别。

系统区分不了，不是因为模型不够强，而是因为问题本身被定义错了，这不是排序问题，是表征问题，更准确地说，是意图理解问题。

用排序优化的方法去解意图理解的问题，好比医生一直在调整剂量，却没有搞清楚诊断对不对。

三、B站的另一个版本：时机问题

B站是个很有意思的观察对象。同一个用户，周末晚上和周一早上想要的东西可能完全不一样。

这个平台上曾经出现过一个经典问题：某些学习类视频在特定时段，工作日午休、周末上午，表现极好，完播率高、评论多、收藏多。系统于是把这个信号泛化了，开始在全时段大量曝光同类内容。结果是，用户在周五晚上想放松的时候，被系统持续推送学习类内容，互动率反而下滑。

问题不在内容本身，也不在排序模型，而在于系统把”这个用户喜欢学习类内容”简单理解成了”这个用户任何时候都喜欢学习类内容”。

意图感知断掉的地方，就是体验崩掉的地方。用户不会来告诉你”你的时机判断有偏差”，他只会默默打开别的App。

四、今日头条走过的路，让后来人看清了天花板在哪

今日头条的推荐系统一度是行业标杆，信号体系强、特征工程深、排序能力一流。但它同样遇到了一个难绕过去的问题：用户在平台上花的时间越来越多，但很多人描述的体验是”停不下来，但停下来之后觉得浪费了时间”。

系统极大地优化了”用户停留”这个信号，但”停留”和”用户真正想要”之间的偏差，随着时间积累变得越来越大。

我不是说今日头条做错了，它在特定阶段的选择有它的商业逻辑。但这个案例说明了一件事：纯粹把行为信号当作意图来优化，到了一定程度会制造出一种很奇怪的产品状态，用户数据好看，但满意度在慢慢流失，而这种流失在短期数据里几乎看不出来。这个坑，不只今日头条踩过，几乎每家做过大规模推荐系统的公司都交过这笔学费。

五、PM的核心价值：把”感觉不对”翻译成系统能学习的语言

用户说”感觉推的不对”，这句话本身不可操作。

一个好的AI产品经理，必须能把这句话拆成三类截然不同的故障模式。内容偏差：系统给的内容话题对了，但深度、视角或呈现方式跟当前用户不合适。时机问题：内容本身适合这个用户，但出现在了错误的时间点。意图误读：系统从历史行为里提取的偏好，跟用户当下真实想要的东西对不上。

这三类问题，用户嘴里都是”感觉不对”，解法却完全不同。分不清楚，团队就会用解决内容偏差的方式去治意图误读，越做越费劲，还找不到为什么没效果。

大语言模型在这里有了真实的产品价值，不是因为它能替代排序，而是因为它能帮助系统更准确地理解内容在语义层面”是关于什么的”，以及用户当下是否在暗示一个具体的需求。这让意图感知从以前只能靠大量行为数据慢慢拟合，变成了一种响应更快的能力。

豆包今年在做的对话式推荐尝试，方向是对的，通过显式对话交互补充意图信号，相当于绕开了”靠行为数据猜意图”这条路，直接让用户说出来。Kimi也在做类似探索，通过上下文理解把用户的当前任务和长期偏好做了一定分层。这两个产品目前还在早期，效果有多稳定需要时间验证，但比那些还在死磕排序特征的团队，思路对了。

这事儿没那么玄，LLM只是工具，如果PM没做前面那道”把模糊反馈拆成具体故障类型”的功课，LLM也不知道往哪个方向优化。核心还是在于PM有没有把对的问题定义清楚。

做完这些年的推荐产品，几条真正在用的规则写在这里：

第一，遇到”体验感不对”的反馈，先把它拆成”内容偏差、时机问题、意图误读”三类，搞清楚哪类占多数，再决定优化方向。方向错了，做得越努力越南辕北辙。

第二，定期检查高质量低曝光的内容。完播率和收藏率都高、但曝光上不去，通常是表征问题，不是排序问题，你需要改变的是系统对”这个内容适合谁、在什么时刻”的理解方式。

第三，用户初期行为不等于长期偏好。系统过度拟合早期信号，会在三个月后制造出一批不知道为什么就流失的用户，而数据看板上什么异常都看不到。冷启动阶段的信号必须单独对待。

第四，把”意图感知优化”和”排序优化”当成两个独立的工作流来管。意图感知的迭代周期更长，依赖定性研究和系统性分析；排序优化可以快速AB测。混在一起管，团队容易陷入”一直在发实验、但感觉什么都没改变”的怪圈。

本文由 @阿齐_AIPM 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App