AI产品真正的难题——为什么推荐系统的数据全绿了,用户却说越来越没意思
推荐系统的优化远不止数据指标的提升,当用户反馈'推的东西越来越无聊'时,背后隐藏的是意图理解与时机判断的深层问题。本文通过小红书、B站、今日头条等真实案例,揭示了推荐产品常见的三大故障模式,并指出大语言模型如何帮助系统更好地理解用户真实需求。产品经理的核心价值,在于将模糊的'感觉不对'翻译成系统可学习的语言。

2022年,我刚接手一个内容平台的推荐产品线没几个月。那年年底,团队交出了一份还不错的成绩单,点击率同比涨了将近12%,平均时长增加了18秒,DAU稳步上升。我们组当时坐在北京朝阳一栋写字楼的开放式区域,数据发出去那天,大家互相聊了几句,气氛挺好。
然后我打开了当周的用户反馈池。
排在前十的投诉里,有八条说的是同一件事:推的东西越来越无聊了。有个用户写了一条我至今记得的话:”我每天花两小时在这上面,但我记不得上个月看过什么有价值的内容了。”那条反馈后来在我们组周会上被念了三次。
那是我第一次真正意识到,”数据好看”和”产品真的有用”之间,可以同时存在,也可以越来越远。
一、继续调排序,为什么撞墙了
遇到推荐效果变差,绝大多数团队的第一反应是:优化排序。调特征权重、加新信号、提升召回、换精排模型。这套打法不是没用,产品早期相当有效。但到了一定规模,它就走死了。
说白了,排序优化有一个隐含前提,系统已经能大致理解用户和内容了。在这个前提下,调权重、优特征,是在帮系统做更精细的匹配。问题在于,这个前提很多时候根本不成立。
系统学会”用户点了什么”,远比学会”用户当下想要什么”容易。这两件事听起来差一个字,实际上差了好几个数量级。
用户行为信号,点击、时长、收藏、分享 是结果,不是意图。在规模小的时候,结果和意图高度相关,信号体系能撑住。但到了亿级用户量,问题开始放大:用户会消费并不真正感兴趣的内容,纯粹因为没有更好的选择;被动行为盖过了主动反馈;少数派偏好和长尾兴趣消失在均值里;新内容因为历史数据为零,即使质量再好也很难浮现。
这时候继续调排序,动的只是存量信号的权重,用户真实的意图始终没被读懂。我在团队里反复说过一句话:当用户开始说”感觉推的不对”,通常不是模型在说谎,是模型根本没看到真实的问题是什么。
二、小红书踩过的坑,值得每个推荐PM认真看
举个具体的案例。
小红书在内容分发上有一类反复出现的问题,业内讨论不少:某些内容完播率、收藏率、关注转化都很漂亮,曝光量就是上不去。工程侧的本能反应是”这是个排序问题”,于是调权重、改特征,提升有限。
深挖之后,问题变得清晰。系统知道这篇内容是关于”护肤”的,但它不知道这篇内容对一个刚被朋友种草、第一次认真想搞清楚护肤流程的用户来说是高价值的,对一个已经深度研究护肤三年的用户则没什么新意。话题标签一样,但用户处在不同的”意图时刻”,内容的价值判然有别。
系统区分不了,不是因为模型不够强,而是因为问题本身被定义错了,这不是排序问题,是表征问题,更准确地说,是意图理解问题。
用排序优化的方法去解意图理解的问题,好比医生一直在调整剂量,却没有搞清楚诊断对不对。
三、B站的另一个版本:时机问题
B站是个很有意思的观察对象。同一个用户,周末晚上和周一早上想要的东西可能完全不一样。
这个平台上曾经出现过一个经典问题:某些学习类视频在特定时段,工作日午休、周末上午,表现极好,完播率高、评论多、收藏多。系统于是把这个信号泛化了,开始在全时段大量曝光同类内容。结果是,用户在周五晚上想放松的时候,被系统持续推送学习类内容,互动率反而下滑。
问题不在内容本身,也不在排序模型,而在于系统把”这个用户喜欢学习类内容”简单理解成了”这个用户任何时候都喜欢学习类内容”。
意图感知断掉的地方,就是体验崩掉的地方。用户不会来告诉你”你的时机判断有偏差”,他只会默默打开别的App。
四、今日头条走过的路,让后来人看清了天花板在哪
今日头条的推荐系统一度是行业标杆,信号体系强、特征工程深、排序能力一流。但它同样遇到了一个难绕过去的问题:用户在平台上花的时间越来越多,但很多人描述的体验是”停不下来,但停下来之后觉得浪费了时间”。
系统极大地优化了”用户停留”这个信号,但”停留”和”用户真正想要”之间的偏差,随着时间积累变得越来越大。
我不是说今日头条做错了,它在特定阶段的选择有它的商业逻辑。但这个案例说明了一件事:纯粹把行为信号当作意图来优化,到了一定程度会制造出一种很奇怪的产品状态,用户数据好看,但满意度在慢慢流失,而这种流失在短期数据里几乎看不出来。这个坑,不只今日头条踩过,几乎每家做过大规模推荐系统的公司都交过这笔学费。
五、PM的核心价值:把”感觉不对”翻译成系统能学习的语言
用户说”感觉推的不对”,这句话本身不可操作。
一个好的AI产品经理,必须能把这句话拆成三类截然不同的故障模式。内容偏差:系统给的内容话题对了,但深度、视角或呈现方式跟当前用户不合适。时机问题:内容本身适合这个用户,但出现在了错误的时间点。意图误读:系统从历史行为里提取的偏好,跟用户当下真实想要的东西对不上。
这三类问题,用户嘴里都是”感觉不对”,解法却完全不同。分不清楚,团队就会用解决内容偏差的方式去治意图误读,越做越费劲,还找不到为什么没效果。
大语言模型在这里有了真实的产品价值,不是因为它能替代排序,而是因为它能帮助系统更准确地理解内容在语义层面”是关于什么的”,以及用户当下是否在暗示一个具体的需求。这让意图感知从以前只能靠大量行为数据慢慢拟合,变成了一种响应更快的能力。
豆包今年在做的对话式推荐尝试,方向是对的,通过显式对话交互补充意图信号,相当于绕开了”靠行为数据猜意图”这条路,直接让用户说出来。Kimi也在做类似探索,通过上下文理解把用户的当前任务和长期偏好做了一定分层。这两个产品目前还在早期,效果有多稳定需要时间验证,但比那些还在死磕排序特征的团队,思路对了。
这事儿没那么玄,LLM只是工具,如果PM没做前面那道”把模糊反馈拆成具体故障类型”的功课,LLM也不知道往哪个方向优化。核心还是在于PM有没有把对的问题定义清楚。
做完这些年的推荐产品,几条真正在用的规则写在这里:
第一,遇到”体验感不对”的反馈,先把它拆成”内容偏差、时机问题、意图误读”三类,搞清楚哪类占多数,再决定优化方向。方向错了,做得越努力越南辕北辙。
第二,定期检查高质量低曝光的内容。完播率和收藏率都高、但曝光上不去,通常是表征问题,不是排序问题,你需要改变的是系统对”这个内容适合谁、在什么时刻”的理解方式。
第三,用户初期行为不等于长期偏好。系统过度拟合早期信号,会在三个月后制造出一批不知道为什么就流失的用户,而数据看板上什么异常都看不到。冷启动阶段的信号必须单独对待。
第四,把”意图感知优化”和”排序优化”当成两个独立的工作流来管。意图感知的迭代周期更长,依赖定性研究和系统性分析;排序优化可以快速AB测。混在一起管,团队容易陷入”一直在发实验、但感觉什么都没改变”的怪圈。
本文由 @阿齐_AIPM 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




