推荐策略中的“召回”

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

召回是什么

推荐系统如何根据已有的用户画像和内容画像去推荐，涉及到两个关键问题：召回和排序。

“召回（match）”指从全量信息集合中触发尽可能多的正确结果，并将结果返回给“排序”。

召回的方式有多种：协同过滤、主题模型、内容召回和热点召回等，而“排序（rank）“则是对所有召回的内容进行打分排序，选出得分最高的几个结果推荐给用户。

浅谈推荐策略中的「召回」

图1 推荐系统的算法流程

在搜索系统中，用户会输入明确的搜索词，根据搜索词进行内容的召回和呈现即可，但在推荐系统中，用户没有一个明确的检索词（Query）输入，推荐系统需要做的，就是根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容。

另外，由于没有明确的检索词，推荐系统就需要从整个信息集合中挑选出尽可能多的相关结果，同时又需要剔除相关性较弱的结果，降低排序阶段的工作量。

怎样的召回策略是好的

召回策略的评估主要根据两个评价指标：召回率和准确率。

召回率（Recall）=系统检索到的相关内容 / 系统所有相关的内容总数准确率（Precision）=系统检索到的相关内容 / 系统所有检索到的内容总数。

以搜索为例，当用户搜索“北京大学”时，想看到北大相关的网站、新闻等，系统返回了以下三个网页：

a. 北京大学保安考上研究生；

b. 北京互联网工作招聘；

c. 大学生活是什么样的；

可以看到，只有a是用户真正想看到的，其他两个和用户搜索词无关，而事实上数据库里还有这种网页：

d. 北大开学季；

e. 未名湖的景色；

d、e这两个网页没被搜索到，但它们和“北京大学”的相关度其实是超过b、c的，也就是应该被搜索（被召回）到但实际并没有显示在结果里的，所以，这个系统的：

召回率 = a / (a + d + e)=0.33；
准确率 = a /(a + b + c)=0.33。

这是搜索情境下的召回率和准确率，而“推荐”其实就是没有检索词输入时的搜索，例如，用户并没有输入“北京大学”这样的关键词，但其实他是北京大学的学生，对自己学校相关的新闻很感兴趣，推荐系统的召回就是要根据用户画像、内容画像等各种信息，为用户提供他感兴趣的相关内容，所以也存在召回率和准确率的问题。

召回率和准确率有时存在相互制衡的情况，好的召回策略应该在保证高准确率的情况下也保证高召回率。

当然，召回率和准确率也是存在一定关系的，而我们在做实际项目的优化目标通常是希望用户所检索的内容能够在召回率和准确率两方面都表现都好。

举个例子（或许不够准确，仅供参考）如表1，机器在给用户推荐内容的时候，会出现A（准确并召回）、B（准确不召回）、C（不准确召回）、D（不准确不召回）四种情况。那么，最理想的就是A、C两种情况。

表1 内容召回的4种情况

今日头条的召回策略

今日头条作为业界推荐系统方面的顶级选手，不免有人会好奇，它的召回策略是怎样的？

今日头条的算法架构师曾在接受采访时表示，今日头条有一个世界范围内比较大的在线训练推荐模型，包括几百亿特征和几十亿的向量特征。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，从庞大内容中筛选一个模型组成内容库。

召回策略种类有很多，今日头条主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等，排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效地从很大的内容库中筛选比较靠谱的一小部分内容。基于召回策略，把一个海量、无法把握的内容库，变成一个相对小、可以把握的内容库，再进入推荐模型。这样有效平衡了计算成本和效果。

参考文献

【1】闫泽华，《内容算法》，中信出版集团

【2】CSDN博客：信息流推荐算法实践 &深入 https://blog.csdn.net/dengxing1234/article/details/79756265

【3】IBM官网资料探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

【4】今日头条推荐算法原理首公开，头条首席算法架构师带来详细解读 https://www.leiphone.com/news/201801/XlIxFZ5W3j8MvaEL.html

本文由 @Alex 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

不二PM

资深PM(腾讯/抖音)

12篇作品 267641总阅读量

3万亿市场、5亿用户，亟待开发的直播电商产业价值链！

03-294737 浏览

普通人转行“提示工程师”毫无意义

08-023378 浏览

聊聊IPD（集成产品开发）模式下的产品研发流程

11-286822 浏览

我的证券产品史——见证 A 股激荡14年（上）

07-213481 浏览

京东、李佳琦、海氏烤箱事件，对用户体验，市场洞察行业的影响是致命的

10-263084 浏览

I_am_Sabri

深度好文

最近来自广东回复
冒险的小糖

以前学算法的时候，为了易于理解，召回率被称为查全率，准确率被称为查准率。以我个人理解C之所以是理想情况，是因为查得准有可能查不到（查全率低）。
对于资讯类app而言，用户的停留时长可能更重要。查不到可能会导致内容少，用户没办法继续往下滑，找到「可能是准确」或「可能感兴趣」的话题，所以相对而言C会比D好一些。

最近来自北京回复
叫我夏优秀

您好，我想要成为推荐策略的产品经理，但我现在对于这些算法不是特别懂，应该怎么开始学习呢？

最近回复
洛音

很厉害

最近来自北京回复
徐梓凌

请问为什么不准确召回（C）是理想情况呢？不应该是AD是理想情况吗？

最近来自北京回复
1. 💛🔫 回复徐梓凌
  
  个人认为确实是AD
  
  最近回复
2. 栗子不爱吃李子回复💛🔫
  
  我也觉得是AD是最理想情况
  
  最近来自广东回复
3. 藤塬回复徐梓凌
  
  您好，请问为什么最理想的情况不是AD呢？
  
  最近来自广东回复
4. 不来迟〒_〒回复徐梓凌
  
  我也觉得是AD
  
  最近来自广东回复
万年一遇的天才少年灰

为什么要用“召回”这么熟涩的词？

最近来自浙江回复
1. 不二PM 作者回复万年一遇的天才少年灰
  
  来源于技术书籍，哈哈哈。
  
  最近来自天津回复

召回是什么

怎样的召回策略是好的

推荐系统如何召回

1. 基于内容匹配的召回

2. 基于协同过滤的召回

今日头条的召回策略