推荐策略产品经理实操(一):内容库游戏标签特征

6 评论 14421 浏览 100 收藏 6 分钟
🔗 B端产品和C端产品的区别在于,B端产品的用户是企业客户,C端产品的用户是个人消费者。因此,B端产品经理和...

编辑导读:本文作者依据工作中项目实践的所思所想,结合案例等分享了推荐系统设计中内容库游戏标签的制作流程,并对过程中存在的一些问题进行了梳理分析,与大家分享。希望能给大家作为参考,并在工作中产生助益。

很幸运,刚毕业就做了推荐策略产品经理,更幸运的是,公司的推荐系统刚刚起步自己就参与了进去,算是一个从0-1的过程。以下实操项目中出现的数据都进行了处理,与实际项目数据不一样。

(鉴于保密问题,以下所有数据均为处理过的数据,非真实数据)

01 项目背景

目前我们的内容库中只有不到20%的游戏有相应的标签,且均为爬虫标签,覆盖率低且脏数据较多,重复标签较多,同类型标签有很多种名称,没有固定的标准和规范,需要尽快建立自己的标签库和标签标准,进一步优化推荐;

02 项目过程

1. 标准制定与阶段优化

之前的爬虫标签分为一级标签和二级标签,但因为游戏这一物品的特殊性,游戏的标签不应该分级标记,需要多种标记方式,因此我们在进行游戏标签标准制定的时候,去掉了分级标签,而是通过游戏分类、玩法、题材、风格等标签类对游戏进行标签匹配,一个游戏对应1到多个标签,且各个标签之间没有父级关系,属于并存关系;

1)一个游戏至少N+1个标签(也存在少数游戏不够的情况),1个一级标签,N个二级标签,1个核心标签;

  • 一级标签和二级标签并不是父类标签的关系,是相互补充的关系;
  • 后期模型训练增加1个核心标签(基本上都是一级标签);

2)标记标签顺序:80%是从游戏DAU降序在标记,20%是新游戏

2. 数据导入与字段新增

  • 历时3个月,运营标记标签覆盖率提升了65%左右,且均按照制定的标准执行;
  • 从运营标记标签达到一定量级时,就协助BI大数据的同学进行字段新增以及内容导入工作;
  • 最后确定3个字段:游戏标签/游戏类别/核心标签;

3. 离线训练与结果输出

覆盖率达到一定范围后,可以着手进行离线模型训练,验证效果。目前进行效果验证的主要方法就是对比离线AUC。

1)将测试集与训练集经过一定比例进行随机拆分获得;

2)通过增加不同的字段进行训练:

  • 单独添加三个特征时,游戏标签的AUC提升最高,游戏类目提升次之,核心标签没有提升反而数据存在下降;
  • 同时添加三个特征时,训练效果最好,离线AUC增长3%左右;
  • 去除爬虫标签特征时,数据都有微小的下降,但下降非常小,可以忽略;

4. AB测试与结果闭环

基于离线数据,进行线上AB测试,实验人数30万,实验时间范围2周。实验结果:

  • 人均游戏时长增加2.5%,次留增加1%;
  • 推荐页面人均点击次数提升7%,人均新游戏个数提升6%,人均广告次数提升2%,推荐列表长长尾游戏占比提升;

03 项目复盘

1. 多渠道问题解决

在制作自己的标签时,我们也并没有只使用现有的爬虫标签,而是对爬虫标签进行了策略优化,进行了爬虫标签的模糊匹配:

  • 游戏包名会因为投放渠道的不同,包名存在后缀不同、一个游戏多个包名的情况,导致爬虫标签和游戏包名不能一一对应;
  • 用游戏中文名进行模糊匹配,取频率最高的前三个标签;
  • 进行匹配后,爬虫标签覆盖率增长一倍多;

2. 基础建设最重要

在最开始0-1的过程一定要多方面考虑,详细进行计划,制定的标准一定要全面、合理、精细、便于实施,我们前期标准的制定经历了很长的时间,一直在打磨标准、不断的优化完善,推翻重来;这个阶段不能怕麻烦,否则后面的阶段问题会越来越多;

3. 产品经理是接口

产品经理在项目的每个阶段其实都不是最专业的,但却是不可缺少的角色,需要时刻的注意业务的方向,并帮助各个专业同学厘清自己的业务方向,做一个合格的“接口”,顺利连通每个环节,确保业务不断前进;

以上就是该项目的一些过程记录,如果有感兴趣的同学,欢迎私聊;

加油,打工人!

 

本文由 @王珂 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 离线AUC怎么理解呢

    来自广东 回复
    1. 个人理解,上线之前要先明确离线收益,离线有了收益,才能再线上验证AB效果

      来自浙江 回复
  2. 核心标签和游戏标签有什么区别呢?

    来自广东 回复
  3. 我也想

    来自广东 回复
  4. 我也想加个好友

    回复
  5. 作者你好,我也有做推荐相关的项目,想请问下,能不能加个好友一起交流学习下

    来自广东 回复
专题
97900人已学习11篇文章
不管你是产品、运营、设计、还是技术,流程图都是基础技能。
专题
13953人已学习15篇文章
私域流量是与公域流量相对的概念,本专题的文章主要通过几个核心的问题,为大家解读私域流量背后的底层逻辑。
专题
14995人已学习12篇文章
数据库对于产品经理来说是一个既熟悉又陌生的概念,虽然产品设计中的数据基本都要与数据库交互,但平时的工作中也很少接触到数据库的具体操作和细节。本专题的文章分享了数据库的基础知识。
专题
16904人已学习12篇文章
本专题的文章分享了对账体系的设计思路。
专题
13384人已学习17篇文章
在一些老系统可能会有流程复杂、扩展性不强的问题,此时便需要进行重构。本专题的文章分享了产品重构指南。
专题
12295人已学习13篇文章
激活是指用户通过完成关键行为,真正成为产品的用户,而提升新用户激活则是留存用户的第一步。本专题的文章分享了如何做好新用户激活。