推荐策略产品经理实操(一):内容库游戏标签特征

0 评论 5328 浏览 11 收藏 6 分钟

编辑导读:本文作者依据工作中项目实践的所思所想,结合案例等分享了推荐系统设计中内容库游戏标签的制作流程,并对过程中存在的一些问题进行了梳理分析,与大家分享。希望能给大家作为参考,并在工作中产生助益。

很幸运,刚毕业就做了推荐策略产品经理,更幸运的是,公司的推荐系统刚刚起步自己就参与了进去,算是一个从0-1的过程。以下实操项目中出现的数据都进行了处理,与实际项目数据不一样。

(鉴于保密问题,以下所有数据均为处理过的数据,非真实数据)

01 项目背景

目前我们的内容库中只有不到20%的游戏有相应的标签,且均为爬虫标签,覆盖率低且脏数据较多,重复标签较多,同类型标签有很多种名称,没有固定的标准和规范,需要尽快建立自己的标签库和标签标准,进一步优化推荐;

02 项目过程

1. 标准制定与阶段优化

之前的爬虫标签分为一级标签和二级标签,但因为游戏这一物品的特殊性,游戏的标签不应该分级标记,需要多种标记方式,因此我们在进行游戏标签标准制定的时候,去掉了分级标签,而是通过游戏分类、玩法、题材、风格等标签类对游戏进行标签匹配,一个游戏对应1到多个标签,且各个标签之间没有父级关系,属于并存关系;

1)一个游戏至少N+1个标签(也存在少数游戏不够的情况),1个一级标签,N个二级标签,1个核心标签;

  • 一级标签和二级标签并不是父类标签的关系,是相互补充的关系;
  • 后期模型训练增加1个核心标签(基本上都是一级标签);

2)标记标签顺序:80%是从游戏DAU降序在标记,20%是新游戏

2. 数据导入与字段新增

  • 历时3个月,运营标记标签覆盖率提升了65%左右,且均按照制定的标准执行;
  • 从运营标记标签达到一定量级时,就协助BI大数据的同学进行字段新增以及内容导入工作;
  • 最后确定3个字段:游戏标签/游戏类别/核心标签;

3. 离线训练与结果输出

覆盖率达到一定范围后,可以着手进行离线模型训练,验证效果。目前进行效果验证的主要方法就是对比离线AUC。

1)将测试集与训练集经过一定比例进行随机拆分获得;

2)通过增加不同的字段进行训练:

  • 单独添加三个特征时,游戏标签的AUC提升最高,游戏类目提升次之,核心标签没有提升反而数据存在下降;
  • 同时添加三个特征时,训练效果最好,离线AUC增长3%左右;
  • 去除爬虫标签特征时,数据都有微小的下降,但下降非常小,可以忽略;

4. AB测试与结果闭环

基于离线数据,进行线上AB测试,实验人数30万,实验时间范围2周。实验结果:

  • 人均游戏时长增加2.5%,次留增加1%;
  • 推荐页面人均点击次数提升7%,人均新游戏个数提升6%,人均广告次数提升2%,推荐列表长长尾游戏占比提升;

03 项目复盘

1. 多渠道问题解决

在制作自己的标签时,我们也并没有只使用现有的爬虫标签,而是对爬虫标签进行了策略优化,进行了爬虫标签的模糊匹配:

  • 游戏包名会因为投放渠道的不同,包名存在后缀不同、一个游戏多个包名的情况,导致爬虫标签和游戏包名不能一一对应;
  • 用游戏中文名进行模糊匹配,取频率最高的前三个标签;
  • 进行匹配后,爬虫标签覆盖率增长一倍多;

2. 基础建设最重要

在最开始0-1的过程一定要多方面考虑,详细进行计划,制定的标准一定要全面、合理、精细、便于实施,我们前期标准的制定经历了很长的时间,一直在打磨标准、不断的优化完善,推翻重来;这个阶段不能怕麻烦,否则后面的阶段问题会越来越多;

3. 产品经理是接口

产品经理在项目的每个阶段其实都不是最专业的,但却是不可缺少的角色,需要时刻的注意业务的方向,并帮助各个专业同学厘清自己的业务方向,做一个合格的“接口”,顺利连通每个环节,确保业务不断前进;

以上就是该项目的一些过程记录,如果有感兴趣的同学,欢迎私聊;

加油,打工人!

 

本文由 @王珂 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

给作者打赏,鼓励TA抓紧创作!
更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!