如何设计用户画像的标签体系?

16 评论 100085 浏览 397 收藏 15 分钟

如何避免形式主义的用户画像?

最近,频繁遇到各类公司找我交流“用户画像该怎么做”这个问题。什么是用户画像呢?就是根据某个人表现出来的网络行为,猜他是男是女,挣多挣少,孩子多大,乃至要买什么东西这些背后的特征。

用户画像,是大数据三百六十行居家旅行、装逼煽情必备的概念,它还有个类似的概念叫受众定向。个人觉得,“用户画像”这个词听起来更加关注人口属性、生活状态这些基本静态信息,这多少有点误导:我们重点关注的,往往是某用户“最近要不要旅游”、“准备买多少钱的车”这样能驱动直接效果的动态信息。从这层意思上说,用“受众定向”更加准确。

俗话说,画龙画虎难画骨,知人知面不知心。为什么知人心这么难呢,道理很简单:猜对了也好,猜错了也罢,都是一头雾水,并没有可靠的正确答案(术语称为“Ground Truth”)。对此,白居易老先生早有教诲:周公恐惧流言日,王莽谦恭未篡时,向使当初身便死,一生真伪复谁知?

用户画像,跟这个也有点类似。比方说,你把某人标成“足球爱好者”,对不对他自己都不一定拿得准。就拿中国足球事业的革命家、教育家高俅同志来说,他到底算“足球爱好者”么?恐怕答案是见仁见智的。因此,先要给大家解放下思想:除了性别、年龄这些有明确答案的标签,其他大多数兴趣标签,探讨其“准确程度”是没有意义的。

从技术层面看,用户画像的过程比较乏味。我们今天来讨论一个看起来最简单、却最难以把握精髓的环节:如何设计用户画像的标签体系。

什么是标签体系呢?简单说就是你把用户分到多少个类里面去。当然,每个用户是可以分到多个类上的。这些类都是啥,彼此之间有何联系,就构成了标签体系。标签体系的设计有两个常见要求,一是便于检索,二是效果显著。在不同的场景下,对这两点的要求重点是不同的。笔者见过很多做用户画像的产品经理,往往醉心于设计一个伟大、 光荣、正确的标签体系,这往往是形式主义的调调儿。

一般来说,设计一个标签体系有三种思路:

1. 结构化标签体系

简单地说,就是标签组织成比较规整的树或森林,有明确的层级划分和父子关系。结构化标签体系看起来整洁,又比较好解释,在面向品牌广告主开喷时比较好用。性别、年龄这类人口属性标签,是最典型的结构化体系。下图就是Yahoo!受众定向广告平台采用的结构化标签体系。

不过,实践当中即使是面向品牌广告主,售卖非人口属性的受众也存在很大困难,原因又回到文章开头说的问题:这些标签从原理上就是无法监测的。

2. 半结构化标签体系

在用于效果广告时,标签设计的灵活性大大提高了。标签体系是不是规整,就不那么重要了,只要有效果就行。在这种思路下,用户标签往往是在行业上呈现出一定的并列体系,而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则,切不可拘泥于形式。下图是Bluekai聚合多家数据形成的半结构化标签体系。

当然,标签体系太过混乱的话,投放运营起来就比较困难。因此,实践中往往还需要对一定程度的结构化做妥协,除非整个投放逻辑是机器决策的(比如个性化重定向)。

3. 非结构化标签体系

非结构化,就是各个标签就事论事,各自反应各自的用户兴趣,彼此之间并无层级关系,也很难组织成规整的树状结构。非结构化标签的典型例子,是搜索广告里用的关键词。还有Facebook用的用户兴趣词,意思也一样。

半结构化标签操作上已经很困难了,非结构化的关键词为什么在市场上能够盛行呢?这主要是因为搜索广告的市场地位太重要了,围绕它的关键词选择和优化,已经形成了一套成熟的方法论。

面向品牌的结构化标签体系,设计的好坏似乎并不太重要;而彻底非结构化的标签,也没有太多设计的需求。产品狗们碰到的难点,往往是如果设计合理的半结构化标签体系以驱动广告的实效。这里面最关键的诀窍,是深入研究某个具体行业的用户决策过程。

站在上帝造万物的视角,以电视台分频道的方法将用户分到“财经、体育、旅游、…”这样的框框里去,其实并不难,也没有太大意义。真正务实的思维,是不要关注那么多的行业,把目光聚焦在你目前服务的客户类型上。本来嘛,你接的都是电商客户,关注教育行业用户分类有啥意义呢?

在确定了行业之后,要建立该行业的用户标签体系就有点儿挑战了。什么叫深入研究用户决策过程呢?说白了就是要洞彻在这个行业里,用户决定买什么、不买什么的原因和逻辑。我们举几个常见的行业说明此事:

(1)汽车行业

先来看汽车行业,是因为这里的用户决策逻辑比较清晰。一个准备购买汽车的用户,首先考虑的因素,一定是价格。有二十万预算,就买不了五十万的车,也不大会考虑十万以下的车。接下来要挑选的,就是车型了。如果家里有两个孩子,十有八九会考虑七座车;要是单身贵族,没准会弄个跑车玩玩。这两项都是比较理性甚至刚性的约束。而在这之后,才是对品牌精挑细选。

因此,汽车行业的标签体系大体应该是:价格—>车型—>品牌,注意重要程度的排序是不能错的。如果从直觉上先考虑品牌、调性,那便是形式主义的思路了。

(2)游戏行业

游戏的用户决策过程总体上令人难以捉摸,这是因为它有点儿电影、音乐一样的艺术性特质。而人们对艺术的喜爱,并不是理性的,也就难以总结规律。本人不玩游戏,也搞不清RPG、ACT、SLG、RTS、STG这些类型(不玩你这词儿可够熟的!)。那么用这些分类用做标签体系行不行?这也是形式主义的思路:因为上面的分类只是为了便于游戏组织和索引,并不是用户的决策逻辑。难道一个“RPG游戏爱好者”,会看到RPG就非玩不可,其他的游戏都不屑一顾么?

那么游戏行业就没法做了么?当然不是。要想把游戏的用户标签做好,就要深入到细分的游戏场景中去深入研究。比方说,玩slots(老虎机)游戏的用户,往往经常换不同素材的新游戏,也就是说,将“slots”作为一个用户标签,与用户决策过程是相符的。而喜欢海岛奇兵游戏的用户,对于SuperCell新出的游戏也心向往之,此时“SuperCell”这个品牌就成了有效的用户标签。

(3)电商行业

从消费者的角度来看,电商行业其实不能称为是一个行业,而是多个行业的集合。不过对于电商中典型的商品类型,例如服装,用户决策过程其实是相当微妙的:某个女生看了H&M的某款裙子,其实无法推断出她要买裙子,也不一定是对H&M情有独钟,也许仅仅是因为该款裙子某个特殊的造型。在这类商品中,“H&M”或者“连衣裙”都不一定是有效的用户标签。

因此,电商行业的实际做法大家都看到了,基本上不依靠分类,完全以“单品+个性化推荐”的方法构建和使用标签体系。

那么教育行业怎么做?旅游行业怎么做?这篇文章不是教材,无法一一尽述。大家掌握了上面的思路和方法,应该能够自己举一反三。有人会问了,那么是不是每个行业研究透彻以后,给出一个标准的用户标签体系,就可以一劳永逸了么?答案是否定的,这里面有两个原因。

首先,大多数情况下标签体系是开放的,并不存在一劳永逸的列举结果。上面电商行业就是个很好的例子:新的商品、新的产品类别不断产生,不断地研究和调整也就必不可少。

其次,每家公司面向的客户都有自己独特的特点,再加上拥有的数据源不同,只有根据这些灵活调整标签体系,才可能取得最好的效果。比如说教育行业,在整体上研究用户决策过程,可以得到一个通用标签体系;但是如果特别关注儿童教育、考研教育、或者英语教育,显然还要研究更加精细的决策过程和标签体系。

总之,不要以为用户标签体系的设计跟编纂新华字典一样,在案头潜心研究逻辑就能一劳永逸地做好。实际上,这是一项持续进行的、黑手黑脚的实战性极强的产品工作。

还有个小问题:前面我们说了,标签没法衡量准确性,那怎么判断用户画像结果的质量呢?这里要用到reach/CTR曲线。我们以下图为例来说说。

上图是一条典型的reach/CTR曲线:它的横坐标即reach,表示的是某个标签(例如“汽车”)触及到的用户在整体用户中的占比;它的纵坐标即CTR,表示的是该标签的用户在对应类型的广告(上例中为汽车广告)上表现出来的点击率。

为什么会是一条曲线呢?因为我们在做受众定向时,往往会在用户在该标签的得分上设置一个阈值,判断是否是该类型用户,随着阈值设置的不同,reach水平就会变化,相应地CTR也就会变化。这条曲线的最右端,即reach等于100%的点,对应的CTR是该类型广告的平均点击率,这个点跟模型无关,是固定的。而随着reach的降低,一般来说CTR会对应提高(当然这一点没有理论上的保证)。一般来说,两条reach/CTR曲线相比时,整体处于上方的曲线有较好的定向性能。

每个产品经理,都要好好理解一下reach/CTR曲线,从思想根源上破除“标签准确性如何”这样的疑问。

所有参与到用户画像工作中的朋友,在开始写第一行代码,设计第一个产品之前,本文的内容都值得好好读一读,因为关于这些问题的错觉与误解,实在是太多了。如果您觉得本文有价值,那就转给更多的朋友看看吧!

#特邀作者#

北冥乘海生,公众号“计算广告”(Comp_Ad),欢迎来知乎和微博关注。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

作者:北冥乘海生,公众号:计算广告(ID:Comp_Ad)

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. reach/CTR曲线是要经过不断的按标签投放来拟合出这个曲线吗?

    来自福建 回复
  2. 基本和《数据驱动》关于数据驱动的理解,加了些自己的元素,支持!

    来自广东 回复
  3. 目前在汽车行业,对汽车的选品不见得绝对是价格>车型>品牌,实际用户行为往往不是单线模型。对于大众这种车型分级丰富的品牌是有很庞大的高忠诚度购车人群的,这部分用户自然就会受客户评价影响,直接选择车系>车型,也会被新兴产品转化;对于车型忠实用户,他们往往不在乎品牌,在乎的是我关注的几款车里面的性能、细节有没有产品变化和溢价。在选品期间往往会向不同行为模型转化。但是我没有做完整的行为分析,所以只能说这么多

    来自北京 回复
  4. 能解释下为什么随着reach降低ctr升高吗?您在项目中得到的图像也是这个形状吗

    回复
    1. 我的理解是reach降低,意味着标签更加精细,所有相应的CTR会升高。例如原本只有男女两个标签,我在这个基础上再增加年龄的标签,变成向20-25岁的男士推送广告,reach降低了,同时用户群更精准了,那么相应的用户对广告的点击率应该会升高。个人理解,欢迎讨论。

      来自广东 回复
    2. 来自广东 回复
  5. 深入研究某个具体行业的用户决策过程其实就是分析用户的动机,对么

    来自广东 回复
  6. 有干货,谢谢分享

    来自上海 回复
  7. 正好最近对这个有疑问,思考了好久,今天看到这个,真的通透不少,非常感谢!

    来自北京 回复
  8. 点睛之笔:标签的前提是产品要足够了解用户的决策过程,牛

    来自陕西 回复
  9. 请问 最后的reach/CTR曲线 对应的维度是 标签 么?不是很理解

    来自上海 回复
    1. reach横坐标是随着时间变化而变化的,例如第一天总用户100,拥有该标签(汽车)的用户是10,那么横坐标为10/100;CTR是纵坐标,例如第一天拥有该标签的用户(10)点击汽车广告的点击率为5,那么纵坐标为5/10;择第一天reach/CTR曲线的点坐标为(10/100,5/10)

      来自广东 回复
    2. reach的横坐标代表的是触达的人数,也就是触达的人数越多,点击率会越低的意思。reach的最右边代表了你这个标签下在总用户的占比,比如如果你总用户数是10000人,这个标签你全部触达,这个时候的CTR就是1/10000左右,如果你触达的人数是原来的1/10,也就是1000个人的时候CTR会高一点点,假设就是1/1000(但实际不是等比减少的)。所以这个图想表达的是,我们没有绝对的准确的标签,并且标签一定会随着你覆盖的人数CTR变的越来越低的,我们可以找一个点,也就是图中左上角的触达率的时候,标签有更好的定向性

      来自北京 回复
    3. 解释的很棒。

      来自广东 回复
  10. 以决策逻辑来对标签进行完善,这个很耳目一新,受教了

    回复
  11. 哈哈,受教了,
    贴合业务方需要,自己走容易走偏~
    所以说作为一个数据产品来说,选择行业的深耕也是很有必要的

    来自北京 回复