浅谈运营工作中的贝叶斯陷阱

数据分析如何避免沦为形式?15天在线学习get一套可落地的数据分析方法,了解一下 >>

贝叶斯定理广泛应用于各类场景,如机器学习、大数据挖掘、工程分析、金融投资等,本文仅探讨贝叶斯定理在运营数据分析中的一点思考。

一、什么是贝叶斯定理

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。

频率主义学派认为参数是客观存在的,即使是未知的,但都是固定值,不会改变。频率学派认为进行一定数量的重复实验后,如果出现某个现象的次数与总次数趋于某个值,那么这个比值就会倾向于固定。

最简单的例子就是抛硬币了,在理想情况下,我们知道抛硬币正面朝上的概率会趋向于1/2,而贝叶斯提出了一种截然不同的观念,他认为概率不应该这么简单地计算,而需要加入先验概率的考虑。先验概率也就是说,我们先设定一个假设,然后通过一定的实验来证明/推翻这个假设,这就是后验。随后,旧的后验会成为一个新的先验。

以下便是贝叶斯公式:

  • P(A|B) 是在B发生的情况下,事件A发生的概率;
  • P(A)是A发生的概率;
  • P(B|A)是在A发生的情况下B发生的概率;
  • P(B) 是B发生的概率。

简单讲,贝叶斯定律是在已知某条件的前提下,推算某事件发生的概率。

二、贝叶斯定律的应用

贝叶斯方法对于由证据的积累来推测一个事物发生的概率具有重大作用,它告诉我们当我们要预测一个事物,我们需要的是首先根据已有的经验和知识推断一个先验概率(或者根据事实引入先验概率),然后在新证据不断积累的情况下调整这个概率。

我们以下面的例子,来一窥贝叶斯定律的妙用。

如果某种疾病的发病率为千分之一,现在有一种试纸,他在患者得病的情况下,有99%的准确率判断患者得病;在患者没得病的情况下,有5%的可能误判患者得病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?(在看下文之前大家先凭感觉预估一下,真正的得病概率应该很高吧?)

为了方便理解,我们先通过一个树形图进行判断,我们假设有100000的人群。

通过以上树状图,逻辑就会比较清晰。在题干给出的条件下,患者真正的得病率是多少呢?用真正得病的99作为分子,测出有病的4995+99作为分母,99÷(99+4995)=1.94%

在此案例中,用贝叶斯公式计算:

  • P(A1|B)代表试纸查出患病前提下,真实的患病概率;
  • P(A1)代表真实患者概率,即0.1%;
  • P(A2)代表健康人群概率,即99.9%;
  • P(B)代表试纸查出患者的概率;
  • P(B|A1)为真实患者条件下试纸查出患者的概率,即99%;
  • P(B|A2)为健康人群条件下试纸误判为患者的概率,即5%;

代入公式,也可得出结论。

这个案例就是贝叶斯定律比较经典的一个应用,在已知前提下测算事件发生的概率。

三、运营数据分析中的贝叶斯陷阱

1. 错误的判断

通过以上案例大家对贝叶斯定律都有了一定的了解,但是普及概念不是咱的本意,贝叶斯在运营工作中有什么应用呢?说实话,本来我对贝叶斯在运营工作中能有多大的作用并没有概念,直到我在前段时间的一个活动复盘中发下了下面的案例。

我们有一个王牌训练营活动,每期活动我们会选择一个IT技术方向,设计系列课程,每日引导用户打卡学习,完成学习后领取奖品。活动分为招募期,课程期两个时段。

在招募过程我们会投放诸多付费or免费渠道,如我们自建的流量池、微信矩阵、外部大站、论坛、SEM等,所有活动在结束后我们都会做复盘报告。

在上一期复盘的过程中我们发现了一个有趣的数据,参与我们训练营的用户画像中,工作经验为1-3年的开发者居多,占比在70%以上。因此,我们这一期的活动复盘报告中有了如下分析:

参与活动的开发者以1-3年工作经验者居多,说明我们的课程内容对此类开发者更具有吸引力,可以针对此类开发者,做课程设计上的优化。同时,说明工作1-3年的开发者对于自我提升上的需求更为强烈,后续可以在此群体重点推广。

那么大家有没有发现关于这一条数据的分析有什么问题?

我们的训练营报名用户工作年限是1-3年居多,这是一个结果,我们只针对这个结果进行了分析。那么按照贝叶斯定律,很明显我们忽略了导致这个结果的前提条件:我们的投放渠道覆盖的用户工作年限的分布,这个前提条件的忽略最终可能影响了我们对整件事情的判断。

2. 分析的修正

如果活动投放渠道所覆盖的用户就是1-3年工作经验居多,自然报名训练营的用户也会是这个群体居多,那我们的数据复盘关于这一条的分析就是错误的,并不能说明我们的课程对工作1-3年的开发者更具有吸引力。如果我们的投放渠道用户分布平均,而活动报名用户出现了如上的分布,那我们的复盘总结便是有意义的。

在意识到以上因素后,我们对这一期活动投放渠道的引流数据做了回顾:

很明显,能发现本次活动自有流量池引流效果最为显著,报名人数占总人数的65%,而有趣的是,根据我们先前统计,我们的自有流量用户工作年限画像,1-3年工作经验的用户占比也是最多的,占整个自有流量池用户的半数以上。

因此,在回溯投放渠道这一数据之后,我们发现最初的活动复盘中的分析并站不住脚。

以上便是贝叶斯定律在运营中应用的一个小例子的分享,如果大家关注到这一点便会发现在运营的角角落落里都有贝叶斯理论的身影,一不小心我们就可能陷入贝叶斯陷阱而不自知,导致对数据或者整个运营活动的分析出现偏差,进而影响整个运营策略的制定和调整。

 

作者:Stark,一个讨厌写文章的运营人。

本文由 @Stark 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

给作者打赏,鼓励TA抓紧创作!
评论
欢迎留言讨论~!
  1. 我喜欢这个角度的思考

    回复
  2. 文章不错

    回复
  3. 幸存者偏差

    回复
    1. 赞,还真是同样的道理

      回复