AI产品经理需要了解的概率论通识:4个概念3个问题

9 评论 7702 浏览 49 收藏 14 分钟

笔者基于工作实践,分享了非常实用的4个概率论概念和3个经典的概率论问题,供大家参考学习。

我认为AI产品经理应该学一些概率知识,是否理解概率,直接决定一个人对AI智能的了解程度。

现阶段的自然语音处理,图像识别,等都已不是专家系统,而是以数学为基础,以概率论为方法,以算法为模型的最优解决方案。

下面就了解一下几个概率论概念:

一、概率论概念

1. 随机

有些事情是无缘无故地发生的(随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件),总会有人买彩票中奖,而这一期彩票中奖,跟他是不是好人,他在之前各期买过多少彩票,他是否关注中奖号码的走势,没有任何关系。

理解随机性,我们就知道很多事情发生就发生了,没有太大可供解读的意义。

2. 独立随机事件

有些事情是没有因果关系的(事件A发生还是不发生,对事件B发生不发生不产生任何影响,两个事件相互独立),我们可以得到一个结论:独立随机事件的发生是没有规律和不可预测的,这是一个非常重要的智慧。

你投三次骰子,三次不一样和三次都一样的概率是一样的。

3. 数学期望

是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

例如甲乙两个机器人猜拳,他们两人获胜的机率相等;

比赛规则是五局三胜(先胜3局者为赢家),不考虑平局(即每局必出胜负), 赢家可以获得100元。前三局,甲胜了2局,乙胜了1局,这时中止了比赛,那么如何分配比较公平?

利用计算机的随机种子模拟500次接下来2局的情况, 统计2人胜利的次数之比, 按照这个比率来分配100元。

甲输掉后两局的可能性只有(1/2)×(1/2)=1/4,也就是说甲赢得最终胜利的概率为=3/4,甲有75%的期望获得100元;则乙只25%的期望获得100元。

甲乙双方最终胜利的客观期望分别为75%和25%,因此甲应分得奖金的100*75%=75元,数学期望由此而来。

4. 大数定理

当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。

就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。

大数法则反映了这世界的一个基本规律:在一个包含众多个体的大群体中,由于偶然性而产生的个体差异,着眼在一个个的个体上看,是杂乱无章、毫无规律、难于预测的。

但由于大数法则的作用,整个群体却能呈现某种稳定的形态。赌场的庄家在规则上占有少许优势,玩的次数越多,这种优势越能显现出来。

但是如果统计数据很少,就很容易出现特别不均匀的情况。这个现象被诺奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说,如果我们不理解小数定律,就不能真正理解大数定律。

例如iPod最早推出“随机播放”功能的时候,用户发现有些歌曲会被重复播放,他们据此认为播放根本不随机。苹果公司只好放弃真正的随机算法,用乔布斯本人的话说,就是改进以后的算法使播放“更不随机以至于让人感觉更随机”。

二、经典概率论问题

1. 三门问题

“假设你正在参加一个游戏节目,你被要求在三扇门中选择一扇:其中一扇后面有一辆车;其余两扇后面则是山羊。假设你选择了一号门,然后知道后面是什么的主持人,开启了另一个有山羊的三号门。然后他问你:‘你想选择二号门吗?’此时换门还是不换门?”

如果不交换,保持原状的话,得汽车的概率是1/3。如果交换的话,是否能增加抽到汽车的概率呢?

答案是会。转换选择(交换)可以增加参赛者的机会,如果参赛者同意“换门”,他赢得汽车的概率从1/3增加到2/3。

错误的思维方式:当主持人打开一扇后面有羊的门之后,问题就变成了有两扇门,一扇门里有汽车,一扇门里有羊,选择任何一个门获的汽车的概率必然是相同的,也就是1/2。

上面这种方式的问题就是,打开一扇门后,并不等价于在两扇门里做选择,而是你是否需要转换。

人的直觉往往是不可信的,关于“换门”的获奖率不是一个独立事件,必须以第一次的选择作为基础。在概率学当中,这种情况叫做条件概率

我们可以通过公式计算:

不换门的获奖率 = (1/3 X 100%)+(1/3 X 0%)+(1/3 X 0%)=1/3

换门的获奖率 = (1/3 X 0%)+(1/3 X 100%)+(1/3 X 100%)=2/3

如果我们在生活中遇到了类似的问题,例如开发新产品有3种选择,我们确信有且只有一种选择可以获得成功。但是,我们完全无法判断哪种更好,于是随机选择了一种。

还没等我们开发,另外一家倒霉蛋公司刚好开发了第二种产品,而且恶评如潮。此时我们果断更换到第三种模式,会大大提高我们的成功率。

2. 生日悖论

假设你工作在一个23人的办公室。那么,你办公室中两个人生日相同的几率是多少呢?我们也许是这样来思考,365天,遇到同一天生日的概率为1/365,或0.0027%!

那么,考虑一下这样的问题,在一个房间里,至少有多少人,才能使其中两个人的生日是同一天的可能性超过50%?

有人可能认为房间人数起码得达到183,因为183是366的一半。但是我告诉你,两个人的生日是同一天的可能性超过50%,只需要23个人。

把所有23个独立概率相乘,即可得到所有人生日都不相同的概率为:(365/365)× (364/365) × … ×(343/365) ,得出结果为0.491。

那么,再用1减去0.497,就可以得到23个人中有至少两个人生日相同的概率为0.509,即50.9%,超过一半的可能性。

按照这个算法,当人数达到 70 时,存在两个人生日相同的概率就上升到了 99.9%,基本可以认为是 100% 了。可是直觉告诉我们不应该啊,既然这么大的概率,我怎么就没遇到与我生日相同的那个有缘人呢?

问题就在这里,我们问的是至少有两个人生日相同,而不是与生日相同!!!你这种想法是以自我为中心,而题目的概率是在描述整体。也就是说「存在」的含义是指 23 人中的任意两个人,涉及排列组合,大概率和你这个个体没啥关系。

如果你非要计算存在和自己生日相同的人的概率是多少,可以这样计算:

1 – P(22 个人都和我的生日不同) = 1 -(364/365)^22 = 0.06

生日悖论告诉我们,人类的本质是以自我为中心的,我们非常倾向于从自己的角度去看待和思考问题,太过自我就会扭曲事实。

有研究表明,小孩在一岁之前没有形成自我意识,当你拿一把扇子给他看,一面画着猫,一面画着狗,你先给他看猫,再给他看狗,他会认为你看到的和他一样,他看到的是什么,你就看到的是什么。

屁股决定脑袋,也是这个意思,当你选定立场时应该非常小心。因为你所看到的都是基于你的立场。有一句话说的很好:你可以自由的表达观点,但不要轻易选定立场。

3. 首位数字定律

统计一下世界上237个国家的人口数量,你觉得其中以1开头的数会占多大比例,而以9开头的数又占多大比例呢?如果你的回答是都为1/9,恭喜你你是正常人;

但是事实却不是如此:以1开头的数惊人的占到了27%,而以9开头的数却只占5%。为什么会相差这么大呢?这就是本福特定律在起作用。

本福特定律:以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍,推广来说,越大的数字,以它为首几位的数出现的机率就越低;

本福德和纽康都从数据中总结出首位数字为n的概率公式是:

P(n)=logd(1+1/n)

其中d取决于数据使用的进位制,对十进制数据而言,d=10。

在十进制中,首位数字出现的概率为:

这个定律是一个非常神奇的定律,它的适用范围异常的广泛,几乎所有日常生活中没有人为规则的统计数据都满足这个定律。

比如说世界各国人口数量、各国国土面积、账本、物理化学常数、数学物理课本后面的答案、放射性半衰期等等数据居然都符合本福特定律。

在假账中,数字5和6是最常见的开头数字,而不是符合定律的数字1,这就表明伪造者试图在账目中间“隐藏”数据。

曾是美国最大的能源交易商、年营业收入达近千亿美元、股票市值最高可达700多亿美元、全球500强中排名第七的安然公司,2001年在事先没有任何征兆的情况下突然宣布破产;

事后人们发现安然公司在2001年度到2002年度所公布的每股盈利数字不符合“本福特定律”,这些数字的使用频率与这一定律有较大的偏差,这证明了安然公司的高层领导确实改动过数据。

作为产品经理,对数据的敏感性及基础的判断,可以帮助我们在工作中更快的完成任务。

三、总结

AI产品经理要更理性,数学是锻炼理性思维的最好的工具,了解并掌握基础的概率论通识,能帮产品经理更好的理解算法模型和处理日常的数据处理工作。

最后问你个问题,如果战斗中炸弹在你身边爆炸,你应该迅速跳进那个弹坑,因为两颗炸弹不大可能打到同一个地方。对吗?

 

作者:老张,宜信集团保险事业部智能保险产品负责人,运营军师联盟创始人之一,《运营实战手册》作者之一。

本文由 @老张 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 不明白为什么是1/3和2/3,求指教

    来自广东 回复
  2. 你投三次骰子,三次不一样和三次都一样的概率是一样的。

    这个作者是不是没有表达清楚。。。?

    来自广东 回复
    1. 三次不一样概率20/36,三次一样是1/36,我也不知道作者是在想什么

      来自四川 回复
    2. 额,表述有问题,是投三次筛子,每次都是同一个数,和每次是不同的数的概率是一样的。或者说第一次是1,和第二次还是1的概率和第二次是2的概率是一样的。每次和每次之间是独立的。

      来自北京 回复
  3. 作者三门问题理解完全错误,后面举例就看出来了,几率上涨是因为主持人只能选择没有车的门,在影响概率变化,你后面产品3种选择完全是随机的都是1/3不会改变好不

    来自四川 回复
    1. 主持人必须选择没有车的门,如果开的是有车的,那就没有问的意义了。因为换不换都是羊

      来自北京 回复
    2. 对啊,所以我觉得你下面这句不对“如果我们在生活中遇到了类似的问题,例如开发新产品有3种选择,我们确信有且只有一种选择可以获得成功。但是,我们完全无法判断哪种更好,于是随机选择了一种。

      还没等我们开发,另外一家倒霉蛋公司刚好开发了第二种产品,而且恶评如潮。此时我们果断更换到第三种模式,会大大提高我们的成功率。”

      来自四川 回复
    3. 另外一家倒霉蛋公司刚好开发了第二种产品,而且恶评如潮,就是说这个是羊,前提是我们确信有且只有一种选择可以获得成功。所以这个时候换第三种喽,不过这说的是理想状态了。

      来自北京 回复
    4. 真的挺好玩儿的,很有启发。但是你要这样想,如果你一定会换的话,就相当于只要在一开始不选到车就好了,也就是三分之二的概率。但是产品的例子不同,理想状态是你们俩同时挑选3个黑箱中1个,全部都是随机的三分之一,只不过他比你先打开箱子看了结果,这个跟你什么时候开箱看结果完全没有关系的。

      来自北京 回复