从美国大选预测分析,聊聊数据分析的7个段位

0 评论 2818 浏览 9 收藏 10 分钟

编辑导读:美国大选进入倒计时,网友们都在热火朝天地讨论谁会是最后胜出的人选,他们有的凭靠“第六感”预测,有的拿出数据图力证……本文作者通过对这些预测方案的梳理,对他们数据分析的段位进行了“点评”,一起来看看~

2020年美国大选马上就要揭晓结果了,最近大选预测的文章好多。看了几篇,发现预测大选的方法和数据分析挺像。

总结了几种预测,差不多是青铜到王者都有,一起看看这些分析都有哪些类型。

01 青铜

青铜级的分析选手会说:美国大选不在乎到底谁最后赢得了总统。不管是特朗普还是拜登,对华的政策都是巴拉巴拉巴拉巴拉,他们都会延续巴拉巴拉巴拉。

这些分析如果拿到中美关系的发展趋势下,没什么问题。但是在预测美国大选谁会当选的问题下,这个问题就显得很奇怪了,因为他们连问题都没搞清楚。

我们问的是谁会当选?你回答的是谁当选都一样。

当然,他们这么写更多的是给热血读者看的。在这个层面上,回答的其实很好。

对于数据分析来说,这种直接青铜级,完全答非所问。

02 白银

白银级选手会这么说:此次美国大选,双方都有机会。

民主党的拜登为什么会赢?因为大家都烦特朗普、民调占优巴拉巴拉,说一些拜登能当选的原因。

然后话锋一转,再说特朗普也不是没有机会。特朗普在2016年就创造了奇迹,这次的民调依然不能作为证据,然后再说特朗普可能当选的原因。

总结来说,这类预测是说两边都有机会。

白银级的这个回答呢,至少会围绕问题回答。虽然没有正面回答,但至少他告诉了我,两边各自的优势和缺点,还是带来一些信息的,所以算是白银级。

03 黄金

黄金级别的选手:会明确的告诉你预测到底是特朗普还是拜登赢。

有些支持特朗普,会把支持特朗普的证据摆出来,比如红脖子的支持,民调的不靠谱,美国的割裂等等。

有些支持拜登,会说特朗普疫情的糟糕表现,民调的结果,辩论的良好表现等等。

这些分析确实给了一个明确的答案,也给出了些理由,似乎没什么问题。

但是支撑他们结论的理由往往都是观点,而不是事实。这些观点,要深究下去有很多逻辑问题。

所以这种分析啊最多算黄金级。

04 铂金

铂金选手会用事实来证明观点。

我昨天看到篇文章说特朗普一定能赢。给的理由是什么呢?他用了谷歌的搜索指数,特朗普的搜索指数一直要比拜登的更高。

而且他还分析得很细,考虑到美国选举的选举人制度,必须把州的情况考虑进来。于是他把每个州的数据都画出来了,结论依然是支持特朗普能赢。

铂金选手已经开始有数据的意识,会用事实来证明他的结论。但是这个谷歌指数跟投票之间到底有没有必然的关联?这个没有给出证明,逻辑上有一定的漏洞。

这篇文章本来还收藏了,准备写文章的时候截个图,结果今天已经被删了。

总的来说已经开始有数据分析的思维了,就是细节没做好,给个铂金。

05 钻石

来到钻石组,这个级别开始靠谱起来了。

钻石选手呢,会列举目前提前投票的数据,列出各个州不同的投票人数,以及目前的投票比例。依靠这些数据算出最终的选举人票,然后给出了一个结论,目前是谁更有优势。

这种分析已经开始进入数据分析的范畴了,相比铂金选手好的地方是钻石选手用的数据更可靠,直接反应结果,而不是关联度不高的搜索数据。

不过钻石选手没有继续深挖,他只是表明了现状,给出了目前暂时的投票结果,算是归纳法。要想更精确,得用演绎法,也就是后续会如何演化,推算出最终的获胜者。

06 星耀

星耀组的选手开始深入选举的机制,从机制上进行推演。

星耀选手从选举的机制入手,分析两个候选人肯定能拿的票有哪些,肯定丢的票有哪些,然后各自需要争取的有哪些。然后再分析摇摆州目前现状是什么样的,谁的赢面更大。

星耀选手相比钻石选手呢在数据上更加深挖了他从选举制机制入手。

对特朗普和拜登分别分析他们两者的得票情况:哪些州是肯定能拿到的,哪些州是肯定拿不到的。然后结合目前的提前投票的数据,计算出各自能得到的票数,这样分析的结果一般是特朗普落选。

这还没完。

然后再列举出如果特朗普最终获胜,存在哪几种可能性。哪几个州要翻红才能让特朗普获胜,分别的组合是那些。

最后汇总给出结论,基本可以肯定是拜登获胜,特朗普有小概率能翻盘,如果翻盘的话会是哪几种情况。

这样的分析已经非常全面了。

给个星耀,怕他骄傲。

07 王者

那么最终王者的分析是什么样的呢?

前段时间知乎上的数据帝chenqin做了一个分析。很可惜,那个知乎问题已经删掉了,所以现在已经无法追溯原贴了。

我大概说明一下:

首先,用数据预测大选,原来的做法是民调的数据。在过去民调数据预测是基本可信的,最终结果基本不会错。但是为啥原来的这套方法不管用了呢?

因为2016年的大选,特朗普民调落后,最终却赢得了大选。这给很多玄学的“美国观察家”提供了丰富的丰富的创作土壤。

chenqin把各州的民调数据结果和最终的投票结果做了一个回归,发现民调结果和最终的选举结果高度拟合,这也可以证明民调确实可以预测大选,而且可信度非常高。

但是拟合度再高,也会有误差,这个误差在3%左右。也就是说优势的一方必须在民调上有4%的领先,才能确定结果。而2016年的民调,希拉里领先特朗普只有2.3%,最终这个误差导致了希拉里的失败。

这其中美国的选举人票制度放大了这个误差。(美国的选举制度,比如佛罗里达州一共29张选举人票,投共和党的票数只要比民主党多一票,那么共和党拿全部的29张选举人票。)

那今年的民调结果差距如何呢?

拜登领先8%。

所以从这个数据上来看,拜登赢定了。

这个分析为什么是王者级。

因为不用看提前投票的情况,根据历史数据和投票前的民调数据直接预测了结果,时效性最强。

总结

当然最终的结果没有出来,一切都有变数。至于究竟谁当选,不是这次话题的重点。

附:还有一个数据大神nate sliver的大选预测,他的方法属于数据建模,不是特别偏分析。而且16年的时候翻车的很厉害,我个人不太喜欢。

#专栏作家#

三元方差,公众号:三元方差(sanyuanfangcha),人人都是产品经理专栏作家。专注用数据驱动业务增长,擅长数据分析、用户增长。喜欢阅读、思考和创作。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!
更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!