数据分析实战|人人都是产品经理网站(中篇):读者视角

15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

本篇作者将以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。enjoy~

一. 前篇回顾

前篇《数据分析实战|人人都是产品经理网站(上篇):平台视角》中,详细地介绍了从人人都是产品经理官网(以下简称人人)返回的首页数据中,以平台运营者的角度来分析:网站目前的内容是否可以支持网站的正常运营。

到本篇则会换一个视角,以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。当然一千读者有一千个哈姆雷特,每个人对文章的价值都有着自己的判断,而本文只是从数据统计的角度来分析那些对大多数读者能够有帮助的文章。解决的问题如下:

Q1. 阅读量、收藏量、点赞量和评论量分别的Top10是哪些文章

Q2. 有哪些文章值得收藏?

Q3. 有哪些作者值得关注?

二. 各种Top 10

在Youtube的各种节目中,各种盘点Top 10节目很受观众欢迎。所以这里也按俗套剧情先偷个懒,直接把上一期整理好的数据排排坐,分别按照阅读量、收藏量、点赞量和评论量来进行排个序,看看各种Top的文章是哪些。还没有学习的同学也可以对本篇点击一波收藏,之后可以导航深入学习。

1. 阅读量

(1)99.2万阅读量

(2)70.9万阅读量

(3)60.1万阅读量

(4)56.8万阅读量

(5)53.1万阅读量

(6)52.5万阅读量

《产品经理岗位职责》

  • 发表:2012-08-06
  • 作者:老曹
  • 分类:业界动态

(7)52.1万阅读量

(8)52.0万阅读量

(9)51.5万阅读量

(10)51.0万阅读量

2. 收藏量

(1)4274收藏量

(2)2407收藏量

(3)2407收藏量

(4)2298收藏量

(5)2237收藏量

(6)2120收藏量

(7)1932收藏量

(8)1832收藏量

(9)1779收藏量

(10)1774收藏量

3. 点赞量

(1)2181次点赞

(2)1886次点赞

(3)1730次点赞

(4)1556次点赞

(5)1406次点赞

(6)1330次点赞

(7)1328次点赞

(8)1111次点赞

(9)1026次点赞

(10)1002次点赞

4. 评论量

(1)1014次评论

(2)848次评论

(3)723次评论

(4)456次评论

(5)373次评论

(6)319次评论

(7)307次评论

(8)236次评论

(9)234次评论

(10)233次评论

三. 筛选优质文章

对我来说,一年收藏个几百篇文章到我的材料库中是非常正常的,之前的这点Top 10根本不够看,但如果拉长相应的名单又会有很多投机取巧的文章混在其中。人人经过这么多年的发展,已经沉淀了不少佳作。所以,作为一个有点贪婪的人,如何把这些优质内容一网打尽,是我接下来想要考虑的事情。

1. 四个属性分布

还是之前的数据,我们先再次看一下所有文章属性中,有价值的数据总览:

评论这一项相比于其它属性来说,因为值分布得比较极端,比较适合按类型进行区分,大于25%的文章评论数量为0,大于25%的文章数量评论数大于3,评论数1~2的小于50%。依次可以将其由数值型属性转化为分类类型。因为代码上的处理,这里由低到高的命名为Low,Mid,High。这样我们可以将原本需要XYZ三个轴再加上空间上点大小的三维散点图转化为二维。

根据上面的View(浏览量),like(点赞),bookmark(收藏数),comment(点评数)分别做为散点图的点取值,x轴,y轴,及点的类型,绘制如下:

2. 属性分析

(1)从上图中,凭肉眼观察就能发现约95%以上的文章都集中在左下角的紫色方块区域内;

(2)虽然紫色方块区域都是以High为主的蓝色居多,但这是将4万篇文章堆叠在一起的结果,展示上效果有些问题,但从整体比例来说High,Mid,Low也都应该主要集中在这块区域;

(3)实际对四个属性的相关性求解也是两两之间基本都在0.5以下。虽然是正相关,但属于比较弱的相关,所以并不能以某一个属性做为单一的换算比例来“消元”;

(4)四万多条数据挤在紫色小方块里,可以在一定程度上将他们在此区间看成是均匀分布的;可以暂时不考虑四个属性之间的加权问题。

3. 评分计算公式

所以综上所叙,大致的计算流程如下:

(1)为了四个属性的值能够相加起来比较方便,所有值都需要按照[0,1]之间进行等比换算,让他们能够保持在一个维度;

(2)为了避免某些文章的属性因为值过大产生干扰,需要进行一定的修饰。当文章属性中的值已经大于其它95%的文章时,则只取1。排除掉此部分的值之后,再根据第1条进行换算;

(3)经过上述处理之后,四个值相加则为此篇文章的打分,取值范围一定是[0~4]。

4. 结果一览

经过上面如此一番折腾,还能够打4分的文章还有438篇之多。但对比于全站45000+篇文章来说,1%左右的筛选结果还是可以让我满意的。

因为筛选结果有400多篇,所以下面是按时间节选截图。大家也可以一起来验证一下我的筛选成果,是不是一些精华中的精华。

(右击,在新标签页中打开即可查看大图)

四. 哪些作者值得关注?

相信大家也能看到在人人的官网和手机APP中是有作者推荐的。但这个推荐的模型和依据并没有告诉读者他们是如何筛选出来的。所以在这里我们利用手上现有的资源做完这点分析,来看看人人上有哪些优秀的作者。

首先,他应该有一定的产量,因为如果作品数量太少,可能会导致较大偏差值,而产生较高的个人分数。所以先排除掉投稿数量低于5篇的作者;

其次,自然就是文章的质量了,结合前文的打分,取当前作者所有作品的平均值即可。下表中为了展示各作者的区别,把分项目的打分也显示出来。

如此,这些作者就已经有了极大的区分度,而且根据各自的分数,其实在一定稳定上是可以分辨得出此作者的投稿偏好和类型的。如果还没有关注他们,就赶紧关注一波吧~

补充一点在于,作者的水平描述在人人的体系下,还有打赏、订阅量和关注量这些纬度可以让这个打分模型更具有说服力。但限于篇幅觉得已经够说明问题就不再追加数据了。

下期预告

以上便是本篇读者视角的数据分析的全部内容,希望大家喜欢。有建议和想法的同学可以在下面的评论区留言讨论。

下一期就是本次分析的最终篇,作为作者,取一个什么样的标题会火!将会从数据分析到数据挖掘建立相应的模型,可以进行预测。

相关阅读

数据分析实战|人人都是产品经理网站(上篇):平台视角

 

本文由 @ 核桃壳 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Pixabay,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!
5人打赏
评论
欢迎留言讨论~!
  1. 本系列的相关代码可以在http://walnut-shell.com/ipython-notebook/ 中找到

    回复
  2. 期待最终篇!

    回复
  3. 很赞的数据分析文章,个人提一点小建议:1 阅读量是否可以考虑时效性因素,也就是一篇文章在多长时间内达到多少的阅读量/收藏量/点赞量;2 指标体系中的指标有权重差异;3 评价特征除了发文量 阅读量 收藏量 点赞量之外,还得考虑他们的稳定性(方差),如某位作者保持稳定的频率在一段时间内的发文频率等

    回复
  4. 不明觉厉,专门注册给你点赞

    回复
    1. 感谢支持,请期待第三篇 ;-)

      回复
  5. 写的很赞,阅读量Top10的有点出入,是不是做阅读量还原的时候单位M的忽略了,现在最高的应该是《绝密原型档案:看看专业产品经理的原型是什麽样》http://www.woshipm.com/rp/149653.html,2.5m的量,一共应该有3篇过百万的。再次拜读 ;-)

    回复
    1. 检测了下代码确实m单位的处理当成10万了,感谢~ :cool:

      回复
圈子
关注微信公众号
大家都在问