以柱形图为例,设计图表需要调研这3个重点

2 评论 11183 浏览 11 收藏 13 分钟

数据分析中,在选取某种图表进行分析之前,调研是非常重要的。文章结合实际案例对柱状图设计中需要调研的3个关键展开了梳理分析,希望能够给你一些参考。

现在有一个简单的产品方案:为了分析某店铺客服团队中人工客服和机器人客服的接待量,提出用“柱形图”来强化表达“接待人数”这个数据量,突出对比客服之间的数据差异包括人工客服对比、人工与机器人客服对比

这个产品方案有问题吗?乍一看似乎没有问题,用“柱形图”来强化表达数据量,更好的突出差异对比,是对柱形图的正确打开方式。

但是我们通过调研抽样数据后可以发现,机器人客服的接待能力远高于人工客服,“服务助手”的接待人数是单个人工客服的10倍左右,图形化表达后得到的柱形图由于机器人客服的数据量和人工客服的差异悬殊,导致没有办法从图表中读出人工客服之间的差异对比

通过这个设计方案,我意识到了我们在决策是否选取某种图表前,需要进行调研,用调研结果来验证猜想,避免错误的产品设计方案。

想一想,如果上面的产品方案没有在决策前进行调研,直接引入了柱形图,不仅一定程度上造成了研发资源的浪费,还会让用户产生怀疑“这个柱形图想表达什么,又有什么作用”,甚至对产品产生了不信任感

既然调研如此重要,那么需要调研什么呢?想通过柱形图为例,和大家一起讨论需要调研什么的问题。

需要调研什么?

需要对数据组进行调研,那我们调研的理论基础是什么呢?既然以柱形图为例,调研的理论基础就是数据组能被柱形图图形化表达,我们可以对柱形图进行拆解,看看组成“水平轴、垂直轴、单位刻度”分别需要哪些条件,之后去调研业务场景下的数据组是否满足这些条件

1. 调研数据类别

柱形图的水平轴是由两个或两个以上不同时间或不同条件的类别组成的,就需要我们去调研业务数据的类别情况,根据调研结果去判断该业务场景下能不能形成柱形图的水平轴。

业务数据类别情况 

情况1:业务数据中只有1个类别的数据,这种情况下“柱形图”表达出来的数据是孤立的,不具备对比性,在实际业务场景中没有应用价值

情况1实例

观察某淘宝店铺客服团队“近7日客服接待人数”,收集到了整个店铺客服团队的“近7日客服接待人数”汇总数据:2131。分析业务数据可以发现只有1个类别就是“客服”,形成的柱形图也就只存在1个孤立的矩形,没有数据分析和实际应用的价值

情况2:业务数据中存在多个类别的数据,类与类之间只存在唯一变量。这种情况满足了组成“柱形图水平轴”的条件,用柱形图表达数据后,水平轴代表了业务数据中不同的类别,也能拿来对不同的类别进行对比

情况2实例

这次收集到的业务数据是店铺下每个客服“近7日接待人数”汇总数据,分别是客服1是364、客服3是488、客服5是429、客服2是393、客服7是457。调研数据类别,存在多个类别具体表现为5个不同的客服名称,同时5个不同的客服名称只存在唯一变量名字不同。图形化表达后,柱形图水平轴的点代表了1个客服名称,能用来观察客服团队里不同客服的接待人数量,强化对比客服接待人数差异

情况3:业务数据中存在多个类别的数据,类与类之间多个变量。虽然满足了“两个或两个以上类别”的条件,但如果将存在多个变量的类别组成柱形图的水平轴,图形化表达后的柱形图也是没有应用价值的,多个类别的变量导致无法进行数据对比。所以当多个类别存在多个变量时,我们需要将同一个变量的类别划分成一组,再用柱形图来表达

情况3实例

我们对业务数据进行更深的数据收集,收集到了具体每个客服“近7日接待人数”的每一天的明细数据

近7日客服接待人数明细:

  • 客服1:17、92、63、77、36、36、43,合计364
  • 客服2:50、97、13、57、10、88、78,合计393
  • 客服3:68、22、94、93、62、83、66,合计488
  • 客服5:29、58、93、68、65、80、36,合计429
  • 客服7:92、13、31、93、88、79、61,合计457

分析业务数据发现案例中的类别是存在2个变量的,变量1是客服的名字,变量2是近7日中的日期。如果我们把“今日客服1的接待人数,昨日客服2的接待人数,前日客服3的接待人数” 作为组成柱形图的不同类别,就是犯了将“多个类别多个变量”的错误,“今日客服1”和“昨日客服2”两者时间也不一致,客服个体也不一致,失去了不同类别之间的对比性,得到的柱形图也就没有应用价值了

了解完3种数据类别情况后,可以得出一个结论,用“柱形图”来表达业务数据时,数据组中类与类之间只能存在唯一的变量,当存在多个变量时,就不适用于柱形图来表达

2. 调研数据量范围

垂直轴表达度量,是业务数据量在柱形图上具体的参考数值,通过矩形参照垂直轴读出的数值就是业务数据量的表达。业务数据量的范围会影响垂直轴的边界,所以需要我们调研业务数据量的范围

业务数据量范围情况

情况1: 数据量范围很大,当业务数据中存在某个极大值,柱形图需要能展示下全部的量,影响了垂直轴的上边界,上边界的度量需要很大,导致图形化表达只能观察出代表“极大值”的矩形,无法观察出其余矩形之间的差异。本文开头产品方案中的调研,就是一个典型的案例,通过调研后发现受极大值影响柱形图没有实际应用价值

情况2:数据量范围很小,当业务数据中所有数据都只在一个窄幅范围内波动,图形化表达后的矩形高度差异值很小,这种情况下会影响垂直轴的下边界,因为垂直轴下边界的起始值从0出发的话,将会很难观察到矩形的差异。所以需要通过调整柱形图垂直轴下边界的起始值,通过修正起始位置来增强差异值的表达

情况2实例

团队招了1个新的客服同学:客服8,客服8接待能力非常稳定,近7日的接待人数为82,80,78,84,82,81,79,现在想观察客服8近7日的接待人数量和变化情况。

调研客服8接待人数这组数据,发现接待人数在79到84这个窄幅内波动,需要我们对度量起始单位进行修正,从下面两张图的对比中很容易就能发现,刻度不变的前提下,度量起始值从70开始,比从0开始更能反映出数据量的差异值的对比

了解完数据量范围情况,可以得出一个结论,业务数据量范围会影响垂直轴的边界,数据量差异范围很大时,极大值的数据量会影响柱形图的上边界;当数据量差异范围很小时,窄幅范围内的数据量波动,会影响柱形图的下边界的起始位置

3. 调研数据组距

单位刻度对柱形图表达出来的差异程度有较大的影响,单位刻度1和单位刻度100的两个柱形图表达相同的数据量差异是不同的,明显的,刻度1的柱形图更能突出对比数据量与数据量之间的差异。

只考虑单位刻度的情况下,单位刻度越小,柱形图表达出来的数据信息更细致,不同类别之间的数据量差异越明显。但是现实情况下,页面布局不是无限制的,不可能无限制的放大柱形图,所以需要调研业务数据的组距。

组距经验公式是组距 = 全距 / 组数,组距会收到全距和组数的影响,我们对组距的调研也就转化成了对全距和组数关系的调研

首先我们可以通过一系列数学公式完成对数据组距调研

运用统计学上的Sturges经验公式,用来研究分组数k关于样本量n的组距关系

  • k (组数)= 1 + 3.322lg(n)
  • R(全距)= X(max) – X(min)
  • d(组距)= R(全距)/ k(组数)

其次,将确定后的组距引入柱形图中,判断下是否会收到图形固定大小的影响,根据结果人为对组距进行调整,若引入组距后,图形上边届无法显示最大值,则需要增大组距;若引入组距后,图形上边界距离最大值还有很大距离,则需要缩小组距。

总结

通过以柱形图为例对数据组的调研,可以知道,在设计图表前需要对图表构成进行拆分,将图表每一个组成部分所需要满足的条件作为调研的理论依据,以此为基础去调研业务数据是否满足这些条件,从而避免错误的产品方案。

 

作者:晌午,微信公众号:晌午自习室

本文由 @晌午 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 所以,“突出对比客服之间的数据差异包括人工客服对比、人工与机器人客服对比”这个需求最终的解决方案是???

    来自北京 回复
    1. 需要结合实际调研结果来判断,人工和机器人数据差异极大,图形化表达后的图表无法同时观察“人工和机器人”和“人工之间”,用两个柱形图来表达更合适;人工和机器人数据如果差异不大,1个图表就能OK了

      来自浙江 回复