数据分析(一):基础原理篇

0 评论 4501 浏览 49 收藏 23 分钟

怎样才可以成为一个合格的数据管理者?这篇文章里,作者总结了4张演进表,包括原始数据表、数据源表、计算分析表、结果报告表,一起来看看吧,或许可以帮助你更好地做好数据过程管理。

题记:大部分时候,当老板要求我们提供【一份数据分析报告】的时候,我们是一脸懵逼的:“老板,What are you 弄啥嘞?你讲清楚,你这数据分析报告是要啥啊?”

其实老板的真实需求是:

  1. 整个过程的总结:①起因;②过程;③结果;④建议;
  2. 以报告的形式完整的呈现:①框架结构清晰,内容主次分明;②图文并茂;③明确的结论;④提供可行性建议或者解决方案。

正文:

小明是一个忙碌的助理,在自己电脑上存了很多份收录各个业务经理汇报上来的报表,当老板要数据结果报告表时,他就是最忙碌的,每次都要忙到深夜。他会吐槽:“1、老板,为啥每次要的数据都不一样。上次要销售额同环比,这次要毛利额增长率。2、这帮业务经理,汇报个表都不会,各种数据乱七八糟,各种合并单元格。”

在这里,我们会发现小明把业务经理汇报上来的数据表直接当原始数据表用,且每次都是根据老板分析要求临时编制数据表,这样结果就是忙碌且低效。为了解决这个问题,我们就要从源头管理开始将数据分析过程按照一张一张数据表去进行管理:

针对数据类管理需求,首先我们要明确数据结果呈现不是一蹴而就的,它是一个经过严谨的过程管理,方能呈现管理结果的数据运营工作。在这个过程管理中,会涉及4张演进表(只有充分理解并严谨的管理好这4张表,数据运营的结果才会是准确并有指导意义的):

  1. 原始数据表
  2. 数据源表
  3. 计算分析表
  4. 结果报告表

一、原始数据表

原始数据表是作为所有过程的开端,所以数据表统计的内容一定要齐全、规范。齐全代表数据准确性,规范代表后期数据的可应用性。针对原始数据表的管理分为以下几条:

1. 表格规范

表-1

表-1是其中一个经理上传的数据表,小明能否将这份表直接作为原始数据表?

答案是否定的,基于以上的表及管理逻辑,小明做出以下的调整:

1)补齐字段

表-2

对比表1,我们在表2中增加了成本价、利润额两个字段,后期老板除了要算销售额,关于成本总额,利润额、利润率相应数据也是可以计算出来的。

当然这也不是说加了两个字段就所有数据都齐全了,只是表明,如果【原始数据表】统计的字段有缺,那么今后再想补齐就会涉及多次的返工问题。

2)规范字段

表-3

对比表2,我们在表3中,将销售方式3个字段的打钩方式代表字段值:是否的逻辑改为1个字段3类字段值的方式。

有的人会说,这种方式不好看,没有打勾的方式展示直观。但我们要思考,这份表的地位是什么?如果是原始数据表,它最后会作为数据源表参与到数据分析当中,最简单来讲会有vlookup、sumif、countif等计算逻辑参与其中,这个时候是不是这种规范的数据格式类型更能有后续的被使用的延展性?

3)除去多余表格名称、使用单层表头

表-4

对比表3,我们在表4中将冗余的表格名称、多层的表头进行删除。因为多行表头并不能带来理解上的便捷,每列表格一个表头就能充分表达该列所代表的含义,多行表头也不利于后期针对表格进行数据整理。

4)禁用合并单元格

表-5

对比表4,我们在表5中将分类的合并项进行了拆分。为什么【原始数据表】禁止使用合并单元格,因为合并单元格除了第一行是有【值】的,其他行其实都是空值,如果针对这份数据要进行【数据透视】或者【数据筛选】,这个时候就会发现这份数据又要重新把分类字段进行修改,对后期的利用延展性是很不好的。

5)删除多余的合计行

表-6

对比表5,我们在表6中将【合计行】进行了删除,如果我们提供的表格会作为别人的【原始数据表】,那么【合计行】不但不能起到作用,后期还有可能影响数据准确性。

6)取消空行空列

空行空列,在做后期做数据分析操作时,会影响数据及操作。故而,【原始数据表】内不应存在空行空列的行为。

7)一格一属性

表-7

在表7中,有些数据管理者喜欢在一项字段中增加其他运营属性,例如运营属性中的ABC分类。这个数据如果作为【数据源】导入系统、进行数据分析,后期都会影响业务往来。

表-8

在表8中,数量这一列,如果把单位也放在里面,我们会发现这列数据就变成了文字格式,不是数字格式。我们再想针对它做数据运算时,就做不了了。这个时候再想拆分列就比较麻烦。

8)使用正确的数值格式

表-9

在表9中,类似日期这种格式,一定要录入正确的日期格式,后面才能做对应的数据分析。

2. 管理规范

表格规范后,这个是万里长征第一步。数据运营,需要的是数据的严谨与准确。在这里,就需要做好管理规范。

1)定义数据【必填项】

在实际管理过程中,会发现有些数据是不同阶段产生的;有些字段不一定会有具体字段值(尤其B端业务);有些字段不明确的话,由人填报的情况下,填报人就一定有很大可能不填报完全。

那么针对以上情况,定义数据【必填项】就很有必要。如果【某项数据】是数据分析、后期数据汇报必须项,那么这项数据就为【必填项】。

例如:

  1. 领导需要知晓【某年某月】的数据情况,那么年月就为必填项;
  2. 领导需要知道【应收】、【实收】、【差异】、【坏账】等数据,那么【应收】、【实收】、【收入状态】就为必填项,【收入状态】可以是一个值,也可以用【实收】为0来代表。主要看管理手段。

通过以上说明,咱们知道如果想达到老板的要求,数据管理者就一定要严格要求数据【填报人】进行严格填写。

2)明确数据填报人、数据审核人

① 如果不定义数据填报人,那么【数据原始表】很大概率是没有人填写,或者填写不及时的,每次要求汇报数据,也是一个很累很辛苦的过程;

② 如果一个部门的数据,是由多人填报,甚至出现跨部门填报,那么数据重复、数据出错的可能性就加大。每多一个人填写数据,那么出错的概率是成倍增加的;

③ 在数据填报人之上增加一个【数据审核人】,每个【数据分析人员】不一定是【数据填报人】的直属领导,那么数据准确性是要由【数据分析人员】去针对【数据填报人】做业务管理么?这肯定是不现实的,那么为了数据准确性,就一定针对业务数据设置【数据审核人】,【数据审核人】可以是【数据填报人】的上级领导,也可以是下一步业务数据传递的协同部门协同人员。

3)制定数据管理规则

① 数据录入规则

针对数据录入时效、录入字段值定义等,需要制定录入规则。无规则,只要有数据是填写的,非选择的,那么录入人都有可能录成各种内容。

② 数据审核规则

针对数据审核,需制定审核规则。尤其是审核的时效性问题,这牵涉到数据是否可以进行下一步流转,数据是否可以可以放心的作为【数据源】进行【数据分析】

③ 数据传递规则

针对数据,如果存在数据处理、数据应用,那么一定要定义好数据传递规则。例如时间传递时效性,数据传递过程可修改范围、修改人。

例如第一步数据填报人填写后,第二步数据处理人看到数据出错了,管理上是A、第二步数据处理人可直接修改;B、数据退回,由第一步数据填报人进行修改。

有很多管理者为了效率,会选择A。那么恭喜你,你这份原始数据表有很多概率是会出错的。因为数据的差错判断过程也应该是严谨的。如果由第二个人可以有权限随意修改第一个人的数据,那么首先他们两之前的传递交互就保证不了;其次第一个人的数据准确性变成了由第三个人来保证。如果该数据只有两个人传递,那么第二个人改后的数据由谁来保证数据准确性?

故而,数据咱们一定不能嫌麻烦,出差错了就是退回,重新填写。这也是财务管理为什么严谨且招人烦的原因。

④ 数据差错率奖惩规则

一个好的规则要落实下去,一定要有差错率奖惩规则。例如仓库发货的差错率,门店销售数据的差错率,只要没有奖惩规则,想要把差错率降下去,那么管理者付出的辛苦肯定是成倍增加的。

其次,差错率,我们重点惩罚的对象是【数据审核人】?还是【数据录入人】?这个答案,咱们在第三篇【数据运营模型篇】给大家进行说明。

4)做好数据准确性监督

是人就会犯错,哪怕是系统也是由人代码敲出来的,里面的记录规则、算法规则也有可能是错误的。那么针对一份数据,一定要有定时的准确性监督。当然如果前面3点做的好,这一项工作的耗时耗人力成本就没有那么高。

二、数据源表

在管理好【原始数据表】后,我们是不是可以立马就做数据分析了?为啥还有一张【数据源表】?

我们肯定听过很多高大上的名词:【数据处理】、【数据挖掘】。其实把它们转成通俗语言就是,如果你不想数据分析的时效性长,那么原始数据表就得经过【数据处理】;如果你不想数据分析的结论被人怼,那么原始数据表就得进行【数据挖掘】。

1. 数据处理

数据处理的逻辑是让【原始数据表】更方便我们进行数据处理及后续分析;

例如:

① 录入的数据格式是【年月日】,我们后期想针对月份进行数据分析;那么我们可以在【数据源表】上加上月份字段(当然不是让录入人在【原始数据表】上填重复的数据,如果年月日拆成3个字段,录入者又有反抗情绪,这要看管理上怎么做。)

② 录入者录入了采购价、销售价,为了效率毛利额是应该录入,还是【数据源表】进行处理?当然这个也可以留到【数据分析表】进行处理,但是如果【数据源表】有的话,后期分析期间可以直接重复引用,可以省掉很多计算逻辑及计算环节。

…………

针对这个还可以举很多例子,我们了解了。数据处理是一个承上启下的过程,即不让【原始数据表】有过多冗余字段,又可以让【数据分析表】处理逻辑减少。

2. 数据挖掘

数据挖掘是要发现几份数据背后的关联:

1)例如在财务定义【应收】、【实收】的数据中,发现还有几种状态类型数据:【业务待收收】、【业务已收未开票】、【业务坏账】。

在很多时候,直接将【应收】-【实收】定义未【差异】未收数据,业务就会针对数据管理者发起挑战。

2)例如在业务定义【毛利】的时候,根据一些汇报对象和场景需要,是会选择性将供应链过程的返点加进一起进行运算。所以数据管理者如果就简单的将【销售额】-【采购进价】=【毛利额】,那么在有些场合,就等着业务部门和你脸红脖子粗的掰扯吧。

3)例如,针对销售数据,大部分人会分析销售数据的毛利额、毛利率、客单价、同环比等情况。有部分人就会算一单一品率,会员回购率、坪效等等。更高阶者,甚至能发掘出更多的数据背后的管理逻辑。

…………

针对以上我们还可以举很多例子。会发现,数据管理者一定是要十分懂业务,才能做好【数据挖掘】的工作,真正成为数据管理专家。

三、数据分析表

很多表哥、表姐或者研发人员,会沉醉于Excel数据函数的应用或者算法逻辑当中。当然这些很考验一个人的逻辑能力与某项工具应用的技术能力,但如果太花时间在【数据分析表】上,其他的三个表所花费时间要么偏低,最后的【数据结果报告表】不能达到老板满意的要求;要么耗费数据管理人员很多时间,最后要各种熬夜加班。

所以在做【数据分析表】时,我们要理解,它首先是为【数据结果报告表】服务的,如果【数据结果报告表】的结论方向很明确且单一,数据工作者就无需花太多时间在【数据分析表】上进行炫技。针对此项内容,作者会在数据分析第二篇-Excel数据分析中进行阐述,告诉大家如何利用好函数、数据透视表解放自己的工作时间。

1. 明确分析方向

在进行数据分析时,我们要时时刻刻提醒自己,这个是要做【数据结果报告表】做数据支撑用的。如果对方是公司老板,那么他关注的数据是哪些层面的?如果对方是公司高管,那么他关注的数据是哪些层面的?如果对方是部门Leader,那么他关注的数据是哪些层面的?如果对方是某项业务的项目经理,那么他关注的数据是哪些层面的?

图-1

例如图-1,某项业务中,需要给部门Leader做收入数据汇报。这个时候,就一定要理清对方想要什么?通过数据分析,他想要达到什么目的?

此时我们可以从以下3方面入手:

1)数据现状分析

告诉leader,目前数据收入现状是什么?

2)数据管理提升

告诉leader,目前业务管理出了哪些重要问题,从哪几项着手可以有效进行改善,并利用好leader资源在会上进行改善举措推动。

3)业务预测建议

告诉leader,目前业务形态是怎么样的?持续下去的预测是怎么样的?从哪些方面进行优化?优化的预测又是怎么样的?

2. 调整分析维度

同时在做数据分析的过程中,发现数据的分析维度是可以多样的。同时有些数据分析的维度不一定具有规律性,此时就要调整【数据分析表】的分析方向,最终达到【数据结果报告表】的要求。

1)增加数据维度

例如图-1中,数据现状分析中,还可以引入客户维度数据分析等。

2)调整数据维度

例如图-1中,业务预测建议,在做数据分析的过程中,发现省区收入走势不具备规律性(即时间维度不具备分析性),此时可以调整为省区收入各类型占比。各类型占比可以看到不同业务形态在不同省区的不同发展情况。针对省区进行业务特定调整。

四、数据结果报告表

回归开篇,【数据结果报告表】需要:

  1. 整个过程的总结:①起因;②过程;③结果;④建议;
  2. 以报告的形式完整的呈现:①框架结构清晰,内容主次分明;②图文并茂;③明确的结论;④提供可行性建议或者解决方案。

这个时候发现做PPT或者一份比较好的图文结合的Excel可以达到上述要求。千万别长篇大论的用word文档去做【数据结果报告表】。

同时也不只是简单的把数据结果粘贴上去,让老板自己根据数据去得出结论,给到管理优化建议。那么你就不是一个合格的数据管理者。

其次需要注意的点:数据结论一定是根据数据得出,可以是多数据透视,也可以是单数据多维度对比。不能是由经验得出,很多初级数据分析者,会将经验结论数据结论搞混,没有数据支撑的【经验结论】,是不严谨的。哪怕结论是对的,那么你也不清楚应该通过优化哪些数据方向,去调整该项内容。

想做好一个数据管理者,理解好作者写的四份表,然后不停的去进行循环优化,提升自己的数据过程管理吧!

本文由 @蛋壳粥 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!