【读书笔记】数据分析学习总结(三):磨刀不误砍柴工——数据理解

起点学院产品经理365成长计划,2天线下闭门集训+1年在线学习,全面掌握BAT产品经理体系。了解详情

在这一篇中你将了解数据中字段、记录和数据类型等概念,以及制作数据表的六点要求,个人觉得对初接触数据的菜鸟我来说比较重要。

 

一、理解数据

    扎实的数据分析基本功不单是指挥使用数据分析工具,更重要的是对数据有深入认识和解读,对数据的理解是数据分析的一个重要前提。

    以一张学生们最熟悉不过的成绩表为例,介绍下数据都长什么模样。

1. 字段与记录

    这样的成绩表从数据分析的角度来看,就是一个典型的数据库。成绩表最上面的“学号”“姓名”“性别”“总分”等被称为字段,而每位同学的基本情况和成绩就构成了一条条的数据记录。

    字段是事物或现象的某种特征,在统计学中称为变量。 记录是事物或现象某种特征的具体表现,记录也称为数据或变量值。

2. 数据类型

    常见的数据类型主要有数字、文字、日期三类,其他的还有货币、时间等其他数据类型。

    如果你想知道到底有多少种数据类型,最简单的方法就是在Excel中任意选择一个单元格,单击鼠标右键-设置单元格格式中可以查看所有数据类型,如图所示:

    这么多的数据类型,最终可以归为两大类:字符型数据和数值型数据。两种类型顾名思义,区分的重要依据为后者可以直接用算术方法进行汇总和分析。

3. 数据表

    一张数据表的制作,可以侧面反映出制作者的数据沉淀及应用水平,数据表的设计是否合理,关系着后期数据分析的效率及深度。

    数据表设计的六点要求:

1)数据表由标题行和数据部分组成;

2)第一行是表的列标题(字段名),列标题不能重复

3)第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列

4)数据表中不能有合并单元格存在

5)数据表与其他数据之间应该留出至少一个空白行和一个空白列;

6)数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式存储数据

    对于以上数据表设计的几点要求,本人有所体会,我做的数据报表里有不少的合并单元格,基本都是为了满足一时之需,没有为后续数据分析做长远考虑和规划,还有就是在数据部分不要有空白行和空别列,这些都不是规范的数据表。

    肯定会有人问第六点中一维表和二维表是什么,先看下下面两个表格应该就能看出些区别,二维表如下图所示:

我使用Excel的数据透视表功能将上面的二维表变为了一维表如下图所示:

 

    两表的区别就在于,二维表的列标签是数据:2006年、2007年、2008年;而一维表的列标签是字段:地点、年份、GDP,而且表中每个指标就对应一个取值。

    至于转换方法,可参见网上各种讲解,使用数据透视表功能即可,这里不便于配图讲解,若有问题可联系我。

    可能大家对于以上的数据表要求还很迷茫,不知道为什么要做到不能有合并单元格,不能有数据空白,要用一维表而非二维表存储,相信在后面处理数据时我们会得到答案。

    就先说到这吧,其实没说完,但这种枯燥无味看似专业性较浓的东西写多了别人是看不下去的,等着用下微信平台的数据分析新功能看看情况。

     下一篇会讲数据来源的内容。

    本文系作者Junehi(微信公众账号:Junehi 授权发布,转载请注明来源于人人都是产品经理,并保留本文链接。

您的赞赏,是对我创作的最大鼓励。

评论( 0

登录后参与评论
加载中