数据产品经理,该如何搭建数据平台?

4 评论 25602 浏览 225 收藏 8 分钟

本文作者结合实际工作案例,介绍了在搭建数据平台的过程中数据产品经理需要注意的流程和使用的工具,与大家分享。

关于2B/2G数据平台搭建与一般软件开发流程整体一致,但是特殊性体现在用户和数据上。这里以之前做的一个数据监测平台为例,以数据为中心,介绍一下数据PM在整个数据平台开发过程中用到的工具与需重点关注的数据处理流程。

一、常用数据分析工具

1. 数据分析工具

  • Orange:可视化数据挖掘工具,无需coding;
  • SPSS:数据统计软件,需较强的数据分析能力;
  • Excel:数据统计软件,需入门级数据分析能力;

2. 数据来源工具

  • 百度指数:数据分享平台,只用于PM参考,无开放API;
  • 八爪鱼:爬虫工具,只用于PM参考,只支持windows平台;

3. 数据展示工具

  • Echarts:数据可视化插件,自带代码,可与技术人员共享;
  • Tableau:数据可视化分析、展示,可预设计动态数据界面;
  • 易词云:词云生成器,词云样式丰富。

二、重点数据处理流程

1. 流程概览

  1. 重点数据提取
  2. 数据采集
  3. 数据评估与运维
  4. 数据展示

2. 具体执行

(1)重点数据提取

我们提取重点数据是为了形成数据指标。在结合其他资深数据产品建议与自身开发经验的基础上,这里介绍一种相对全面实用的数据指标的建设方法:

数据指标=指标名称+业务大类+维度+汇总方式+量度+关联维度+时间

提取重点数据,即建立数据指标的过程中,需要产品进一步梳理产品映射的业务逻辑,设计产品底层的数据分析策略。同时基于此,也可协助技术开发人员打开数据表创建思路,以便后台数据库搭建(包括数据仓库建设)。

建立数据指标需重点把握业务大类和维度——

业务大类,一方面可直接按照B/G端客户的实际业务逻辑进行梳理,另一方面源自产品开发前期的需求分析内容——业务需求之外的其他需求,比如2G数据产品经常关注的舆情方面。在此过程中,需要细化信息颗粒度,全面覆盖需求进行汇总,再按照重要程度、业务内容进行取舍分类,形成业务大类。

维度,一般按照时间、空间、主体进行划分。

时间即指年月日以及更小的时间单位,在横向的时间轴上,数据既要涵盖对历史情况的回溯,又要包含对未来事件的预判(需要数据建模)。

空间方面,2B/2G产品关注的空间通常反映为行政等级——国家、省、市、地方等,尤其是对G端产品,这种空间划分涉及到用户权限配置,比如省级监管局可看到对应省辖区内的所有数据内容。时间与空间在后期的产品使用中,一般应支持用户下钻,进行更细致的信息查询。

主体指的产品业务逻辑所涉及到的人、物等,在政府数据监管平台中,这里包括受监管的企业、产品。不同的主体一般都存着在复杂的业务联系,所以在设计数据模块时应考虑到用户对相关的主体维度的关注,在之中创建便捷的跳转方法。

根据数据指标的定义,数据产品应该支持多种组合查询,数据展示模块中应具备联动功能,如不同的业务+不同的维度查询,形成筛选器,支持用户自主查询。

(2)数据采集

数据采集通常有三种方法:录入、抓取、建模。

  1. 录入,支持用户通过产品后台进行数据录入,这种信息通常是通过系统抓取难以获取的,比如数据来源不确定的信息,需要人工进行录入。
  2. 抓取:系统对不同数据源的数据进行抓取分析,进行展示,这种信息常为内容类。
  3. 建模:区别与录入与抓取的直接展示,数据建模主要应用于数据预测,对数据的处理更为复杂,先建模再生成新数据,对原有数据形成补充,完善数据信息或者对未来趋势形成预测,以支撑决策。

(3)数据评估与运维

数据评估、运维从PM出发,提供两个参考的角度:质量把控和重要级排序。

质量把控方面严格来讲,通常大的数据平台,需要建立专门的数据质量管理系统,对于元数据、接口稳定性等内容进行细致管理监控。在此,PM可以从数据的来源可靠性、优化处理、工具利用方法等方面进行评估把控,如对抓取信息的网站进行评估筛选,保证数据来源安全可靠。

重要级排序,在没有真正用户使用产品的前提下,这种排序是很难进行设计与用户之间的双向确认的,所以我们可以在进行产品设计时,允许用户后期对dashboard等页面的功能模块进行自定义的拖拉组建,对我们已经预设的数据内容重要级排序进行修正。

(4)数据展示

这里从功能、数据呈现方式两方面进行说明。

数据展示需要的功能在前面的重点数据提取——维度建立已经提过,最重要的是联动与下钻,这要求数据在系统中形成一个完整的信息链路,既可统揽汇总,又可细化查看,真正做成一个好用的数据工具。

数据呈现方式主要是数据布局和图表的选择。这里可以参考桃子狸的文章《“NCP疫情分析管控”数据可视化大屏设计总结》中的可视化设计部分。

结语

本篇着重介绍搭建数据平台过程中,PM对于数据处理需要掌握的工具与重点,基本出自笔者自身经验,多有不足还请大家指教~

 

本文由 @Lens-J 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

作者:产品经理小派

本文由 @产品经理小派 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 分析过于浅显而且总结也不是很完备。
    就比如数据采集的定义假如是前台展示用数据的来源,可以粗略地可以分为手工(包括后台录入,格式文件导入),自动(抓取,系统api推送,系统内逻辑处理)
    再比如,最开始的数据说明,时间是维度,空间地理也是维度,地理还可以有支撑维;维表建模是业务数据处理的第一步

    回复
    1. 我觉得您提出的问题是合理的,感谢指出。
      这里的总结只是针对产品经理角色的主要工作内容的,所以涉及到开发包括后台技术的内容未做深入分析。
      作者目前经验尚有不足,后期会根据实际执行情况再作补充。向您学习~

      来自北京 回复
  2. 大家期待已久的《数据产品经理实战训练营》终于上线啦!

    本课程非常适合新手数据产品经理,或者想要转岗的产品经理、数据分析师、研发、产品运营等人群。

    课程会从基础概念,到核心技能,再通过典型数据分析平台的实战,帮助大家构建完整的知识体系,掌握数据产品经理的基本功。

    学完后你会掌握怎么建指标体系、指标字典,如何设计数据埋点、保证数据质量,规划大数据分析平台等实际工作技能~

    现在就添加空空老师(微信id:anne012520),咨询课程详情并领取福利优惠吧!

    来自广东 回复
    1. x

      来自广东 回复